Data Science Lublin #6

Dominik Lewy – „Small data many models – historia naszych doświadczeń z forecastingiem”

Prezentacja: https://datasciencelublin.pl/link/prezentacje/dsl-6-sdmm/

Demand forecasting is not a Big Data class of problem yet the multitude of models we wanted to test in conjunction with the vast number of products we needed to provide forecast for resulted in usage of Kubernetes cluster for parallelizing computations. I will show you the whole journey from a data scientist perspective.

Konrad Adamczyk – „Jak zbudować dobry zbiór danych na potrzeby detekcji obiektów na obrazach”

Prezentacja: https://datasciencelublin.pl/link/prezentacje/dsl6-dataset-object-detection/

Budowanie zbioru danych na potrzeby detekcji obiektów na obrazach jest drogie, czasochłonne i skomplikowane. Podczas prezentacji przejdziemy przez całą ścieżkę prowadzącą do zbioru danych i zarazem modelu którego wyniki zadowolą biznes. Od definicji spójnego sposobu adnotacji, po narzędzia które pomogą nam bezboleśnie zarządzać grupą ludzi adnotujących obrazki, czy dzielić się ciekawymi fragmentami z publikacji naukowych. Jednak większość czasu spędzimy na omówieniu active learningu i sposobu na wybranie tych obrazów, których adnotacja przyniesie największe korzyści.

Data Science Lublin #5

Szczepan Serwatka – „Wykorzystanie AI i ML w narzędziach marketingowych na przykładzie BAZO aplikacji do identyfikacji ruchu na stronach internetowych przedsiębiorstw”

Marketing i sprzedaż to obszary, które najczęściej korzystają z AI oraz ML. Wdrażanie rozwiązań marketing automation jest coraz częściej praktykowane nie tylko w dużych firmach, ale również w sektorze MMŚP. Narzędzie BAZO jest wynikiem prac B+R nad unikalnym, autorskim algorytmem, który pozwala identyfikować podmioty korporacyjne odwiedzające stronę. Rozwiązania z obszaru quick marketingu pozwalają zaś wykorzystywać personalizację w komunikatach marketingowych. Celem narzędzia jest wzrost sprzedaży ze strony poprzez wsparcie działów handlowych za sprawą wykorzystania potencjału strony dzięki najnowszym technologiom.

Wojciech Koziej – „Upraszczanie – w krzywym zwierciadle”

Weźmiemy na blat problem przekształceń obrazów. Rozwiążemy (?) go za pomocą metod (głębokiego) uczenia maszynowego. Zobaczymy jak można można skomplikować proste rzeczy w słusznym celu: aby zdobyć wiedzę, doświadczenie i +30 do „dam radę”. Przejdziemy całą, wyznaczoną przez metodykę ML drogę, czyli skończmy w punkcie wyjścia (niech żyją iteracje)!

Data Science Lublin #4

Patryk Pilarski – „Analiza danych z Apache Spark”

Materiały: https://github.com/data-science-lublin/apache-spark-intro

Apache Spark to silnik do przetwarzania danych na dużą skalę, narzędzie to cieszy się ogromnym i wciąż rosnącym zainteresowaniem. Sukces Sparka wynika z jego szybkości oraz łatwości użycia. Oferowany szeroki wachlarz możliwości przetwarzania danych powoduje, że znajduje on zastosowanie w większości współczesnych systemów Big Data. Jak wygląda analiza danych w Sparku? Czy jest to przydatne narzędzie dla data scientista?

Miłosz Bednarzak – „Czy Data Scientist jest sokowirówką?”

Sztuczna Inteligencja opanowuje świat, musimy wdrażać inteligentne rozwiązania, by być na szczycie, a zespół Data Science, to jest to co musisz mieć w swojej dynamicznie rozwijającej się firmie… a przynajmniej tak mówią na spotkaniach Startupowców. Zastanówmy się czy rzeczywiście tak jest, albo zastanówmy się kiedy zespół Data Science i sztuczna inteligencja to jest to co przyniesie wartość naszemu biznesowi. Data Science jest ciekawym tworem, który stoi na przecięciu się developmentu, biznesu i świata akademickiego, wiąże się to z pewnymi “niechcianymi” naleciałościami, których uniknięcie pomoże w skutecznym rozwiązywaniu problemów biznesowych. W trakcie prezentacji spróbujemy odpowiedzieć sobie na pytania:
– Kiedy Data Science to dobry pomysł?
– Jak nie wpaść w pułapkę hype’u?
– Jak stosować brzytwę Ockhama w projekcie Data Science?
– Jakie są wady i zalety różnych rozwiązań?

Data Science Lublin #3

Kacper Łukawski – „Crowdsourcing, czyli jak uczyć się na błędach”

Poetykietowane zbiory danych o wysokiej jakości są niewątpliwie Świętym Graalem większości projektów „Data Science”, a te ogólnodostępne niekoniecznie okazują się być wystarczające do konkretnych zastosowań biznesowych. Crowdsourcing jest banalnie prostą metodą używaną przez gigantów w świecie uczenia maszynowego. Okazuje się jednak, że sam proces zbierania danych z jego wykorzystaniem, nie jest wcale tak prosty, jak mogłoby się początkowo wydawać. W trakcie prezentacji zastanowimy się w jaki sposób podejść do problemu tworzenia użytecznych zbiorów danych w warunkach ograniczonego dostępu do wiedzy ekspertów z danej dziedziny i przy ograniczonym budżecie. Opowiemy również o błędach, niekoniecznie własnych, które mogą zostać popełnione w trakcie całego tego procesu i wynikających z nich lekcjach na przyszłość. Na marginesie poruszymy także temat pewnych mechanizmów psychologicznych, które można wykorzystać, aby zachęcić ludzi do udziału w całym przedsięwzięciu.

Konrad Łyda – „Pracuj mądrze, nie ciężko – automatyzacja procesów przetwarzania danych i uczenia maszynowego”

Prezentacja: https://datasciencelublin.pl/link/prezentacje/dsl3-airflow/

W pewnym momencie cyklu życia naszego projektu analizy danych i budowania modeli uczenia maszynowego musimy wyjść z ciepłego środowiska naszego własnego laptopa i wdrażać nasze rozwiązania w większej skali. Świat dokoła się zmienia więc i nasze rozwiązanie musi być aktualizowane. Czy więc jesteśmy skazani na każdorazowe ręczne przeprowadzanie procesu od nowa, ewentualnie tworzenie własnych wielkich domków z kart randomowych skryptów, które zawalą się w przypadku pierwszego „dziwnego” przypadku na wejściu (patrz: https://xkcd.com/2054/)?
W prezentacji pokażemy, jak w tym drugim przypadku wykorzystać m.in. Airflow do budowania zautomatyzowanych i kontrolowalnych workflow’ów uczenia maszynowego, aby jak najbardziej zminimalizować konieczność ręcznego procesowania informacji i wykonywania powtarzalnych czynności, zachowując przy tym obszerny monitoring całego procesu i odzyskując czas na ciekawsze zajęcia 🙂 Pokażemy jak w kilku prostych krokach uruchomić i tworzyć takie rozwiązanie, które przeprowadzi za nas proces przygotowania danych, treningów, walidacji czy uruchomienia modelu produkcyjnie, a nas powiadomi jedynie wtedy, gdy konieczna będzie nasza interwencja.
Po prezentacji będziesz również uzbrojony/a w wiedzę, jak w kilku protych krokach zwalidować, czy takie rozwiązanie, jak Airflow, jest w stanie rozwiązać Twoje problemy automatyzacji procesów.

Łukasz Prażmo – „Obraz wart tysiąca słów – korzyści z analiz danych na mapach”

Wiele zasobów danych posiada atrybut przestrzenny, np. kod pocztowy, adres lub współrzędne. Istnieją również zbiory, które mogą być w łatwy sposób o taki atrybut wzbogacone. Daje nam to całkowicie nowe możliwości analizy i wizualizacji danych w postaci cyfrowych lub tradycyjnych map. Dzięki temu możemy wyciągnąć z nich wnioski, które nie zawsze są oczywiste, jeśli analizujemy te zasoby bez kontekstu przestrzennego.

Podczas prezentacji zostaną zaprezentowane przykłady analiz wykonanych dzięki połączeniu różnych baz danych, m.in. otwartych i biznesowych opracowanych na wewnętrzne potrzeby firmy lub naszych klientów. Niektóre efekty tych analiz wzbudziły w odbiorcach wiele emocji…

Data Science Lublin #2

Konrad Miciuła – „Grafowe bazy danych na podstawie Neo4j i języka Cypher”

Bazy grafowe są ciekawym, innym modelem reprezentowania danych. Struktura grafu z węzłami i krawędziami umożliwia wykorzystanie baz grafowych w realizacji zadań dla których bazy relacyjne nie są optymalnym rozwiązaniem. Prostota tworzenia obiektów, brak konieczności wcześniejszego definiowania skomplikowanej struktury bazy oraz wysoka wydajność są ciekawym, innym podejściem do przechowywania danych. Bazy grafowe mogą być przydatne przy realizacji zadań w Data Science. Celem prezentacji jest prezentacja podstaw baz grafowych na podstawie Neo4j oraz języka Cypher (CQL).

Kamil Filipek – „Data science – mity i fakty”

Celem prezentacji jest rozprawienie się z głównymi mitami związanymi z Data Science oraz przedstawienie najważniejszych faktów, trendów i rozwiązywanych problemów.​

Data Science Lublin #1

Dyskusja nad celami i rozwojem grupy Data Science Lublin & Integracja 🙂