Nauka danych – kierunek 21. wieku

Data science. Tyle o tym ostatnio czytałem.  Temat ląduje w kilku miejscach. Ludzie mówią : hype.  A jest atrakcyjny!  Dlaczego? Zaraz opowiem.  Poza tym – tak między nami – ile ten skaut może czekać na nowe dane..  Pan da 3? Pandas.

Motywacja

Pracuję tam gdzie dane są istotne.  Dane są jak kwiat.  Jak o niego zadbasz to potrafi urosnąć piękny i dorodny.  A jak nie to sobie tak leży i leży, smutny.

Dane są jak kwiatek

Dane potrafią być wszędzie, w logach, w plikach, w bazie a nawet w internecie.  Istotne jest to, by przekuć je w informacje, które dadzą wartość biznesową.  W tym mam nadzieję pomoże mi Introduction to Data Science na Udacity.

Dlaczego Pandasy

Wybrałem kurs na Udacity, bo trafia dokładnie w moje potrzeby.  W pracy korzystam z pandas i innych fajnych bibliotek, żeby znaleźć wzorce w działaniu wrażliwego jak niewiasta systemu oraz zrozumieć niezrozumiałe ruchy cholerycznych użytkowników.  Brakuje mi jednak czasem dokładnej wiedzy jak użycia narzędzia.  Czasem wiem jak użyć Pandasów ale brakuje mi pomysłu co jest najistotniejsze w danych.  A pomysł na szkolenie właśnie na tej platformie jest warunkowany także tym, że po prostu fajnie uczą, dużo filmików i kłizy.

Czas start

Będzie repo prowadzone

Trzymajcie kciuki.  Postaram się to skończyć – w przeciwieństwie do wielu innych nieu-niedo-kończonych projektów 🙂  Dwa miesiące – powinienem ogarnąć.  Może repo mnie wspomoże? To jest repo na githubie. Poszły już pierwsze commity z materiałami z początkowej lekcji.

Był początek – i co?

Na początek panom z UDAcity UDAło się mnie nauczyć statystycznego paradoksu. Fajnie jest to tutaj opisane.  Czyli ostrzeżenie! Nie wszystkie wnioski, do których dojdziesz kolego analityku/naukowco/programisto są dobre. Niektóre potrafią wręcz mylić. Statystyko strzeż się! Strzeż się statystyki też!