A négy adattudományi készség, amelyet nem tanultam meg az általános iskolában (és hogyan lehet ezeket megtanulni!)

Fotó: Element5 Digital az Unsplash-en

Mielőtt eljutnék ennek a posztnak a húsához, egy dolgot rendkívül egyértelmûvé akarok tenni: nincs szükség diplomára, hogy adattudós legyen. Hacsak nem csúcstechnikai gépi tanulást végez (amely, legyünk őszinték, nem írja le az adattudósok 99,9% -át - beleértve engem is!), Nincs szükség arra, hogy kutatásokat végezzen. Bárki, aki másképp mondja, megpróbál eladni neked valamit - valószínűleg adattudományi diplomát.

Ennek ellenére sok értékes készséget megtanultam a grad iskolában. Megtanultam, hogyan kell kezelni a rendetlen adatokat, jó kérdéseket feltenni, meghatározni, hogy melyik statisztikai eszközt kell használni egy adott helyzetben, hogyan kell írni kódot a statisztikai számításhoz és a gépi tanuláshoz, és utoljára, de nem utolsósorban, egyértelműen közölni a műszaki fogalmakat.

Ezek mind olyan készségek, amelyekre minden adattudósnak szüksége van. Ezek nem az egyetlen képesség, amelyre az adattudósnak szüksége van. Az általános iskolából az iparba való átmenet két legnehezebb része számomra a következő volt: 1) azonosítottam a hiányzó készségeket és 2) kitaláltam a legjobb módszert számomra, hogy fel tudjam gyorsítani őket.

Szerencsére, ha ugyanabban a helyen vagyok, ahol voltam, fedeztem téged. További beavatkozás nélkül itt van négy adattudományi készség, amelyeket nem tanultam meg az általános iskolában, néhány gyakorlati tippkel együtt, hogyan lehet ezeket megtanulni.

SQL

Megállapítottam, hogy a legtöbb végzettséggel rendelkező hallgató, aki az adattudományt karrierként vizsgálja, már ismeri az R vagy a Python (vagy mindkettő!) Ismereteit. Másrészt ezen a pozíción sokkal kevesebb ember ismeri az SQL-t. És ez akkor jelenthet problémát, ha készen állsz az adattudományi munkaerőpiacra: a Python és az R után az SQL az adattudományban a harmadik legszélesebb körben használt eszköz.

Az SQL (általában „folytatása” -ként ejtik) egy programozási nyelv, amely kifejezetten az adatbázisokkal való interakcióhoz szükséges. Nagyon ritka, ha akadémiai környezetben használják, de az iparban mindenütt jelen van. Szerencsére az alapokat viszonylag könnyű megtanulni, és rengeteg oktatási erőforrás van az induláshoz.

Hogyan kell megtanulni az SQL-t:

  • Résztvenni egy tanfolyamon. Sok online lehetőség létezik, ideértve a Khan Academy, a DataCamp, a Stanford és az Udemy tanfolyamát is. A személyes kurzusokat kicsit nehezebb megtalálni, de ha ellenőriz egy helyi egyetemet, közösségi főiskolát vagy kódtáborot, szerencsés lehet.
  • SQL portfólió fejlesztése. Példák arra, hogy képesek-e valós adatbázisokban lekérdezéseket írni, jó bizonyíték arra, hogy ismeri a nyelvet. Az egyik lehetőség, hogy kernelt (azaz hosztolt R vagy Python notebookot) írjunk a Kaggle BigQuery adatkészleteire. Gyors útmutatást írtam az induláshoz. (Teljes nyilvánosságra hozatal: A Kaggle-nél dolgozom. :) A HackerRanknak és az SQLZOO-nak is nagyon sok SQL gyakorlata van.

Általános lenni

A Grad iskola remek! Napi munkája kiterjeszti az emberi ismeretek határait, ami nagyon meglepő. A fokozat végzése közben ténylegesen egy konkrét témába foglalkozik, és egyre pontosabb kérdéseket tesz fel egy szűkebb és keskenyebb területen. Végül te vagy a legismertebb személy a bolygón a kis al-al-al-rést illetően. Ebben nincs semmi baj: csak az, hogyan működik a tudományos kutatás.

Az adattudomány nem így működik. Hacsak nem nagyon szerencsés, és azon a ponton dolgozik, amelyen dolgozatot vagy dolgozatot írtál, akkor számíthat arra, hogy a te területeden kívüli problémákkal azonnal azonnal foglalkozik. És nem csak a terepen kívüli dolgok: a tereptől származó problémák, amelyekről még soha nem hallottál. Nagyon gyorsan hozzá kell szoknia azon dolgokat dolgozni, amelyekben nem vagy szakértő.

Íme néhány módszer, hogy jobban tudjunk lenni a generalistaként:

  • Olvassa el a tudományágon kívül. Az akadémiai tudományágak általában a statisztikai eszközök speciális készletét használják. Például a szociolingvisztikában sokat dolgozunk vegyes hatású regresszióval - de sok más statisztikai megközelítés is létezik. A különféle tudományágakban végzett munkák során sokféle technika és probléma merül fel, és elősegítheti, hogy először kényelmesen ugrálj egy új témához.
  • Gyakorold az új típusú adatok elemzését. Az adattudósoknak mindenféle adattal együtt kell működniük. Valószínűleg már van mély tapasztalata az egyik típusú adatokkal kapcsolatban, de fontolja meg az elágazást. Dolgoztál idősorokkal? Szöveg? Képek? Videó? Hang? Előzetesen kiképzett modellek? Relációs adatbázisok? Mutasd meg, milyen hiányosságok vannak a tudásban, és próbáld ki a kezed, ha új és más forrásokkal dolgozol. (Kötelező csatlakozó: A Kaggle több mint 10 ezer nyilvános adatkészlettel rendelkezik, nagyon sokféle forrásból. Megtekintheti a Zenodo vagy az Dataverse projektet is.)
  • Beszéljen a műszaki koncepciókról a területen kívüli emberekkel. Nem csak sokat fog tanulni, hanem esélyt is kap arra, hogy gyakorolja a műszaki fogalmak magyarázatát azoknak az embereknek, akik nem osztják meg az Ön konkrét tudományos hátterét.

Forrás / verzió vezérlés

Ez egy kicsit csaló számomra: Valójában a grad iskolában megtanultam a forrásvezérlést, egy szoftver-asztalos műhelynek köszönhetően. Így tehát annyira értékes, és tudom, hogy a gimnáziumban lévő legtöbb társam nem volt kitéve ennek.

A forrásvezérlés, más néven verzióvezérlés, egy módja annak, hogy kezelni lehessen az egyetlen központosított dokumentum- vagy kódbázis módosításait. Az alapötlet az, hogy a munkáját bármi máson elvégzi, amelyen dolgozik, és minden ilyen gyakran használja az eredeti frissítéséhez. Ez az egyedi projekteknél hasznos (lehetővé teszi, hogy visszatérjen arra a verzióra, amely ténylegesen működött, és kitalálja, mi történt), és nagyjából kötelező a műszaki együttműködés szempontjából.

Hogyan lehet megtanulni a verziószabályozást:

  • Használjon verzióvezérlést minden egyes kutatási projektnél és a továbbiakban papírokon. 100% -ban komoly vagyok. Az egész disszertációm verzióvezérlésű volt, és oly sokszor megmentette a seggem, hogy elvesztettem a számlálómat.
  • Használja a GitHub-ot személyes projektjeihez (ha van ilyen) vagy kutatásához, amelyet megoszthat. Ez nem kötelező, de akkor hasznos, ha csatlakozik egy olyan csapathoz, amely GitHub-ot használ. Ezenkívül az aktív GitHub profil az egyik módja annak, hogy bemutassa munkafolyamatait a potenciális munkaadóknak.

Megáll a „Jó elég” -nél

Amikor egyetemi környezetben dolgozik, akkor tényleg meg kell győződnie arról, hogy minden jó, amilyen lehet. Munkádat szorosan értékelni fogják a szakértők, és ha összegyűlik, véglegesen hozzáadják a tudományos irodalomhoz. Másrészről, ha iparági környezetben dolgozik, sokkal jobb, ha van valami hasznos, mint végül nagyon csiszolt.

Az egyik első olyan kifejezés, amelyet megtanultam egy iparági környezetben dolgozni, az MVP, vagyis “Minimálisan életképes termék” volt. Az ötlet az, hogy megosztasz valamit, amikor ez elég jó ahhoz, hogy kielégítse az emberek egy részét, aki interakcióba lép vele. Adattudományi környezetben ez azt jelenti, hogy nem válaszol meg minden kérdésre, amelyet az adatokkal megválaszolhat, vagy olyan modellt alkalmazhat, amely kevésbé pontos, mint amennyire lehetséges lenne további hangolás esetén. Lehet, hogy később van ideje mélyebb elemzésre vagy további hangolásra, de készen kell állnia arra, hogy megossza a projekteket abban a pillanatban, amikor „elég jó” lesz.

Hogyan javíthatjuk annak látását, ami elég jó:

  • A „most kész” azonosításának munkája. A következő alkalommal, amikor egy projekten dolgozik, hagyjon abba az időnként, talán mielőtt mindennap összefoglalna, és gondoljon arra, hogy készített-e már valami értékesat (valószínűleg már!). Szánjon egy percet annak gyakorlására, hogyan írhatja le, hogy mi hasznos vagy érdekes a már elvégzett munkában.
  • Fontolja meg kutatása közbenső szakaszának megosztását. Ha tudod, fontolja meg a következő kutatási projekt közbenső szakaszának megosztását, talán egy blogban vagy egy labortársakkal. Lehet, hogy még nem áll készen a reflektorfényre, de az elemző regénye ez a darab? Tanult valamit, amit érdemes megosztani az adatgyűjtés során? Mit csináltál már olyan jót, hogy valaki más értékesnek találja?

És megvan neked, négy kulcsfontosságú készség, amelyet többé-kevésbé használok minden nap, amit az általános iskolában nem tanítottak. Egyéb adatok: nyugodtan válasszon a szükséges készségekkel, amelyeket felvette, miután befejezte a fokozatát!