Troisième article de la série sur mes ressources de code favorites, celui-ci sur les ressources de science des données.
Comme dans les articles précédents, je vise à fournir une liste courte mais hautement pertinente.
Think Like a Data Scientist
Le livre Think Like a Data Scientist. Oui, un.e scientifique de données a le droit de lire un livre imprimé. Incroyable, n'est-ce pas? Ce livre est très utile pour comprendre le contexte et la raison d'être de la science des données. Pour le lire en ligne, on peut le faire via le site de la Bibliothèque et Archives nationales du Québec.
Parcours de science des données
Le parcours proposé par Data Science Pulse constitue un survol clair et séquentiel avec juste la bonne quantité d'information. Je n'insisterai jamais assez sur la valeur qu'apporte une liste d'étapes déjà ordonnées.
Tutoriels de Real Python
Le parcours Data Science Python Core Skills de Real Python vient pour sa part avec des tutoriels vidéo sur les aspects pratiques de la science des données en Python, tels que le bloc-notes Jupyter, la librairie Pandas, et la lecture de fichiers CSV et JSON.
Kaggle
Le site Kaggle possède une grande quantité d'ensembles de données, classés notamment par thème et utilisabilité. On recommande de commencer avec un ensemble dont l'utilisabilité est de 10 (sur 10). Heureusement, il en existe un nombre non-négligeable. Pour ma part, je suggère en plus de choisir un thème à l'intersection de ce qui vous intéresse vraiment et de ce qui est recherché par le marché.
Kaggle organise aussi des concours. A noter que gagner un concours sur Kaggle paraît bien sur un CV.
Le subreddit datascience est intéressant pour poser des questions moins techniques ou plus générales qui n'entrent pas dans le mandat de Stack Overflow.
Dans le quatrième article de cette série, il sera question des ressources en apprentissage machine.