Installez vos outils pour la pratique de la data science

Interagir avec les outils en ligne de commande

Durant ce cours, nous allons souvent utiliser des commandes en bash dans le terminal (bien que vous puissiez utiliser l'interface graphique du logiciel anaconda ou d'autres)

Si vous utilisez un système d'exploitation GNU\Linux ou Mac OS, vous n'avez qu'a lancer un terminal pour pouvoir lancer les commandes bash
Sinon vous pouvez utiliser la console fournie avec anaconda
Pour les utilisateurs windows qui souhaiteraient avoir un environnement basé sur GNU\Linux, vous pouvez utiliser WSL

Installation de vos composants pour python

Dans ce cours, vous allez utiliser des gestionnaires de paquets et environnements virtuels et y installer python et ses principaux packages pour la data science.

Vous avez le choix d'utiliser pyenv ou conda (ou les deux) comme gestionnaire de paquets et d'environnements virtuels selon vos préférences. Référez vous à la leçon sur la gestion de paquets en python.

Installez une version de python >= 3.9

Si vous installez miniconda seul (recommandé)

Suivez la documentation d'installation officielle de miniconda. Installez la version la plus récente de la distribution miniconda, dans laquelle python et quelques paquets essentiels seront pré-installé

Si vous installez pyenv et pyenv-virtualenv seuls

documentation d'installation pour pyenv
documentation d'installation du plugin pyenv-virtualenv
Ensuite vous installez la dernière version stable de python 3.9 :

pyenv install 3.9.7

Vérifiez que conda est correctement installé

conda -V

Si vous avez déja installé anaconda au préalable sur votre machine, vérifiez si il est a jour, en tapant (Attention la mise à jour peut être assez longue):

conda update conda

Vérifiez que pyenv est correctement installé

pyenv --version

Vérifiez que vous avez bien installé une version de python > 3.9

python --version

Installation des modules python pour la data science

Si vous avez installé python via anaconda ou miniconda, la plupart des modules qui nous seront nécessaires devraient déja être installés.

Installer des paquets avec conda et/ou pip

Sinon vous pouvez les installer facilement en utilisant, en utilisant de préférence conda:

conda install <package_name>

Dans certains cas, certains modules ne seront pas installable via conda, mais uniquement via pip (l'installateur de packet officiel de python).

conda install pip

Pour plus de facilité vous pouvez installer pipà l'intérieur de votre environnement conda

conda install pip
conda install <package_name>

Cela vous permettra alors d'utiliser les fonctionnalités de pip, comme

pip install <package_name>

Tip

De manière générale, vous pouvez gérer efficacement les installations de vos modules python en ligne de commande via la documentation, mais vous pouvez aussi utiliser l'interface graphique d'anaconda (anaconda navigator):

anaconda-navigator

Par exemple, nous allons souvent utiliser scikit-learn, une librairie de référence pour faire du machine learning. Elle n'est pas toujours à jour de la dernière version dans la version d'anaconda installée, mais vous pouvez la mettre à jour en tapant:

conda update scikit-learn

Vous pourvez vérifier la version installée d'un paquet (dans l'exemple sckit-learn):

conda list sckit-learn

Quelques librairies classiques

La librairie Numpy

Numpy est une librairie très utilisé pour le calcul matriciel, en particulier pour le calcul avec des arrays à N dimensions

Dans la pratique, on importe ce paquet en utilisant souvent l'alias np. Vérifiez sa bonne installation:

pip show scipy

La librairie scipy

Scipy est une librairie de calcul scientique en général (et en particulier en statistiques)

Dans la pratique, on importe ce paquet en utilisant souvent l'alias sp. Vérifiez sa bonne installation:

pip show scipy

Info

La librairie Pandas est un véritable couteau suisse de l'analyse de données, extrêmement populaire lorsqu'il s'agit de gérer des données tabulaires hétérogènes. En particulier, on l'appelle souvent en tant que module python que l'on appelle, par convention, avec l'alias pd:

pip show pandas

Info

La librairie Pandas est un véritable couteau suisse de l'analyse de données, extrêmement populaire lorsqu'il s'agit de gérer des données tabulaires hétérogènes. En particulier, on l'appelle souvent en tant que module python que l'on appelle, par convention, avec l'alias pd:

pip show pandas

La librairie statsmodels

statsmodels est une librairie populaire pour l'inférence statistique (modèles, tests, ...) inspirée de la syntaxe patsy du langage R

Vérifier que statsmodel est bien installée en l'important:

pip show statsmodels

La librairie matplotlib

matplotlib est l'outil standart de représentation graphique utilisé en python (beaucoup de librairies reposent sur elles).

pip show sckit-learn

En particulier, on utilise souvent le module pyplot de matplotlib que l'on appelle, par convention, avec l'alias plt:

import matplotlib.pyplot as plt

La librairie seaborn

Le module seaborn, bien que moins complet que matplotib, est assez souvent utilisé lorsqu'on à besoin de visualisation impliquant des modèles statistiques et un rendu graphique de haute qualité. On l'appelle souvent en utilisant l'alias sns:

import seaborn as sns

Conseils : Interfaces de Développement (IDE)

Si vous n'avez pas beaucoup d'expérience avec les IDE et python, vous pourvez commencer par travailler avec l'IDE spyder, il est installé par défaut avec la distribution anaconda
Vous pouvez travailler aussi avec un IDE dans votre navigateur, en utilisant jupyter-lab qui est aussi installé par défaut avec la distribution anaconda . Nous allons beaucoup utiliser cette interface avec les notebooks durant le cours.
Pour ceux qui aiment les fonctionnalités plus avancées, je vous conseille d'utiliser (plutôt par la suite) l'IDE pycharm, bien plus complet mais aussi plus lourd.
Pour ceux qui aiment les interfaces épurées et personnalisable, vous pouvez travailler dans une console ipython dans votre terminal et votre éditeur de texte préféré (Sublime Text, VScode, ...)
Il existe de nombreux plugins ou IDE intégrant des IA génératives pour l'assistance au code. Par exemple :
copilot : l'outil de Microsoft, le plus connu (payant et propriétaire)
complete : un plugin à certains IDE (vscode) permettant d'attacher une modèle d'IA générative propriétaire ou ouvert avec un fonctionnement proche de celui de copilot
refact.ai : un outil open source, très complet et modulable, le mieux classé sur le fameux benchamrk de code SWE-bench. Je recommande ! ...