Installez vos outils pour la pratique de la data science
Interagir avec les outils en ligne de commande
Durant ce cours, nous allons souvent utiliser des commandes en bash
dans le terminal (bien que vous puissiez utiliser l'interface graphique du logiciel anaconda ou d'autres)
- Si vous utilisez un système d'exploitation GNU\Linux ou Mac OS, vous n'avez qu'a lancer un terminal pour pouvoir lancer les commandes
bash
- Sinon vous pouvez utiliser la console fournie avec anaconda
- Pour les utilisateurs windows qui souhaiteraient avoir un environnement basé sur GNU\Linux, vous pouvez utiliser WSL
Installation de vos composants pour python
Dans ce cours, vous allez utiliser des gestionnaires de paquets et environnements virtuels et y installer python et ses principaux packages pour la data science.
Vous avez le choix d'utiliser pyenv
ou conda
(ou les deux) comme gestionnaire de paquets et d'environnements virtuels selon vos préférences. Référez vous à la leçon sur la gestion de paquets en python.
Installez une version de python >= 3.9
Si vous installez miniconda seul (recommandé)
Suivez la documentation d'installation officielle de miniconda. Installez la version la plus récente de la distribution miniconda, dans laquelle python et quelques paquets essentiels seront pré-installé
Si vous installez pyenv et pyenv-virtualenv seuls
- documentation d'installation pour pyenv
- documentation d'installation du plugin pyenv-virtualenv
Ensuite vous installez la dernière version stable de python 3.9 :
pyenv install 3.9.7
Vérifiez que conda
est correctement installé
conda -V
conda update conda
Vérifiez que pyenv
est correctement installé
pyenv --version
Vérifiez que vous avez bien installé une version de python > 3.9
python --version
Installation des modules python pour la data science
Si vous avez installé python via anaconda ou miniconda, la plupart des modules qui nous seront nécessaires devraient déja être installés.
Installer des paquets avec conda et/ou pip
Sinon vous pouvez les installer facilement en utilisant, en utilisant de préférence conda
:
conda install <package_name>
pip
(l'installateur de packet officiel de python).
conda install pip
pip
à l'intérieur de votre environnement conda
conda install pip
conda install <package_name>
pip
, comme
pip install <package_name>
Tip
De manière générale, vous pouvez gérer efficacement les installations de vos modules python en ligne de commande via la documentation, mais vous pouvez aussi utiliser l'interface graphique d'anaconda (anaconda navigator):
anaconda-navigator
Par exemple, nous allons souvent utiliser scikit-learn, une librairie de référence pour faire du machine learning. Elle n'est pas toujours à jour de la dernière version dans la version d'anaconda installée, mais vous pouvez la mettre à jour en tapant:
conda update scikit-learn
Vous pourvez vérifier la version installée d'un paquet (dans l'exemple sckit-learn):
conda list sckit-learn
Quelques librairies classiques
La librairie Numpy
Numpy est une librairie très utilisé pour le calcul matriciel, en particulier pour le calcul avec des arrays
à N dimensions
Dans la pratique, on importe ce paquet en utilisant souvent l'alias np
. Vérifiez sa bonne installation:
pip show scipy
La librairie scipy
Scipy est une librairie de calcul scientique en général (et en particulier en statistiques)
Dans la pratique, on importe ce paquet en utilisant souvent l'alias sp
. Vérifiez sa bonne installation:
pip show scipy
Info
La librairie Pandas est un véritable couteau suisse de l'analyse de données, extrêmement populaire lorsqu'il s'agit de gérer des données tabulaires hétérogènes.
En particulier, on l'appelle souvent en tant que module python que l'on appelle, par convention, avec l'alias pd
:
pip show pandas
Info
La librairie Pandas est un véritable couteau suisse de l'analyse de données, extrêmement populaire lorsqu'il s'agit de gérer des données tabulaires hétérogènes.
En particulier, on l'appelle souvent en tant que module python que l'on appelle, par convention, avec l'alias pd
:
pip show pandas
La librairie statsmodels
statsmodels est une librairie populaire pour l'inférence statistique (modèles, tests, ...) inspirée de la syntaxe patsy
du langage R
Vérifier que statsmodel est bien installée en l'important:
pip show statsmodels
La librairie matplotlib
matplotlib est l'outil standart de représentation graphique utilisé en python (beaucoup de librairies reposent sur elles).
pip show sckit-learn
En particulier, on utilise souvent le module pyplot de matplotlib que l'on appelle, par convention, avec l'alias plt
:
import matplotlib.pyplot as plt
La librairie seaborn
Le module seaborn, bien que moins complet que matplotib, est assez souvent utilisé lorsqu'on à besoin de visualisation impliquant des modèles statistiques et un rendu graphique de haute qualité. On l'appelle souvent en utilisant l'alias sns
:
import seaborn as sns
Conseils : Interfaces de Développement (IDE)
- Si vous n'avez pas beaucoup d'expérience avec les IDE et python, vous pourvez commencer par travailler avec l'IDE spyder, il est installé par défaut avec la distribution anaconda
- Vous pouvez travailler aussi avec un IDE dans votre navigateur, en utilisant jupyter-lab qui est aussi installé par défaut avec la distribution anaconda . Nous allons beaucoup utiliser cette interface avec les notebooks durant le cours.
- Pour ceux qui aiment les fonctionnalités plus avancées, je vous conseille d'utiliser (plutôt par la suite) l'IDE pycharm, bien plus complet mais aussi plus lourd.
- Pour ceux qui aiment les interfaces épurées et personnalisable, vous pouvez travailler dans une console ipython dans votre terminal et votre éditeur de texte préféré (Sublime Text, VScode, ...)
- Il existe de nombreux plugins ou IDE intégrant des IA génératives pour l'assistance au code. Par exemple :
copilot : l'outil de Microsoft, le plus connu (payant et propriétaire)
complete : un plugin à certains IDE (vscode) permettant d'attacher une modèle d'IA générative propriétaire ou ouvert avec un fonctionnement proche de celui de copilot
...