from sklearn import metrics

import numpy as np
from sklearn.dummy import DummyClassifier
X = np.array([-1, 1, 1, 1])
y = np.array([0, 1, 1, 1])

dummy_clf = DummyClassifier(strategy="most_frequent")
dummy_clf.fit(X, y)

dummy_clf.predict(X)

dummy_clf.score(X, y)

0.75

import numpy as np
from sklearn.dummy import DummyRegressor
X = np.array([1.0, 2.0, 3.0, 4.0])
y = np.array([2.0, 3.0, 5.0, 10.0])

dummy_regr = DummyRegressor(strategy="mean")
dummy_regr.fit(X, y)

dummy_regr.predict(X)

dummy_regr.score(X, y)

0.0

from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split

bikes = fetch_openml("Bike_Sharing_Demand", version=2, as_frame=True, parser='auto')

bikes.data.head()

bikes.target.head()

0    16
1    40
2    32
3    13
4     1
Name: count, dtype: int64

# Make an explicit copy to avoid "SettingWithCopyWarning" from pandas
X, y = bikes.data.copy(), bikes.target
# Split the data into a training set and a test set
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

numerical_features = [
    "temp",
    "feel_temp",
    "humidity",
    "windspeed",
]
categorical_features = X_train.columns.drop(numerical_features)

from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, QuantileTransformer

mlp_preprocessor = ColumnTransformer(
    transformers=[
        ("num", QuantileTransformer(n_quantiles=100), numerical_features),
        ("cat", OneHotEncoder(handle_unknown="ignore"), categorical_features),
    ]
)
mlp_preprocessor

ColumnTransformer(transformers=[('num', QuantileTransformer(n_quantiles=100),
                                 ['temp', 'feel_temp', 'humidity',
                                  'windspeed']),
                                ('cat', OneHotEncoder(handle_unknown='ignore'),
                                 Index(['season', 'year', 'month', 'hour', 'holiday', 'weekday', 'workingday',
       'weather'],
      dtype='object'))])

ColumnTransformer(transformers=[('num', QuantileTransformer(n_quantiles=100),
                                 ['temp', 'feel_temp', 'humidity',
                                  'windspeed']),
                                ('cat', OneHotEncoder(handle_unknown='ignore'),
                                 Index(['season', 'year', 'month', 'hour', 'holiday', 'weekday', 'workingday',
       'weather'],
      dtype='object'))])

['temp', 'feel_temp', 'humidity', 'windspeed']

QuantileTransformer(n_quantiles=100)

Index(['season', 'year', 'month', 'hour', 'holiday', 'weekday', 'workingday',
       'weather'],
      dtype='object')

OneHotEncoder(handle_unknown='ignore')

from sklearn.neural_network import MLPRegressor
from sklearn.pipeline import make_pipeline

print("Training MLPRegressor...")
mlp_model = make_pipeline(
    mlp_preprocessor,
    MLPRegressor(
        hidden_layer_sizes=(30, 15),
        learning_rate_init=0.01,
        early_stopping=True,
        random_state=0,
    ),
)
mlp_model.fit(X_train, y_train)

Training MLPRegressor...

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(transformers=[('num',
                                                  QuantileTransformer(n_quantiles=100),
                                                  ['temp', 'feel_temp',
                                                   'humidity', 'windspeed']),
                                                 ('cat',
                                                  OneHotEncoder(handle_unknown='ignore'),
                                                  Index(['season', 'year', 'month', 'hour', 'holiday', 'weekday', 'workingday',
       'weather'],
      dtype='object'))])),
                ('mlpregressor',
                 MLPRegressor(early_stopping=True, hidden_layer_sizes=(30, 15),
                              learning_rate_init=0.01, random_state=0))])

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(transformers=[('num',
                                                  QuantileTransformer(n_quantiles=100),
                                                  ['temp', 'feel_temp',
                                                   'humidity', 'windspeed']),
                                                 ('cat',
                                                  OneHotEncoder(handle_unknown='ignore'),
                                                  Index(['season', 'year', 'month', 'hour', 'holiday', 'weekday', 'workingday',
       'weather'],
      dtype='object'))])),
                ('mlpregressor',
                 MLPRegressor(early_stopping=True, hidden_layer_sizes=(30, 15),
                              learning_rate_init=0.01, random_state=0))])

ColumnTransformer(transformers=[('num', QuantileTransformer(n_quantiles=100),
                                 ['temp', 'feel_temp', 'humidity',
                                  'windspeed']),
                                ('cat', OneHotEncoder(handle_unknown='ignore'),
                                 Index(['season', 'year', 'month', 'hour', 'holiday', 'weekday', 'workingday',
       'weather'],
      dtype='object'))])

['temp', 'feel_temp', 'humidity', 'windspeed']

QuantileTransformer(n_quantiles=100)

Index(['season', 'year', 'month', 'hour', 'holiday', 'weekday', 'workingday',
       'weather'],
      dtype='object')

OneHotEncoder(handle_unknown='ignore')

MLPRegressor(early_stopping=True, hidden_layer_sizes=(30, 15),
             learning_rate_init=0.01, random_state=0)

from sklearn.model_selection import cross_validate

cv_results = cross_validate(mlp_model, X_train, y_train, cv=5, 
                            scoring = ['neg_mean_absolute_error',
                                       'neg_mean_squared_error',
                                       'max_error','r2'])

pd.DataFrame(cv_results)

cv_results['test_r2'].mean()

0.938133980593818

import matplotlib.pyplot as plt

from sklearn import svm, datasets
from sklearn.model_selection import train_test_split
from sklearn.metrics import ConfusionMatrixDisplay

# import some data to play with
iris = datasets.load_iris()
X = iris.data
y = iris.target
class_names = iris.target_names

# Split the data into a training set and a test set
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

# Run classifier, using a model that is too regularized (C too low) to see
# the impact on the results
classifier = svm.SVC(kernel="linear", C=0.01).fit(X_train, y_train)

confmat = ConfusionMatrixDisplay.from_estimator(
        classifier,
        X_test,
        y_test,
        display_labels=class_names,
        cmap=plt.cm.Blues,
)
confmat.ax_.set_title("Confusion matrix");

from sklearn.metrics import classification_report

print(classification_report(y_test,classifier.predict(X_test) , target_names=class_names))

              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        13
  versicolor       1.00      0.62      0.77        16
   virginica       0.60      1.00      0.75         9

    accuracy                           0.84        38
   macro avg       0.87      0.88      0.84        38
weighted avg       0.91      0.84      0.84        38

labels_true = [0, 0, 0, 1, 1, 1]
labels_pred = [0, 0, 1, 1, 2, 2]
metrics.rand_score(labels_true, labels_pred)

0.6666666666666666

labels_pred = [1, 1, 0, 0, 3, 3]
metrics.rand_score(labels_true, labels_pred)

0.6666666666666666

metrics.adjusted_rand_score(labels_true, labels_pred)

0.24242424242424243

labels_true = [0, 0, 0, 1, 1, 1]
labels_pred = [0, 0, 1, 1, 2, 2]

metrics.adjusted_mutual_info_score(labels_true, labels_pred)

0.2987924581708901

from sklearn import datasets
X, y = datasets.load_iris(return_X_y=True)

from sklearn.cluster import KMeans
kmeans_model = KMeans(n_clusters=3, random_state=42, n_init='auto').fit(X_train)
labels = kmeans_model.labels_

metrics.silhouette_score(X_train, labels, metric='euclidean')

0.5618512101716054

metrics.calinski_harabasz_score(X_train, labels)

433.0933726899339

from sklearn.metrics import davies_bouldin_score
davies_bouldin_score(X_train, labels)

0.6402727236753957

	season	month	hour	holiday	weekday	workingday	weather	temp	feel_temp	humidity
0	spring	1	0	False	6	False	clear	9.84	14.395	0.81
1	spring	1	1	False	6	False	clear	9.02	13.635	0.80
2	spring	1	2	False	6	False	clear	9.02	13.635	0.80
3	spring	1	3	False	6	False	clear	9.84	14.395	0.75
4	spring	1	4	False	6	False	clear	9.84	14.395	0.75

	fit_time	score_time	test_neg_mean_absolute_error	test_neg_mean_squared_error	test_max_error	test_r2
0	1.698149	0.010826	-30.098396	-2280.340766	-360.056151	0.929707
1	5.293706	0.020174	-28.083844	-1998.342875	-463.954552	0.939888
2	4.315770	0.013060	-27.319143	-1836.767237	-271.759472	0.942871
3	3.086931	0.009863	-28.370111	-2141.842609	-443.785465	0.936017
4	3.279214	0.011184	-27.561188	-1887.310100	-364.704323	0.942186

Leçon : Evaluation d'un modèle¶

Les métriques d'évaluation¶

Attention !¶

Score de référence (baseline)¶

Exemple de modèle baseline stupide avec sklearn ¶

Métriques de régression courantes ¶

Exemple de data set pour la régression¶

Mean Squared Error (MSE)¶

Root Mean Squared Error (MSE)¶

Mean Absolute Error (MAE)¶

Max Error¶

Le coefficient de détermination $R^2$¶

Exemples de comparaison de métrique durant la cross-validation¶

Métrique de classification courantes ¶

Matrice de confusion¶

Exemple de matrice de confusion pour une classification multiclasse¶

Accuracy score¶

Balanced accuracy score¶

Recall / sensitivity / true positive rate¶

Precision¶

F-score¶

Classification report ¶

Specificity / selectivity / true negative rate¶

ROC curve area (AUC)¶

Métriques multilabel ¶

Métriques de clustering¶

Métriques nécessitant la connaissance de labels¶

Le Rand Index ¶

Les métrique de type Information Mutuelle ¶

Quelques métriques agnostique des labels¶

Le score de silhouette ¶

L'index de Calinski-Harabasz ¶

L'index de Davies-Bouldin ¶

Analyse des relations entre variables¶

Analyse des relations entre features¶

Analyse des relations entre features et variable cible¶

Analyse de dépendance partielle (partial dependence plots - PDP)¶

Individidual conditional expectation plot (ICE)¶

Leçon : Evaluation d'un modèle¶

Les métriques d'évaluation¶

Attention !¶

Score de référence (baseline)¶

Exemple de data set pour la régression¶

Mean Squared Error (MSE)¶

Root Mean Squared Error (MSE)¶

Mean Absolute Error (MAE)¶

Max Error¶

Le coefficient de détermination $R^2$¶

Exemples de comparaison de métrique durant la cross-validation¶

Matrice de confusion¶

Exemple de matrice de confusion pour une classification multiclasse¶

Accuracy score¶

Balanced accuracy score¶

Recall / sensitivity / true positive rate¶

Precision¶

F-score¶

Specificity / selectivity / true negative rate¶

ROC curve area (AUC)¶

Métriques de clustering¶

Métriques nécessitant la connaissance de labels¶

Les métrique de type Information Mutuelle¶

Quelques métriques agnostique des labels¶

Analyse des relations entre variables¶

Analyse des relations entre features¶

Analyse des relations entre features et variable cible¶

Analyse de dépendance partielle (partial dependence plots - PDP)¶

Individidual conditional expectation plot (ICE)¶

Les métrique de type Information Mutuelle ¶