import pandas as pd
import numpy as np
from sklearn.datasets import load_iris

# on utilise encore le dataset iris pour la démo
iris = load_iris()
data = pd.DataFrame(data= np.c_[iris['data'], iris['target']],
                     columns= iris['feature_names'] + ['target'])
data.drop(columns=['sepal length (cm)', 'sepal width (cm)'], inplace=True)
data.head(3)

X = data.drop(columns=['target']).values
y = data.target.values

# On entraine un DecisionTreeClassifier
from sklearn.tree import DecisionTreeClassifier
tree_clf = DecisionTreeClassifier(max_depth=2, random_state=2)
tree_clf.fit(X,y)

DecisionTreeClassifier(max_depth=2, random_state=2)

from sklearn import tree
tree.plot_tree(tree_clf,
               feature_names = data.drop(columns=['target']).columns,
               class_names=['0','1','2','3'], 
               rounded=True, filled=True);

# Calcul du critère de Gini du noeud vert
1 - 0**2 - (49/54)**2 - (5/54)**2

0.1680384087791495

# prediction de la cellule verte
print(tree_clf.predict([[4,1]]))

[1.]

print(tree_clf.predict_proba([[4,1]]))
# il le s'agit pas réellement de probabilité, mais plutôt d'un ratio

[[0.         0.90740741 0.09259259]]

import matplotlib.pyplot as plt
def plot_decision_regions(X, y , classifier, features=[0,1], n_classes = len(np.unique(y)), 
                          figsize = (5,5), cmap=plt.cm.RdYlGn, plot_colors='ryb',
                          plot_step = 0.02):
    
    # keep only a pair of features
    X = X[:,features] 
    
    # Plot the decision boundary
    fig, ax = plt.subplots(1, 1, figsize=figsize)

    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx, yy = np.meshgrid(
        np.arange(x_min, x_max, plot_step), np.arange(y_min, y_max, plot_step)
    )
    plt.tight_layout(h_pad=0.5, w_pad=0.5, pad=2.5)

    Z = classifier.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    cs = plt.contourf(xx, yy, Z, cmap=cmap)

    plt.xlabel(iris.feature_names[features[0]])
    plt.ylabel(iris.feature_names[features[1]])

    # Plot the training points
    for i, color in zip(range(n_classes), plot_colors):
        idx = np.where(y == i)
        plt.scatter(
            X[idx, 0],
            X[idx, 1],
            c=color,
            label=iris.target_names[i],
            cmap=plt.cm.RdYlBu,
            edgecolor="black",
            s=15,
        )
    plt.title("Decision surface")
    plt.legend(borderpad=0, handletextpad=0)

plot_decision_regions(X, y, tree_clf)

from sklearn.datasets import make_moons
n=600
X_moon,y_moon = make_moons(n_samples=n, noise=0.25, random_state=0)
plt.scatter(X_moon[:,0], X_moon[:,1], c=y_moon);

from sklearn.ensemble import RandomForestClassifier

rf = RandomForestClassifier(max_depth=5,oob_score=True)
rf.fit(X_moon, y_moon)
plot_decision_regions(X_moon, y_moon, classifier=rf)

from sklearn.ensemble import BaggingClassifier
from sklearn.neighbors import KNeighborsClassifier

weak_learner = KNeighborsClassifier(n_neighbors=3)
bagged_model = BaggingClassifier(weak_learner, n_estimators=40,oob_score=True)

bagged_model.fit(X_moon, y_moon)
plot_decision_regions(X_moon, y_moon, classifier=bagged_model)

print(f"Score on test set: {rf.score(X_moon,y_moon)}")
print(f"Score with out-of-bag: {rf.oob_score_}")

Score on test set: 0.9466666666666667
Score with out-of-bag: 0.9166666666666666

from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_validate

data, target = load_iris(as_frame=True, return_X_y=True)

X_train, X_test, y_train, y_test = train_test_split(
        data, target, test_size=0.3, random_state=42)

rf = RandomForestClassifier(max_depth=5,oob_score=True)
rf.fit(X_train, y_train)
cv_results = cross_validate(rf, X_train, y_train, cv=5)

print(f"Cross-validated training & score on validation set: {cv_results['test_score'].mean()}")
print(f"Score on test set: {rf.score(X_test,y_test)}")

Cross-validated training & score on validation set: 0.9428571428571428
Score on test set: 1.0

import seaborn as sns
feature_scores = pd.Series(rf.feature_importances_,index=data.columns).sort_values(ascending=False)
sns.barplot(x=feature_scores, y=feature_scores.index)
plt.xlabel('Feature Importance Score')
plt.ylabel('Features')
plt.title("Feature importance")
plt.show()

from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier


adaboost = AdaBoostClassifier(
    DecisionTreeClassifier(max_depth=3),
    n_estimators=50)
adaboost.fit(X_train,y_train)
cv_results = cross_validate(adaboost, X_train, y_train, cv=5)

print(f"Cross-validated training & score on validation set: {cv_results['test_score'].mean()}")
print(f"Score on test set: {adaboost.score(X_test,y_test)}")

Cross-validated training & score on validation set: 0.9428571428571428
Score on test set: 1.0

from sklearn.ensemble import GradientBoostingRegressor
gb = GradientBoostingRegressor(
    n_estimators=100, 
    learning_rate=0.1,
    max_depth=3
)
gb.fit(X_train,y_train)
cv_results = cross_validate(adaboost, X_train, y_train, cv=5)

print(f"Cross-validated training & score on validation set: {cv_results['test_score'].mean()}")
print(f"Score on test set: {gb.score(X_test,y_test)}")

Cross-validated training & score on validation set: 0.9428571428571428
Score on test set: 0.9881685629476077

import xgboost as xgb
from sklearn import metrics
from sklearn.model_selection import GridSearchCV 

def auc(m, train, test): 
    return (metrics.roc_auc_score(y_train,m.predict_proba(train)[:,1]),
                            metrics.roc_auc_score(y_test,m.predict_proba(test)[:,1]))

# Instance & définition de la grille de parametres
model = xgb.XGBClassifier()
param_dist = {"max_depth": [10,30,50],
              "min_child_weight" : [1,3,6],
              "n_estimators": [200],
              "learning_rate": [0.05, 0.1,0.16],}
# grid search
grid_search = GridSearchCV(model, param_grid=param_dist, cv = 3, 
                                   verbose=10, n_jobs=-1)
grid_search.fit(X_train, y_train)

grid_search.best_estimator_

model = xgb.XGBClassifier(max_depth=50, min_child_weight=1,  n_estimators=200,\
                          n_jobs=-1 , verbose=1,learning_rate=0.16)
model.fit(X_train,y_train)

auc(model, X_train, test)

from sklearn.ensemble import StackingClassifier
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import LinearSVC
from sklearn.linear_model import LogisticRegression

estimators = [
    ('rf', RandomForestClassifier(n_estimators=10, random_state=42)),
    ('svr', make_pipeline(StandardScaler(),
                          LinearSVC(random_state=42)))
]

stacked_model = StackingClassifier(
    estimators=estimators, final_estimator=LogisticRegression(),cv=5)

stacked_model = stacked_model.fit(X_train,y_train)
cv_results = cross_validate(stacked_model, X_train, y_train, cv=5)

print(f"Cross-validated training & score on validation set: {cv_results['test_score'].mean()}")
print(f"Score on test set: {gb.score(X_test,y_test)}")

Cross-validated training & score on validation set: 0.9523809523809523
Score on test set: 0.9881685629476077

Bagging	Boosting	Stacking
Modèles individuels homogènes	Modèles individuels homogènes	Modèles individuels hétérogènes
Classification & Régression	Classification & Régression	Classification & Régression
entrainements en parallèle	entrainements séquentiel	parallèle &séquentiel
vise à réduire la variance	vise à réduire le biais
plutôt utilisé avec des arbres de décision profond	plutôt utilisé avec des arbres de décision peu profonds	dépend des modèles individuels
`BaggingEstimatorsRandomForest`,	`Adaboost`	`VotingClassifier` & `VotingRegressor`
`ExtremelyRandomisedTrees`	`GradientTreeBoosting`	`StackingClassifier`&`StackingClassifier`
	`XBoost`,`LightGBM`,`CatBoost`

Leçon : Méthodes ensemblistes¶

Principe général¶

Familles de méthodes ensemblistes¶

Retour sur les arbres de décision¶

Arbres de décision pour la classification ¶

Critère de division des noeuds¶

Construction d'un arbre¶

Prédiction¶

On peut voir les arbres de décision comme des classifieurs "orthogonaux"¶

Arbres de décision pour la régression ¶

Critère de division des noeuds¶

Construction de l'arbre de régression¶

Le bagging (Boostrap Aggrégating)¶

Les méthodes d'échantillons aléatoires du dataset ¶

Aggrégation des apprenants faible et décision finale¶

Exemple avec le data set moon¶

Avec un RandomForestClassifier¶

Ou un bagging de KNNs¶

Out-of-bag samples¶

Feature importance¶

Avantages et inconvénients¶

Le Boosting¶

Adaboost (Adaptative boosting)¶

Décision finale¶

Exemple avec un AdaBoost composé d'arbre de décision¶

Gradient Boosting¶

Implémentations¶

XGBoost (eXtreme Gradient Boosting)¶

LightGBM ¶

CatBoost ¶

Avantages & Inconvénients¶

Le Stacking¶

Implémentations¶

Stacking multi couches¶

Résumé¶

Sources et lectures supplémentaires¶

	petal length (cm)	petal width (cm)
0	1.4	0.2
1	1.4	0.2
2	1.3	0.2

Leçon : Méthodes ensemblistes¶

Principe général¶

Familles de méthodes ensemblistes¶

Retour sur les arbres de décision¶

Arbres de décision pour la classification¶

Critère de division des noeuds¶

Construction d'un arbre¶

Prédiction¶

On peut voir les arbres de décision comme des classifieurs "orthogonaux"¶

Arbres de décision pour la régression¶

Critère de division des noeuds¶

Construction de l'arbre de régression¶

Le bagging (Boostrap Aggrégating)¶

Les méthodes d'échantillons aléatoires du dataset¶

Aggrégation des apprenants faible et décision finale¶

Exemple avec le data set moon¶

Avec un RandomForestClassifier¶

Ou un bagging de KNNs¶

Out-of-bag samples¶

Feature importance¶

Avantages et inconvénients¶

Le Boosting¶

Adaboost (Adaptative boosting)¶

Décision finale¶

Exemple avec un AdaBoost composé d'arbre de décision¶

Gradient Boosting¶

Implémentations¶

XGBoost (eXtreme Gradient Boosting)¶

LightGBM¶

CatBoost¶

Avantages & Inconvénients¶

Le Stacking¶

Implémentations¶

Stacking multi couches¶

Résumé¶

Sources et lectures supplémentaires¶

Arbres de décision pour la classification ¶

Arbres de décision pour la régression ¶

Les méthodes d'échantillons aléatoires du dataset ¶

LightGBM ¶

CatBoost ¶