Table of contents
  1. Load datasets
  2. train_test_split
  3. StandardScaler
  4. make piplines

Load datasets

from sklearn import datasets

iris = datasets.load_iris()
X = iris.data
y = iris.target

关于sklearn中的datasets还有哪些,可以参考官方档案

train_test_split

对data 进行划分,自带stratify功能

from sklearn.model_selection import train_test_split

X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3,random_state=1, stratify=y)

stratify 的目的是使分割后的train,test中的数据都具有相同的比例。shuffle default is True。

StandardScaler

对数据进行normalization

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
sc.fit(X_train)
X_train_std = sc.transform(X_train)
X_test_std = sc.transform(X_test)

使用sklearn自带的StandardScaler对数据进行noramalizatio。首先使用fit获得mean 和 variance。然后再使用transform把想要转化的数据转化。

make piplines

在sklearn中创建piplines有两种方法:

from sklearn.pipeline import make_pipeline,Pipeline

pipe1 = make_pipeline(StandardScaler(),clf1)

pipe2 = Pipeline([('sc',StandardScaler()), ('clf',clf1)])

第一种方法是直接把function放在make_pipeline中。第二种给function赋予名称,list of tuple。