Table of contents
Load datasets
from sklearn import datasets
iris = datasets.load_iris()
X = iris.data
y = iris.target
关于sklearn中的datasets还有哪些,可以参考官方档案
train_test_split
对data 进行划分,自带stratify功能
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3,random_state=1, stratify=y)
stratify 的目的是使分割后的train,test中的数据都具有相同的比例。shuffle default is True。
StandardScaler
对数据进行normalization
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
sc.fit(X_train)
X_train_std = sc.transform(X_train)
X_test_std = sc.transform(X_test)
使用sklearn自带的StandardScaler对数据进行noramalizatio。首先使用fit获得mean 和 variance。然后再使用transform把想要转化的数据转化。
make piplines
在sklearn中创建piplines有两种方法:
from sklearn.pipeline import make_pipeline,Pipeline
pipe1 = make_pipeline(StandardScaler(),clf1)
pipe2 = Pipeline([('sc',StandardScaler()), ('clf',clf1)])
第一种方法是直接把function放在make_pipeline中。第二种给function赋予名称,list of tuple。