sklearn学习记录(01)
1. 一般流程
获取数据 -> 数据预处理 -> 训练建模 -> 模型评估 -> 预测,分类
2. 安装sklearn
pip install sklearn
默认的源速度较慢,加参数指定新源
pip install sklearn -i http://pypi.douban.com/simple/
3. 使用sklearn
3.1 导入模块
import numpy as np #导入numpy基础模块
from sklearn import datasets #导入内置数据
from sklearn.cross_validation import train_test_split #导入分离训练集与测试集数据方法
from sklearn.neighbors import KNeighborsClassifier #导入模型算法
3.2 数据准备
iris=datasets.load_iris() #加载数据集
iris_X=iris.data
iris_y=iris.target
#将数据集中的数据与标签分开
3.3 划分训练集与测试集
X_train,X_test,y_train,y_test=train_test_split(iris_X,iris_y,train_size=0.8)
3.4 模型选择与训练
knn=KNeighborsClassifier()
knn.fit(X_train,y_train)
3.5 输出预测结果并与标签比较
print("predict result:",knn.predict(X_test))
print("True result:",y_test)
- 由于机器学习是预测,并不能达到100%的正确率因此,会有部分与实际不一致的情况