数据挖掘与机器学习-第三章
什么是机器学习
1 | 1.机器学习的英文名称叫Machine Learning,简称ML,该领域主要研究的是如何使计算机能够模拟人类的学习行为从而获得新的知识。 |
机器学习库Sklearn
1 | 1.sklearn是机器学习中一个常用的python第三方模块,网址:http://scikit-learn.org/stable/index.html |
框架

数据集


使用步骤
导入数据
1 | iris:鸢尾花案例 一共150个样本 |




1 | 一共150个样本 |
分割数据





1 | test_size:表示分配给40%的数据给测试数据集 |
模型选择



1 | 支持向量机,因为英文名为 support vector machine,故一般简称为SVM。他是一种常用的判别方法,在机器学习领域是一个有监督的学习模式,通常用来进行模型识别,分类,回归分析以及异常值检测。 |
模型训练


使用模型预测

机器学习的评测指标



分类常用指标

回归常用指标


学习评测方法
1 | 在训练集上表现良好的模型,在测试集上还是可能表现得不好,进而推翻模型 |
交叉验证



K折交叉验证
1 | 每一个小的数据集都会作为测试集和训练集 |

实现


模型保存



机器学习存在的问题过拟合
1 | 过拟合:“你想的太多了” |
拟合问题的原因

拟合问题的解决办法


实验三 boston房价
1 | data中有506个样本,每个样本13个指标 |






方法积累
快速查看数据结构


查看数据集

快速生成data和target
