数据挖掘与机器学习-第三章 Sklearn


数据挖掘与机器学习-第三章

什么是机器学习

1
2
1.机器学习的英文名称叫Machine Learning,简称ML,该领域主要研究的是如何使计算机能够模拟人类的学习行为从而获得新的知识。
2简单来说,机器学习就是让计算机从大量的数据中学习到相关的规律和逻辑,然后利用学习来的规律来预测以后的未知事物

机器学习库Sklearn

1
2
3
1.sklearn是机器学习中一个常用的python第三方模块,网址:http://scikit-learn.org/stable/index.html 
2.里面对一些常用的机器学习方法进行了封装,不需要都实现所有的算法,只需要3.简单的调用sklearn里的模块就可以实现机器学习任务。
行业占有率大,spark等采用相同框架

框架

image-20220423174246094

数据集

image-20220423174401518

image-20220423174417804

实例参考

使用步骤

导入数据

1
iris:鸢尾花案例  一共150个样本

image-20220423174751371

image-20220423174801962

image-20220423175253299

image-20220423175330998

1
2
3
一共150个样本
target:保存鸢尾花类别,一共三类,每类50个数据
data:一个数据4个属性 花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。

参考链接

分割数据

image-20220423181720747

image-20220423174813212

image-20220423175603476

image-20220423175629915

image-20220423180041821

1
2
test_size:表示分配给40%的数据给测试数据集
random_state:表示对随机种子的使用情况

模型选择

image-20220423180200685

image-20220423180220677

image-20220423183223046

1
支持向量机,因为英文名为 support vector machine,故一般简称为SVM。他是一种常用的判别方法,在机器学习领域是一个有监督的学习模式,通常用来进行模型识别,分类,回归分析以及异常值检测。

SVM参考

模型训练

image-20220423183355521

image-20220423183612565

使用模型预测

image-20220423183757610

机器学习的评测指标

image-20220423184039500

image-20220423183935327

image-20220423184140390

分类常用指标

image-20220423184554295

回归常用指标

image-20220423185051245

image-20220423185702540

学习评测方法

1
2
3
在训练集上表现良好的模型,在测试集上还是可能表现得不好,进而推翻模型
解决:在测试集上预测前,先在验证集上验证,也就是要将数据划分为测试集、验证集、测试集
问题:导致可用数据进一步减少->解决方法交叉验证
交叉验证

image-20220423190111433

image-20220423185902277

image-20220423190659673

K折交叉验证
1
每一个小的数据集都会作为测试集和训练集

image-20220423191530093

实现

image-20220423191929992

image-20220423192711660

模型保存

image-20220423192112660

image-20220423192224478

image-20220423192407184

机器学习存在的问题过拟合

1
2
过拟合:“你想的太多了”
欠拟合:“你太天真了”

拟合问题的原因

image-20220423204734730

拟合问题的解决办法

image-20220423204829461

image-20220423204906923

实验三 boston房价

1
2
data中有506个样本,每个样本13个指标
target中有506个,应该是每个城市的分数

image-20220423195715972

image-20220423195745757

image-20220423200105027

image-20220423200133168

image-20220423200151194

image-20220423200614292

方法积累

快速查看数据结构

image-20220423200957877

image-20220423201241781

查看数据集

image-20220423181400223

快速生成data和target

image-20220423201830252


本文标题:数据挖掘与机器学习-第三章 Sklearn

文章作者:TTYONG

发布时间:2022年04月23日 - 17:04

最后更新:2022年05月05日 - 10:05

原始链接:http://tianyong.fun/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98%E6%8A%80%E6%9C%AF%E4%B8%8E%E5%BA%94%E7%94%A8-%E7%AC%AC%E4%B8%89%E7%AB%A0%20%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E6%A1%86%E6%9E%B6-Sklearn.html

许可协议: 转载请保留原文链接及作者。

多少都是爱
0%