数据挖掘与机器学习-第六章 无监督学习
无监督学习

聚类算法
聚类算法概述
概述
聚类算法的功能
应用场景
聚类算法评判指标
聚类中的数据结构


划分聚类





K-means的结束


初始质心对K-means聚类的影响


k值对K-means聚类影响


K均值算法运行注意注意



K-means的局限


代码演示

层次聚类
凝聚层次聚类

分裂层次聚类

层次聚类运行过程
层次聚类问题

簇间相似度

MIN(单连接)


MAX(全连接)

组平均


质心距离


层次聚类特点

代码实现


密度聚类
DBSCAN

直接密度可达和密度可达

密度相连

DBSCAN算法

DBSCAN优势

DBSCAN劣势
聚类质量
实验六 聚类算法
1 | import numpy as np |
实验七 集成学习
1 | 决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。 |

1 | 题目一:分析影响房价的因素 |
1 | import numpy as np |
1 | 题目二:随机森林 |
1 | from sklearn.tree import DecisionTreeClassifier |
数据降维
降维

现实中的数据


降维的必要性

特征维度减少的方法

特征选择
特征选择代码实现

特征提取

常用的降维方法
1 | +独立成分分析 |
PCA算法

PCA算法过程
PCA算法的特点
1 | PCA对象非常有用,但对大型数据集有一定限制。最大的限制是PCA仅支持批处理,这意味着所有要处理的数据必须适合主内存。IncrementalPCA对象使用不同的处理形式使PCA允许部分计算。 |
PCA代码实现
Incremental PCA实现
1 | PCA对象非常有用,但对大型数据集有一定限制。最大的限制是PCA仅支持批处理,这意味着所有要处理的数据必须适合主内存。IncrementalPCA对象使用不同的处理形式使PCA允许部分计算。 |
1 | import numpy as np |
FA(因子分析)算法
LCA(独立成分分析)算法
1 | import numpy as np |