TianYong's Blog

数据挖掘与机器学习-第七章关联规则和协同过滤

发表于 2022-05-03 | 分类于数据挖掘技术与应用

字数统计: 1.3k | 阅读时长 ≈ 5

数据挖掘与机器学习-第七章关联规则和协同过滤12345关联规则最早用于购物篮分析关联规则(Association Rules或Basket Analysis)是形如X->Y的蕴含式。其中，X和分别称为关联规则的先导(Antecedent，或Left-Hand-Side，LHS)和后继(Consequent或Right-Hand-Side,RHS)。关联规则利用其支持度和置信度从大量数据中挖掘出有价值的数据项之间的相互关系。 1一些常见概念:数据库D，事务T，项集I，支持度Confidence，置信度Support 推荐算法推荐算法目的如何进行推荐关联规则挖掘啤酒 ...

阅读全文 »

赤裸裸的统计学第一章

发表于 2022-05-03 | 分类于统计学

字数统计: 315 | 阅读时长 ≈ 1

赤裸裸的统计学-第一章1案例:橄榄球运行动员，棒球运动员，基尼指数，传球效绩指数，击球指数，平均成绩点数，流浪者，统计学的作用12基尼指数:衡量社会分配是否公平的指标，最小为0，最大为1传球效绩指数:例(橄榄球四分卫表现) 123统计学可以帮助我们处理数据，而数据是披着华丽外衣的信息。统计学是我们分析信息获得有意义结果的最有力工具。统计学的一个核心功能就是使用手中已有的数据进行合理推测，以回答那些我们还未掌握所有信息的‘大‘问题统计学如何赋予原始数据意义描述性数据-击球率与大学学分12棒球运动的击球率大小可以显示一个运动员是否优秀GPA平均成绩点数:可以比较两个学生谁更优秀 ...

阅读全文 »

数据挖掘与机器学习-第六章无监督学习

发表于 2022-05-01 | 分类于数据挖掘技术与应用

字数统计: 1.8k | 阅读时长 ≈ 8

数据挖掘与机器学习-第六章无监督学习无监督学习聚类算法聚类算法概述概述聚类算法的功能应用场景聚类算法评判指标聚类中的数据结构划分聚类 K-means的结束初始质心对K-means聚类的影响 k值对K-means聚类影响 K均值算法运行注意注意 K-means的局限代码演示层次聚类凝聚层次聚类分裂层次聚类层次聚类运行过程层次聚类问题簇间相似度 MIN(单连接) MAX(全连接) 组平均质心距离层次聚类特点代码实现 ...

阅读全文 »

数据挖掘与机器学习-第五章回归分析

发表于 2022-04-24 | 分类于数据挖掘技术与应用

字数统计: 1.1k | 阅读时长 ≈ 4

第五章回归分析回归预测回归分析回归分析案例线性回归预备知识一元线性回归一元线性回归举例两种拟合方法最小二乘法矩阵法一元线性回归实现多元线性回归多元线性回归实现线性回归的优缺点多项式回归简介一元高阶多项式回归模型多元高阶多项式回归线性回归问题 Ridge回归(岭回归)和Lasso回归参考链接逻辑回归逻辑回归的优点逻辑回归的缺点决策树(ID3+C4.5+CART) 支持向量机(SVM) 实验5 回归算法题目一 Boston房价(线性回归和多项式回归)12345678本实验中 ...

阅读全文 »

数据挖掘与机器学习-第四章分类算法

发表于 2022-04-23 | 分类于数据挖掘技术与应用

字数统计: 550 | 阅读时长 ≈ 2

第四章分类算法分类算法概述分类的定义分类的应用什么样的数据适合分类？分类器的构建标准朴素贝叶斯算法(NB)简介频率&概率先验概率 & 后验概率 & 条件概率贝叶斯算法的核心多项式朴素贝叶斯算法(Naive Bayes)朴素贝叶斯案例朴素贝叶斯分类算法高斯分布朴素贝叶斯算法应用场景实现 K近邻算法(KNN)空间维度向量距离欧氏距离曼哈顿距离切比雪夫距离闵可夫斯基距离杰卡德距离余弦距离相关距离汉明距离距离总结练习最近邻算法 K近邻算法 K值的影响常用的距 ...

阅读全文 »

数据挖掘与机器学习-第三章 Sklearn

发表于 2022-04-23 | 分类于数据挖掘技术与应用

字数统计: 711 | 阅读时长 ≈ 2

数据挖掘与机器学习-第三章什么是机器学习121.机器学习的英文名称叫Machine Learning，简称ML，该领域主要研究的是如何使计算机能够模拟人类的学习行为从而获得新的知识。2简单来说，机器学习就是让计算机从大量的数据中学习到相关的规律和逻辑，然后利用学习来的规律来预测以后的未知事物机器学习库Sklearn1231.sklearn是机器学习中一个常用的python第三方模块，网址：http://scikit-learn.org/stable/index.html 2.里面对一些常用的机器学习方法进行了封装，不需要都实现所有的算法，只 ...

阅读全文 »

python廖雪峰-函数式编程装饰器

发表于 2022-04-16 | 分类于 Python

字数统计: 1.1k | 阅读时长 ≈ 4

装饰器参考链接优质参考廖雪峰Python-装饰器 1装饰器是在不改变原函数的源码和调用方式的情况下，为原函数增加功能 1装饰器本质上是一个Python函数，它可以让其他函数在不需要做任何代码变动的前提下增加额外功能，装饰器的返回值也是一个函数对象。它经常用于有切面需求的场景，比如：插入日志、性能测试、事务处理、缓存、权限校验等场景。装饰器是解决这类问题的绝佳设计，有了装饰器，我们就可以抽离出大量与函数功能本身无关的雷同代码并继续重用。被装饰函数带参数-初级123456789101112131415161718192021222324252627282930313233def ...

阅读全文 »

数据挖掘与机器学习-第一章

发表于 2022-04-13 | 分类于数据挖掘技术与应用

字数统计: 513 | 阅读时长 ≈ 1

数据挖掘与机器学习-第一章数据挖掘的概念数据挖掘的定义1广义角度:发现数据中的有用信息，从而帮助决策 1技术过程:数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在又用的信息和知识，寻找其规律的技术，结合统计学、机器学习和人工智能技术的综合过程数据挖据的目的1234567两大基本目标是预测和描述数据其中预测的计算机建模及实现过程通常被称为:监督学习监督学习（supervised learning):从标记的训练数据来推断一个功能的机器学习任务。描述的通常称为:无监督学习无监督学习(unsupervised ...

阅读全文 »

数据挖掘与机器学习-第二章 Pandas

发表于 2022-04-13 | 分类于数据挖掘技术与应用

字数统计: 4.2k | 阅读时长 ≈ 15

数据挖掘与机器学习-第二章 Pandas1统计学是关于认识客观现象总体数量特征和总体数量关系的科学 123456统计学常用指标:平均数绝对数与相对数百分比频率同比与环比 Pandas快速入门优质参考连接简介12官网链接：http://pandas.pydata.org/ 简介：Pandas是python的一个数据分析包，最初由AQR Capital Management于2008年4月开发，并于2009年底开源出来，目前由专注于Python数据包开发的PyData开发team继续开发和维护，属于PyData项目的一部分。Pandas最初被作为金融数 ...

阅读全文 »

python-Flask库

发表于 2022-04-09 | 分类于 Python

字数统计: 35 | 阅读时长 ≈ 1

Flask库参考链接官方文档安装flask调试模式路由路径变量构造URLHTTP方法静态文件模板生成

阅读全文 »