第四章分类算法

分类算法概述

分类的定义

分类的应用

什么样的数据适合分类？

分类器的构建标准

朴素贝叶斯算法(NB)

简介

频率&概率

先验概率 & 后验概率 & 条件概率

贝叶斯算法的核心

多项式朴素贝叶斯算法(Naive Bayes)

朴素贝叶斯案例

朴素贝叶斯分类算法

高斯分布朴素贝叶斯算法

应用场景

实现

K近邻算法(KNN)

空间

维度

向量

距离

欧氏距离

曼哈顿距离

切比雪夫距离

闵可夫斯基距离

杰卡德距离

余弦距离

汉明距离

距离总结

练习

K近邻算法

K值的影响

常用的距离

优点

模型

实现

多类问题的分类

实验四分类算法

import numpy as np
from sklearn import preprocessing
from sklearn.naive_bayes import GaussianNB

input_file=r'D:\重庆第二师范学院\2020秋大三上\数据挖掘与机器学习 程雪峰\实验四\实验四 分类算法\数据源\adult.data.txt'
X=[]
Y=[]
num_lessthan50k=0
num_morethan50k=0
num_threshold=30000
with open(input_file,'r') as f:
    for line in f.readlines():
        if '?' in line:
            continue
        data=line[:-1].split(', ')
        if (data[-1]=='<=50K') and (num_lessthan50k<num_threshold):
            X.append(data)
            num_lessthan50k=num_lessthan50k+1
        elif (data[-1]=='>50K') and (num_morethan50k<num_threshold):
            Y.append(data)
            num_morethan50k=num_morethan50k+1
        if num_lessthan50k>=num_threshold and num_morethan50k>=num_threshold:
            break
a=np.array(X)
print(a)

label_encoder=[]
X_encoded=np.empty(X.shape)
for i,item in enumerate(X[0]):
    if item.isdigit():
        X_encoded[:,i] = X[:,i]
    else:
        le=preprocessing.LabelEncoder()
        label_encoder.append(le)
        X_encoded[:,i]=label_encoder[-1].fit_transform(X[:,i])
X=X_encoded[:,:-1].astype(int)
y=X_encoded[:,-1].astype(int)
print(X)
print(y)

[preprocessing.LabelEncoder的使用]

# ###STEP3###
from sklearn.model_selection import cross_val_score, train_test_split
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.25,random_state=5)
classifier_gaussiannb=GaussianNB()
classifier_gaussiannb.fit(x_train,y_train)
y_test_pred=classifier_gaussiannb.predict(x_test)
f1=cross_val_score(classifier_gaussiannb,x,y,scoring='f1_weighted',cv=5)
print('F1 score:'+str(round(100*f1.mean(),2))+"%")

交叉验证

###STEP4###
# 创建个例，将其进行同样编码处理
input_data = ['39', 'State-gov', '77516', 'Bachelors', '13', 'Never-married', 'Adm-clerical', 'Not-in-family', 'White', 'Male', '2174', '0', '40', 'United-States']
count = 0
input_data_encoded = [-1] * len(input_data)
for i,item in enumerate(input_data):
    if item.isdigit():
        input_data_encoded[i] = int(input_data[i])
    else:
        input_data_encoded[i] = int(label_encoder[count].transform([input_data[i]]))
        count = count + 1
input_data_encoded = np.array(input_data_encoded)
#将个体进行预测分类，并输出结果
output_class = classifier_gaussiannb.predict(input_data_encoded.reshape(1,-1))
print (label_encoder[-1].inverse_transform(output_class)[0])

第四章 分类算法

分类算法概述

分类的定义

分类的应用

什么样的数据适合分类？

分类器的构建标准

朴素贝叶斯算法(NB)

简介

频率&概率

先验概率 & 后验概率 & 条件概率

贝叶斯算法的核心

多项式朴素贝叶斯算法(Naive Bayes)

朴素贝叶斯案例

朴素贝叶斯分类算法

高斯分布朴素贝叶斯算法

应用场景

实现

K近邻算法(KNN)

空间

维度

向量

距离

欧氏距离

曼哈顿距离

切比雪夫距离

闵可夫斯基距离

杰卡德距离

余弦距离

相关距离

汉明距离

距离总结

练习

最近邻算法

K近邻算法

K值的影响

常用的距离

优点

模型

实现

多类问题的分类

实验四 分类算法

第四章分类算法

实验四分类算法