数据挖掘技术与应用-第九章 自然语言处理与NLTK


数据挖掘技术与应用-第九章 自然语言处理与NLTK

NLTK模块与自然语言处理

1
自然语言处理(Natural Language Processing, NLP)就是用计算机来处理、理解以及运用人类语言,它属于人工智能的一个分支,是计算机科学与语言学的交叉学科。

NLP的原因

image-20220506095528321

这些算法通常是挖掘文本数据的模式,以便用户从中了解文本内所蕴含的信息。人工智能公司大量地使用自然语言处理技术和文本分析来推送相关结果。

NLP的应用

image-20220506095640017

搜索引擎、情感分析、主题建模、词性标注、实体识别等。

常用的技术

词条化

词条化:即形态学分割。简单地说,词条化就是把单词分成单个语素,并识别词素的种类。

词干还原(词干提取)

是指将不同词形的单词还原成其原型。 wolves->wolv

词形还原(词形归并)

是指将不同词性的单词还原成其原型。 wolves->wolf

词性标注

句法分析

确定给定句子的句法树(语法分析)。主流的方法有以下两种:
依赖分析:致力于分析句子中的单词之间的关系(标记诸如主语,谓语之间的关系)
选区分析:侧重于使用概率来构造解析树。

断句

给定一大块文本,找出句子的边界。通常用句点或其它标点符号来标记,但这些相同的字符,在特殊情况下也会用于其它目的。

NLTK(Natural Language Toolkit)介绍

image-20220506102252495

NLTK安装

1
pip install nltk

NLTK安装语料库

1
2
import nltk
nltk.download()

手动安装语料库

中文分词资料

image-20220506104043622

NLTK自带语料库

image-20220506104619100

自然语言处理的实现

NLTK词条化

image-20220506105335895 image-20220506105552817 image-20220506105601061

词干提取

词形还原


本文标题:数据挖掘技术与应用-第九章 自然语言处理与NLTK

文章作者:TTYONG

发布时间:2022年05月05日 - 20:05

最后更新:2022年05月06日 - 11:05

原始链接:http://tianyong.fun/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98%E6%8A%80%E6%9C%AF%E4%B8%8E%E5%BA%94%E7%94%A8-%E7%AC%AC%E4%B9%9D%E7%AB%A0-%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E4%B8%8ENLTK.html

许可协议: 转载请保留原文链接及作者。

多少都是爱
0%