数据挖掘技术与应用-第九章 自然语言处理与NLTK
NLTK模块与自然语言处理
1 | 自然语言处理(Natural Language Processing, NLP)就是用计算机来处理、理解以及运用人类语言,它属于人工智能的一个分支,是计算机科学与语言学的交叉学科。 |
NLP的原因
这些算法通常是挖掘文本数据的模式,以便用户从中了解文本内所蕴含的信息。人工智能公司大量地使用自然语言处理技术和文本分析来推送相关结果。
NLP的应用

搜索引擎、情感分析、主题建模、词性标注、实体识别等。
常用的技术
词条化
词条化:即形态学分割。简单地说,词条化就是把单词分成单个语素,并识别词素的种类。
词干还原(词干提取)
是指将不同词形的单词还原成其原型。 wolves->wolv
词形还原(词形归并)
是指将不同词性的单词还原成其原型。 wolves->wolf
词性标注
句法分析
确定给定句子的句法树(语法分析)。主流的方法有以下两种:
依赖分析:致力于分析句子中的单词之间的关系(标记诸如主语,谓语之间的关系)
选区分析:侧重于使用概率来构造解析树。
断句
给定一大块文本,找出句子的边界。通常用句点或其它标点符号来标记,但这些相同的字符,在特殊情况下也会用于其它目的。
NLTK(Natural Language Toolkit)介绍
NLTK安装
1 | pip install nltk |
NLTK安装语料库
1 | import nltk |
中文分词资料
NLTK自带语料库
自然语言处理的实现
NLTK词条化