数据挖掘技术与应用-第九章自然语言处理与NLTK

发表于 2022-05-05 | 分类于数据挖掘技术与应用 | 浏览次

字数统计: 469 | 阅读时长 ≈ 1

数据挖掘技术与应用-第九章自然语言处理与NLTK

NLTK模块与自然语言处理

自然语言处理(Natural Language Processing, NLP)就是用计算机来处理、理解以及运用人类语言，它属于人工智能的一个分支，是计算机科学与语言学的交叉学科。

NLP的原因

这些算法通常是挖掘文本数据的模式，以便用户从中了解文本内所蕴含的信息。人工智能公司大量地使用自然语言处理技术和文本分析来推送相关结果。

NLP的应用

搜索引擎、情感分析、主题建模、词性标注、实体识别等。

常用的技术

词条化

词条化：即形态学分割。简单地说，词条化就是把单词分成单个语素，并识别词素的种类。

词干还原(词干提取)

是指将不同词形的单词还原成其原型。 wolves->wolv

词形还原(词形归并)

是指将不同词性的单词还原成其原型。 wolves->wolf

词性标注

句法分析

确定给定句子的句法树(语法分析)。主流的方法有以下两种：
依赖分析：致力于分析句子中的单词之间的关系(标记诸如主语，谓语之间的关系)
选区分析：侧重于使用概率来构造解析树。

断句

给定一大块文本，找出句子的边界。通常用句点或其它标点符号来标记，但这些相同的字符，在特殊情况下也会用于其它目的。

NLTK(Natural Language Toolkit)介绍

NLTK安装

1	pip install nltk

NLTK安装语料库

1 2	import nltk nltk.download()

手动安装语料库

比你优秀的人都努力，有什么理由不努力！

数据挖掘技术与应用-第九章自然语言处理与NLTK

数据挖掘技术与应用-第九章自然语言处理与NLTK

NLTK模块与自然语言处理

NLP的原因

NLP的应用

常用的技术

词条化

词干还原(词干提取)

词形还原(词形归并)

词性标注

句法分析

断句

NLTK(Natural Language Toolkit)介绍

NLTK安装

NLTK安装语料库

中文分词资料

NLTK自带语料库

自然语言处理的实现

NLTK词条化

词干提取

词形还原

数据挖掘技术与应用-第九章 自然语言处理与NLTK

NLTK模块与自然语言处理

NLP的原因

NLP的应用

常用的技术

词条化

词干还原(词干提取)

词形还原(词形归并)

词性标注

句法分析

断句

NLTK(Natural Language Toolkit)介绍

NLTK安装

NLTK安装语料库

中文分词资料

NLTK自带语料库

自然语言处理的实现

NLTK词条化

词干提取

词形还原

数据挖掘技术与应用-第九章自然语言处理与NLTK