自然措辞NLP必备1jieba对象 5 行代码对整篇文章分词

下面先容中文分词工具 jieba 的安装和利用，旨在让读者快速入门 jieba，快速节制中文分词的方法。

1、安装

pip install jieba2、主要分词函数

常规模式

jieba.cut(sentence, cut_all=False, HMM=True)

sentence: 须要分词的字符串; cut_all: 参数用来掌握是否采取全模式;HMM: 参数用来掌握是否适用HMM模型

自然措辞NLP必备1jieba对象 5 行代码对整篇文章分词

搜索模式

jieba.cut_for_search(sentence, HMM=True)

sentence：须要分词的字符串； HMM: 是否利用 HMM 模型,适用于搜索引擎构建倒排索引的分词，粒度比较细。

分词器

jieba.Tokenizer(dictionary=DEFUALT_DICT)

新建自定义分词器，可用于同时利用不同字典，jieba.dt为默认分词器，所有全局分词干系函数都是该分词器的映射。

返回的形式

◇jieba.cut 以及 jieba.cut_for_search 返回的构造都是可以得到的 generator (天生器), 可以利用 for 循环来获取分词后得到的每一个词语或者利用jieb.lcut() 以及 jieba.lcut_for_search() 直接返回list

把稳事变

◇待分词的字符串可以是unicode或者UTF－8字符串，GBK字符串。
把稳不建议直接输入GBK字符串，可能无法预见的误解码成UTF－8，

3、三种分词模式

jieba分词支持三种分词模式：★精确模式, 试图将句子最精确地切开，适宜文本分析：★全模式，把句子中所有的可以成词的词语都扫描出来，速率非常快，但是不能办理歧义；★搜索引擎模式，在精确模式的根本上，对长词再词切分，提高召回率，适宜用于搜索引擎分词。
4、详细实例

把稳在展示分词数据时，join 要表示成 '【区域1】' . join(【区域2】)的形式，个中区域 1 紧张是自定义分词符，而区域 2 是分词后的数据

全模式分词

import jiebadata = jieba.cut('人生苦短，我学python',cut_all=True) print('Out:' + '/'.join(data))

Out:人生/苦短///我/学/python

精确模式

import jiebadata = jieba.cut('人生苦短，我学python',cut_all=False) print('Out:' + '/'.join(data))

Out:人生/苦短/，/我学/python

搜索引擎模式

import jiebadata = jieba.cut_for_search('人生苦短，我学python,让我们一起学习python吧') print('Out:' + ','.join(data))

Out:人生,苦短,，,我学,python,,,让,我们,一起,学习,python,吧

5、整篇文章进行分词

5 行代码实现任意中文文章分词

下面将

python网络爬虫学习路线的最全总结，理清思路才能高效学好爬虫

代码如下：

''' 传入中文文档进行分词 '''import jieba# 打开自己想要分词的文本文件，打开模式为 'rb' 二进制读取fp = open('../data/mydata.txt','rb')strData = fp.read()data = jieba.cut(strData, cut_all=False)print('/ '.join(data))

程序运行部分结果如下：

大家/ 都/ 知道/ ，/ 学习/ 一门/ 学科/ 的/ 时候/ 是/ 要/ 清楚/ 它/ 的/ 知识/ 框架/ 才能/ 清晰/ 的/ 学习/ 、/ 有/ 系统/ 的/ 学习/ ，/ 下面/ 来列/ 一列/ python/ 网络/ 爬虫/ 的/ 知识/ 框架/ 来/ 帮助/ 大家/ 能够/ 有效/ 的/ 学习/ 和/ 节制/ ，/ 避免/ 不必要/ 的/ 坑/ 。
/ / / python/ 网络/ 爬虫/ 总的来说/ 有/ 五个/ 大/ 的/ 方面/ ：/ / 前端/ 知识/ —/ —/ 根本/ 爬虫/ —/ —/ 框架/ 爬虫/ —/ —/ 分布式/ 爬虫/ —/ —/ 打破/ 反/ 爬虫/ / / 1/ ./ 前端/ 知识/ ：/ / “/ 网络/ 爬虫/ ”/ 很/ 明显/ 工具/ 是/ 网络/ ，/ 也/ 便是/ 网页/ 。
/ 说/ 到/ 网页/ ，/ 这里/ 就/ 涉及/ 到/ 了/ 前端/ 的/ 知识/ 了/ ，/ 不过/ 大家/ 也/ 不要/ 慌/ ，/ 只要/ 懂点/ 必要/ 的/ HTML5/ 框架/ 、/ 网页/ 的/ http/ 要求/ 、/ 还有/ JavaScript/ 、/ css3/ 的/ 知识/ 就/ 可以/ 了/ ，/ 以/ 这样/ 的/ 水平/ 也/ 是/ 可以/ 学会/ 爬虫/ 的/ 啦/ 。
/ 当然/ ，/ 如果/ 要/ 非常/ 精通/ python/ 网络/ 爬虫/ 的话/ ，/ 深入/ 学习/ 前端/ 知识/ 是/ 必要/ 的/ 。
/

来日诰日将先容如何提取关键词，若何才知道那些词语涌现的频率更高的问题

End--------------

喜好的读者朋友可以点赞和关注

往期文章推举如下：

机器学习必备知识(1)，线性回归官方参数和用法先容

机器学习必备知识(2)，岭回归模型参数和用法先容

数据剖析必备知识(2)，Matplotlib绘图必备知识大总结(上篇)

python必备知识(1)，打包为exe文件封装成可导入模块

python列表操作，助你快速节制列表常用的操作

每期AI知识网

自然措辞NLP必备1jieba对象 5 行代码对整篇文章分词

自行车简笔画教程简单自行车的画法步骤

讯飞AI高级办公键盘T8一键喷字的真实运用感想沾染