数据清洗【Python文本数据处理】
Python数据清洗之文本数据处理、jieba
·
jieba
三种分词函数
- 精确模式
- 全模式
- 搜索引擎模式
import jieba
words = "多学一分钟,老婆会不同"
print(jieba.lcut(words)) #默认-精确模式
print(jieba.lcut(words,cut_all=True)) #全模式
print(jieba.lcut_for_search(words)) #搜索引擎模式
运行结果:
['多学', '一分钟', ',', '老婆', '会', '不同']
['多', '学', '一分', '一分钟', '分钟', ',', '老婆', '会', '不同']
['多学', '一分', '分钟', '一分钟', ',', '老婆', '会', '不同']
词性标注
| 词性标记 | 说明 |
|---|---|
| a | 形容词 |
| ad | 副形词 |
| ag | 形容词性语素,形容词性实词+副词。如:充足、不足、过于、欠佳等 |
| b 连词 | |
| d | 副词 |
| e | 叹词 |
| f | 方位词,就是指方位的词 |
| g | 语素 |
| h | 前缀 |
| i | 成语 |
| j | 简略词性,如“副” |
| k | 后缀 |
| l | 习用语 |
| m | 数词、数量 |
| n | 名词 |
| nr | 人名 |
| ns | 地名 |
| nt | 机构团体名称 |
| nz | 其他专有名词 |
| p | 介词 |
| q | 量词 |
| r | 代词 |
| s | 处所词,地名等 |
| t | 时间词 |
| u | 助词 |
| v | 动词 |
| vd | 副动词 |
| vg | 动词性语素,动词性实词+副词。如:走开、跑快等 |
| vi | 不及物动词 |
| vn | 名动词 |
| w | 标点符号 |
| x | 非语素字,采用汉字的非语素字为标记 |
| y | 语气词 |
| z | 状态词,形容词作状语 |
import jieba
import jieba.posseg as pseg
res = pseg.cut("山西的教育很差劲")
for word,flag in res:
print(word,":",flag)
运行结果:
山西 : ns
的 : uj
教育 : vn
很 : zg
差劲 : n
添加词库
import jieba
words = "鸡你太美,篮球太危险"
print(jieba.lcut(words)) #默认-精确模式
print(jieba.lcut(words,cut_all=True)) #全模式
print(jieba.lcut_for_search(words)) #搜索引擎模式
jieba.add_word('鸡你太美')
print("=======添加新词到词库=======")
print(jieba.lcut(words)) #默认-精确模式
print(jieba.lcut(words,cut_all=True)) #全模式
print(jieba.lcut_for_search(words)) #搜索引擎模式
运行结果:
['鸡', '你', '太美', ',', '篮球', '太', '危险']
['鸡', '你', '太美', ',', '篮球', '太', '危险']
['鸡', '你', '太美', ',', '篮球', '太', '危险']
=======添加新词到词库=======
['鸡你太美', ',', '篮球', '太', '危险']
['鸡你太美', '太美', ',', '篮球', '太', '危险']
['太美', '鸡你太美', ',', '篮球', '太', '危险']
统计词频
import jieba
from collections import Counter
# 读取文本文件内容
content = open("D:\Desktop\形式主义.txt", encoding='utf-8').read()
# 进行分词 搜索引擎模式
words = jieba.lcut_for_search(content)
# 统计词频
word_counts = Counter(words)
# 输出词频结果
print("词语\t\t\t频率")
for word, count in word_counts.most_common(20):
if len(word) > 1:
print("{}\t\t\t{}".format(word, count))
运行结果:
词语 频率
工作 31
就业 27
招生 24
强化 7
做好 6
推动 5
提升 5
不断 4
责任 4
学校 4
水平 4
发展 4
高质 4
质量 4
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)