数据预处理:去标点符号
我们在进行nlp任务时都需要进行数据清洗,我们可以简单的选择string.punctuaion直接去除符号,但是有时候会,文本中不仅仅只有英文符号,因此一般的做法时自定义要去除的符号。方法如下:#定义符号punctuation = r"""!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~“”?,!【】()、。:;’‘……¥·"""#转换字典dicts={i:''
·
我们在进行nlp任务时都需要进行数据清洗,我们可以简单的选择string.punctuaion直接去除符号,但是有时候会,文本中不仅仅只有英文符号,因此一般的做法时自定义要去除的符号。方法如下:
#定义符号
punctuation = r"""!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~“”?,!《》【】()、。:;’‘……¥·"""
#转换字典
dicts={i:'' for i in punctuation}
#maketrans是按照转换字典制作转换表
punc_table=str.maketrans(dicts)
new_train_sent=[]
for sent in train_sent:
sent.replace('<br />','')
#translate 转换
new_train_sent.append(sent.translate(punc_table))

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)