我们在进行nlp任务时都需要进行数据清洗,我们可以简单的选择string.punctuaion直接去除符号,但是有时候会,文本中不仅仅只有英文符号,因此一般的做法时自定义要去除的符号。方法如下:

#定义符号
punctuation = r"""!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~“”?,!《》【】()、。:;’‘……¥·"""
#转换字典
dicts={i:'' for i in punctuation}
#maketrans是按照转换字典制作转换表
punc_table=str.maketrans(dicts)
new_train_sent=[]
for sent in train_sent:
    sent.replace('<br />','')
    #translate 转换
    new_train_sent.append(sent.translate(punc_table))
    

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐