自然语言处理--NLTK包的TreebankWordTokenizer分词
来自 NLTK 包的 TreebankWordTokenizer 分词器,它内置了多种常见的英语分词规则。例如,它从相邻的词条中将短语结束符号(?!.;,)分开,将包含句号的小数当成单个词条。另外,它还包含一些英文缩略语的规则,例如,“don’t”会切分成[“do”, “n’t”]。from nltk.tokenize import TreebankWordTokenizersentence =
·
来自 NLTK 包的 TreebankWordTokenizer 分词器,它内置了多种常见的英语分词规则。例如,它从相邻的词条中将短语结束符号(?!.;,)分开,将包含句号的小数当成单个词条。另外,它还包含一些英文缩略语的规则,例如,“don’t”会切分成[“do”, “n’t”]。
from nltk.tokenize import TreebankWordTokenizer
sentence = """Monticello wasn't designated as UNESCO World Heritage Site until 1987."""
tokenizer = TreebankWordTokenizer()
print(tokenizer.tokenize(sentence))
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐



所有评论(0)