问答系统的流程如下:

①获取原始文本

②分词

③文本清洗,包含:

html标签、stop words(a,an,the等)、纠错、大小写转换等

③文本标准化,比如:

go, went, going, gone这一类词全部映射为go

④转为向量,方法:

boolean vector / count vector / tfidf / word2vec / seq2seq等

⑤建模,比如把库中的内容根据相似度排序然后返回结果

后面的学习笔记会对以上内容逐一探索。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐