目录

一、读取文件

二、数据统计

三、文本预处理

四、问题转为向量

五、 计算并输出结果

六、倒排表优化

1.倒排表制作

 2.倒排表实现输出

七、词向量优化

1.词向量转换

 2.计算并输出


一、读取文件

主要是把问题和答案放到两个列表里,并且对应好索引。

 

二、数据统计

这里可以进行可视化,需要统计一下出现频率低的词,以备后面需要删除。

 

三、文本预处理

对问题列表进行预处理,包含符号去除、字母变小写、停止词、频率低的词、数字处理、提取词干等。

 

四、问题转为向量

五、 计算并输出结果

查看计算时间

 

六、倒排表优化

1.倒排表制作

 2.倒排表实现输出

 查看结果及计算时间

 

七、词向量优化

1.词向量转换

这里我使用100维的词向量,需要定义一个转换函数

 2.计算并输出

 查看结果及计算时间

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐