Mozi: 科学领域大规模语言模型使用教程
Mozi: 科学领域大规模语言模型使用教程1. 项目介绍Mozi 是由北京理工大学团队开发的一个针对科学论文领域的大规模语言模型。它是首个专门为科学论文领域设计的大型语言模型,旨在提供问答和情感支持等功能。通过结合大规模语言模型和证据检索模型 SciDPR,Mozi 能够生成简洁准确的回答,帮助用户理解特定论文内容,并为学术研究人员提供情感支持。2. 项目快速启动2.1 环境安装首先,确...
Mozi: 科学领域大规模语言模型使用教程
1. 项目介绍
Mozi 是由北京理工大学团队开发的一个针对科学论文领域的大规模语言模型。它是首个专门为科学论文领域设计的大型语言模型,旨在提供问答和情感支持等功能。通过结合大规模语言模型和证据检索模型 SciDPR,Mozi 能够生成简洁准确的回答,帮助用户理解特定论文内容,并为学术研究人员提供情感支持。
2. 项目快速启动
2.1 环境安装
首先,确保您的环境中安装了所需的依赖包。可以通过以下命令安装:
pip install -r requirements.txt
然后,安装正确版本的 PyTorch,例如:
pip install torch==1.13.1+cu117 -f https://download.pytorch.org/whl/torch/
2.2 准备 Mozi 模型检查点
Mozi 模型的权重包括预训练的大型语言模型和 LoRA 权重。首先,下载 LLaMA-7B 和 Baichuan-7B 的检查点。然后,从以下地址下载 LoRA 权重:
- Baichuan-7B delta 权重: mozi_baichuan_7b
- LLaMA-7B delta 权重: mozi_llama_7b
2.3 部署演示
完成上述步骤后,您可以在本地运行演示:
./scripts/deploy.sh
该脚本将在端口 23333 上运行 Mozi 模型情感模型。输入的 POST 请求应如下所示:
{
"decoding_method": "greedy",
"top_p": 0.7,
"top_k": 10,
"penalty_alpha": 0.5,
"max_new_tokens": 128,
"history": [
"Human: 最近科研压力真的好大啊"
]
}
3. 应用案例和最佳实践
3.1 问答系统
Mozi 可以用于构建科学论文的问答系统。用户可以输入关于特定论文的问题,Mozi 将生成基于论文内容的回答。例如:
{
"decoding_method": "greedy",
"top_p": 0.7,
"top_k": 10,
"penalty_alpha": 0.5,
"max_new_tokens": 128,
"evidences": [
"During the first two decades of the 21st century, the sharing and processing of vast amounts of data has become pervasive.",
"One way of circumventing this problem is to anonymise the data by removing...",
"Given that this paper is concerned with text documents (e.g., medical records), the involved techniques are related to Natural Language Processing (NLP)."
],
"question": "Which dataset do the author use in this paper?"
}
3.2 情感支持
Mozi 还可以用于为学术研究人员提供情感支持。例如,当研究人员感到压力时,Mozi 可以提供安慰和鼓励。
4. 典型生态项目
4.1 SciDPR
SciDPR 是 Mozi 的证据检索组件,用于检索用户查询的相关证据。详细信息请参考 SciDPR README。
4.2 Redpajama 数据集
Redpajama 数据集是用于科学预训练的数据集,包含大量科学论文文本。详细信息请参考 Redpajama 数据集。
通过这些模块,您可以快速了解并开始使用 Mozi 项目。

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)