FuseLLM-LLMs知识融合
尽管大型语言模型(LLMs)的参数数量庞大,从数十亿到数万亿不等,但现有LLMs仍存在知识空白,限制了它们的能力。这激发了对增强LLMs外部知识和融合不同模型的技术的兴趣。
·
引言
尽管大型语言模型(LLMs)的参数数量庞大,从数十亿到数万亿不等,但现有LLMs仍存在知识空白,限制了它们的能力。这激发了对增强LLMs外部知识和融合不同模型的技术的兴趣。
背景与动机
- 知识空白与限制:即便是参数最大的LLMs也有显著的知识空白,例如,仅基于互联网文本训练的模型会缺乏深入的科学或技术知识。
- 可组合性:LLMs展示了能够将单独训练的能力结合起来的可组合性,表明了合并不同预训练模型的潜力。
- 模型检查点的可用性:像GPT-3、Llama等模型的开源检查点促进了对现有基础进行融合和构建的实验。
- 实用技能和知识的多面性:大多数真实世界技能需要结合多项能力。
FuseLLM:从概率视角融合模型
- 概率分布视角:将每个LLM视为给定上下文下可能下一个token的条件概率分布P(x|c)。
- 融合过程:取N个预训练LLMs的概率分布的加权几何平均值,从而产生反映组合知识的融合分布。
堆叠泛化与其他融合方法
- 堆叠泛化:通过将一个模型的输出作为另一个模型的输入,学习如何最佳结合输出。
- 其他方法:包括多任务学习、专门提示、数据增强等,旨在提供多种融合LLMs的策略。
融合模型的好处
- 混合知识与能力:结合模型展示了跨个别模型能力的混合技能。
- 缩减个别弱点:融合作为一种集成建模形式,可以缓解单一模型中存在的偏见、毒性或幻觉问题。
- 改进的泛化能力:专家模型可能在狭窄的领域过度拟合。融合多方面的专业知识提供了更广泛的能力。
限制与挑战
- 复杂的搜索空间:需要有效的方法来识别高潜力的组合。
- 偏见放大与灾难性遗忘:简单组合模型可能放大共享的偏见,融合模型的持续训练可能会导致灾难性遗忘。
最新创新与未来展望
- 探索控制知识融合的新技术,例如通过Constitutional AI保留有益能力的创业公司。
- 主要云服务提供商发布更新,展示了模型融合策略的快速内部创新。
- 自动机器学习(AutoML)技术,如神经架构搜索,被适应于高效探索潜在融合模型架构的广阔设计空间。
结论
提供了关于合并LLMs以创建更高性能和更通用基础模型的目标、方法、承诺和当前挑战的全面概述。技术如FuseLLM的概率融合和堆叠泛化展示了通过原则组合缓解个别模型弱点的早期成功,提供了混合技能。然而,仍需大量研究以满足长期潜力的安全性、可伸缩性和解释性要求。

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)