大模型日报｜4 篇必读的大模型论文

学术头条

665人浏览 · 2025-06-10 11:46:35

学术头条 · 2025-06-10 11:46:35 发布

在这里插入图片描述
大家好，今日必读的大模型论文来啦！

清华刘知远团队：高质量 LLM 训练数据的高效获取

数据质量，已经成为提高大语言模型（LLM）性能的关键因素。模型驱动的数据过滤是获取高质量数据的主要方法之一，但仍然面临着两大挑战：（1）缺乏高效的数据验证策略，难以及时提供数据质量反馈；（2）用于训练分类器的种子数据的选择缺乏明确的标准，且严重依赖于人类的专业知识，带入了一定程度的主观性。

为了应对第一个挑战，清华大学计算机科学与技术系副教授刘知远团队提出了一种高效的验证策略，以最小的计算成本快速评估数据对 LLM 训练的影响。为了应对第二个挑战，他们基于高质量种子数据有利于 LLM 训练的假设，通过整合所提出的验证策略，优化了正样本和负样本的选择，并提出了一个高效的数据过滤管道，不仅提高了过滤效率、分类器质量和鲁棒性，还显著降低了实验和推理成本。

此外，为了高效地过滤高质量数据，他们采用基于 fastText 的轻量级分类器，成功地将过滤管道应用于 FineWeb 和 Chinese FineWeb 数据集，创建了更高质量、包含约 1 万亿个英文 token 和 1200 亿个中文 token 的 Ultra-FineWeb 数据集。结果表明，在 Ultra-FineWeb 上训练的 LLM 在多个基准任务中表现出了显著的性能提升。

论文链接：
https://arxiv.org/abs/2505.05427

微软推出 X-Reasoner：跨模态、跨领域泛化推理

专有模型（如 o3）已经展现出强大的多模态推理能力。然而，现有开源研究大多集中于训练纯文本推理模型，评估主要局限于数学和通用领域的任务。因此，如何有效地将推理能力扩展到文本输入和通用领域之外，仍是一个难题。

在这项工作中，微软团队探讨了一个基本研究问题：推理是否可以跨模态和跨领域泛化？他们得出的结果是：基于通用领域文本的后训练可以实现这种强大的泛化推理能力。基于这一发现，他们推出了一种完全基于通用域文本进行后训练即可实现通用推理的视觉语言模型 X-Reasoner，其采用两阶段方法：最初的监督微调阶段，使用经过蒸馏的长思维链，随后使用可验证奖励的强化学习。

实验表明，X-Reasoner 成功地将推理能力转移到了多模态和域外环境中，在各种通用和医疗基准中的表现优于使用域内和多模态数据训练的现有 SOTA 模型。此外，他们还发现，通过对特定领域的纯文本数据进行持续训练，X-Reasoner 在专业领域的性能还能进一步提高。在此基础上，他们推出了 X-Reasoner-Med，它是一种医疗专业变体，在众多纯文本和多模态医疗基准上实现了 SOTA。

论文链接：
https://arxiv.org/abs/2505.03981

北大团队：CoT token 是计算机程序变量

思维链（CoT）使得大语言模型（LLM）在得出最终答案之前生成中间步骤，已被证明能有效帮助 LLM 解决复杂的推理任务。然而，CoT 的内在机制在很大程度上仍不清楚。

在这项工作中，北京大学团队实证研究了 CoT token 在 LLM 中对多位数乘法和动态编程这两个组合任务的作用。虽然 CoT 对解决这些问题至关重要，但如果只保留存储中间结果的 token，也能获得相当的性能。此外，他们还发现，以另一种潜在形式存储中间结果不会影响模型性能。他们还在 CoT 中随机干预了一些值，并注意到随后的 CoT token 和最终答案都会发生相应的变化。

这些发现表明，CoT token 可以像计算机程序中的变量一样发挥作用，但也有潜在的缺点，如 token 之间的意外捷径和计算复杂性限制。

论文链接：
https://arxiv.org/abs/2505.04955

北理工王钢团队：多 agent 具身智能综述

通过使用用于输入的传感器和用于行动的执行器，具身智能（Embodied AI）系统可以根据现实世界的反馈进行学习和调整，从而在动态和不可预测的环境中有效地执行任务，应用范围涵盖机器人、医疗保健、交通和制造等领域。

然而，大多数研究都集中在单智能体（agent）系统上，这些系统通常假设静态、封闭的环境，而现实世界中的具身智能系统必须在复杂得多的场景中航行。在这种情况下，智能体不仅要与周围环境互动，还要与其他智能体协作，这就需要复杂的适应、实时学习和协作解决问题的机制。尽管人们对多智能体系统的兴趣与日俱增，但现有的研究范围仍然狭窄，往往依赖于简化的模型，无法捕捉动态、开放环境中多智能体具身智能的全部复杂性。此外，业内还没有一项全面的调查系统地回顾这一领域的进展。随着具身智能的快速发展，加深我们对多智能体具身智能的理解以应对现实世界应用所带来的挑战至关重要。

为了填补这一空白并促进该领域的进一步发展，北京理工大学王钢教授团队回顾了具身智能的研究现状，分析了主要贡献，并指出了挑战和未来方向。

论文链接：
https://arxiv.org/abs/2505.05108

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r