1. TÜLU 3: Pushing Frontiers in Open Language Model Post-Training

语言模型的后训练技术被应用于优化行为并解锁最近一系列语言模型的新技能,但开源的后训练方法却落后于非开源技术。训练数据和后训练同时是这个谜题中最重要的部分和最缺乏透明度的部分。为了弥补这一差距,我们推出了TÜLU 3,这是一系列完全开放的最先进后训练模型,以及其数据、代码和训练配方,作为现代后训练技术的全面指南。TÜLU 3基于Llama 3.1基础模型构建,其表现超过了Llama 3.1的指令版本、Qwen 2.5、Mistral,甚至像GPT-4o-mini和Claude 3.5-Haiku这样的封闭模型。我们的模型训练算法包括监督微调(SFT)、直接偏好优化(DPO),以及我们称之为可验证奖励强化学习(RLVR)的新方法。通过TÜLU 3,我们提出了一种后训练的多任务评估方案,包括开发和未见评估、标准基准实现,以及对现有开放数据集在这些基准上的大量去污染处理。我们还分析和讨论了那些未能可靠提高性能的训练方法。

论文: https://arxiv.org/pdf/2411.15124

2. OminiControl: Minimal and Universal Control for Diffusion Transformer

在本文中,我们介绍了OminiControl,这是一个高度通用且参数效率极高的框架,它将图像条件整合到预训练的扩散变压器(DiT)模型中。OminiControl的核心在于一个参数重用机制,使DiT能够利用自身作为强大的骨干来编码图像条件,并通过其灵活的多模态注意力处理器进行处理。与现有的依赖复杂架构附加编码模块的方法不同,OminiControl(1)仅需增加约0.1%的额外参数就能有效地将注入的图像条件高效整合,(2)以统一的方式应对广泛的图像条件任务,包括主体驱动的生成和空间对齐条件,如边缘、深度等。值得注意的是,这些功能是通过使用由DiT自身生成的图像进行训练来实现的,这对于主体驱动的生成特别有利。广泛的评估表明,OminiControl在主体驱动和空间对齐条件下的生成上均优于现有的UNet基础和DiT适应模型。此外,我们发布了我们的训练数据集Subjects200K,这是一个包含超过20万张身份一致图像的多样集合,以及一个高效的数据合成pipeline,以推动主体一致性生成的研究进展。

论文: https://arxiv.org/pdf/2411.15098

3. BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games

大语言模型(LLMs)和视觉语言模型(VLMs)拥有广泛的知识,并展现出令人期待的推理能力;然而,它们在复杂的动态环境中仍难以表现出色。现实世界中的任务要求处理复杂的交互、高级的空间推理、长期规划及持续探索新策略——而我们在全面评估这些能力的有效方法论方面尚存不足。为填补这一空白,我们推出了BALROG,这是一个旨在通过一系列具有挑战性的游戏来评估LLMs和VLMs代理能力的新基准。我们的基准涵盖了各种难度级别的现有强化学习环境,从非专业人员可以在几秒钟内解决的任务到可能需要数年才能掌握的极其困难的任务(例如NetHack学习环境)。我们设计了细致的指标来衡量性能,并对多个流行开源和闭源的LLMs和VLMs进行了广泛的评估。我们的研究发现,虽然当前模型在较简单的游戏中取得了一定的成功,但在更具挑战性的任务中则显著受阻。值得注意的是,我们在基于视觉的决策制定中观察到了严重的缺陷,因为当提供环境的视觉表示时,模型的表现会变得更差。我们发布BALROG作为一个开放且用户友好的基准,以促进代理社区未来的研发工作。

论文: https://arxiv.org/pdf/2411.13543

4. Large Multi-modal Models Can Interpret Features in Large Multi-modal\n Models

最近在大型多模态模型(LMMs)方面的进展在学术界和工业界都取得了显著的突破。随之而来的一个问题是,作为人类,我们如何理解这些模型内部的神经表征。本文初步探讨了这个问题,提出了一种多功能框架来识别和解释LMMs中的语义。具体来说,1)我们首先应用稀疏自编码器(SAE)将表征解耦为人类可以理解的特征。2)然后,我们展示了一个自动解释框架,通过LMMs自身学习到的开放语义特征来解释SAE中的特征。我们利用这一框架分析了LLaVA-NeXT-8B模型,使用LLaVA-OV-72B模型进行,证明了这些特征能够有效地引导模型的行为。我们的结果有助于更深入地理解为什么LMMs在某些特定任务上表现出色,包括情商测试,并揭示了它们错误的本质以及潜在的纠正策略。这些发现为LMMs的内部机制提供了新的见解,并暗示了与人类大脑认知过程的相似之处。

论文: https://arxiv.org/pdf/2411.14982

最后分享

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐