多模态Arxiv 2024/11/15 | 文本、图像、音频、视频一键生成，港科大联合腾讯提出 Spider 多模态大模型

大型视频语言模型（LVLM）的最新进展推动了旨在评估基于视频任务的认知能力的基准的发展。然而，大多数现有的基准严重依赖于网络收集的视频与人类注释或模型生成的问题，这限制了对视频内容的控制，并且在评估涉及符号元素和抽象概念的高级认知能力方面存在不足。为了解决这些限制，我们引入VCBench，一个可控的基准来评估LVLM的认知能力，涉及不同难度水平的符号和抽象概念。通过使用基于Python的引擎生成视

程序猿李巡天

1279人浏览 · 2024-11-18 19:54:22

程序猿李巡天 · 2024-11-18 19:54:22 发布

Spider: Any-to-Many Multimodal LLM

摘要：Multimodal LLMs (MLLMs) have emerged as an extension of Large Language Models (LLMs), enabling the integration of various modalities. However, Any-to-Any MLLMs are limited to generating pairwise modalities ’Text + X’ within a single response, such as Text + {Image or Audio or Video}. To address this limitation, we introduce Spider, a novel efficient Any-to-Many Modalities Generation (AMMG) framework, which can generate an arbitrary combination of modalities ’Text + Xs’, such as Text + {Image and Audio and Video}. To achieve efficient AMMG, our Spider integrates three core components: a Base Model for basic X-to-X (i.e., Any-to-Any) modality processing, a novel Efficient Decoders-Controller for controlling multimodal Decoders to generate Xs (many-modal) contents, and an Any-to-Many Instruction Template designed for producing Xs signal prompts. To train Spider, we constructed a novel Text-formatted Many-Modal (TMM) dataset, which facilitates the learning of the X-to-Xs (i.e., Any-to-Many) capability necessary for AMMG. Ultimately, the well-trained Spider generates a pseudo X-to-Xs dataset, the first-ever X-to-Xs many-modal dataset, enhancing the potential for AMMG task in future research. Overall, this work not only pushes the boundary of multimodal interaction but also provides rich data support for advancing the field. 多模态LLM（MLLM）已经成为大型语言模型（LLM）的扩展，能够集成各种模态。然而，任意到任意MLLM限于在单个响应内生成成对模态“文本+ X”，诸如文本+ {图像或音频或视频}。为了解决这个问题，我们引入了Spider，一个新的高效的任意到多模态生成（AMMG）框架，它可以生成任意组合的模态“文本+X”，如文本+ {图像和音频和视频}。为了实现高效的AMMG，我们的Spider集成了三个核心组件：用于基本X-to-X的基础模型（即，任意对任意）模态处理、用于控制多模态解码器生成Xs（多模态）内容的新型高效解码器-控制器以及用于产生Xs信号提示的任意对多指令模板。为了训练Spider，我们构建了一个新的文本格式的多模态（TMM）数据集，它有助于学习X-to-Xs（即，任何对多）的能力。最终，训练有素的Spider生成了一个伪X-to-Xs数据集，这是有史以来第一个X-to-Xs多模态数据集，增强了AMMG任务在未来研究中的潜力。总体而言，这项工作不仅推动了多模态交互的边界，而且为推进该领域提供了丰富的数据支持。

链接：http://arxiv.org/pdf/2411.09439v1

VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation

摘要：利用大规模视频数据学习视频生成模型的最新进展在理解复杂物理动力学方面表现出了巨大的潜力。它建议利用不同的机器人轨迹数据开发一个统一的，动态感知模型，以提高机器人操作的可行性。然而，由于可用的机器人数据相对较少，直接拟合数据而不考虑视觉观察和动作之间的关系可能会导致次优的数据利用率。为此，我们提出了VidMan（机器人操作视频扩散），这是一个新的框架，它采用了一个两阶段的训练机制，灵感来自神经科学的双过程理论，以提高稳定性和数据利用效率。具体来说，在第一阶段，VidMan在Open X-Embodiment数据集（OXE）上进行了预训练，以视频去噪扩散的方式预测未来的视觉轨迹，使模型能够对环境的动态进行长期的水平感知。在第二阶段，一个灵活而有效的逐层自注意适配器被引入到一个有效的逆动力学模型，预测通过参数共享的隐式动力学知识调制的动作变换VidMan。我们的VidMan框架在CALVIN基准测试中的表现优于最先进的基线模型GR-1，实现了11.7%的相对改进，并在OXE小规模数据集上展示了超过9%的精度增益。这些结果提供了令人信服的证据，世界模型可以显着提高机器人动作预测的精度。代码和模型将公开。

链接：http://arxiv.org/pdf/2411.09153v1

LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models

摘要：这项工作探索扩展在文本上预训练的大型语言模型（LLM）的功能，以在统一模型中生成3D网格。这提供了以下关键优势：（1）利用已经嵌入LLM中的空间知识，这些知识来自3D教程等文本来源，以及（2）实现对话式3D生成和网格理解。一个主要的挑战是有效地将3D网格数据标记为LLM可以无缝处理的离散标记。为了解决这个问题，我们引入了LLaMA-Mesh，这是一种新颖的方法，它将3D网格的顶点坐标和面定义表示为纯文本，允许直接与LLM集成，而无需扩展词汇表。我们构建了一个监督微调（SFT）数据集，使预训练的LLM能够（1）从文本提示生成3D网格，（2）根据需要生成交错文本和3D网格输出，以及（3）理解和解释3D网格。我们的工作是第一个证明LLM可以进行微调，以获得复杂的空间知识，以基于文本的格式生成3D网格，有效地统一了3D和文本模式。LLaMA-Mesh实现了与从头开始训练的模型相当的网格生成质量，同时保持了强大的文本生成性能。

链接：http://arxiv.org/pdf/2411.09595v1

Advancing Fine-Grained Visual Understanding with Multi-Scale Alignment in Multi-Modal Models

摘要：多模态大型语言模型（MLLM）在一系列任务的细粒度视觉理解方面取得了显着的成功。然而，他们经常遇到重大的挑战，由于不充分的对齐细粒度的知识，这限制了他们的能力，准确地捕捉当地的细节，并实现全面的全球感知。虽然最近的进展集中在将对象表达与基础信息对齐，但它们通常缺乏对象图像的明确整合，对象图像包含丰富的信息，而不仅仅是文本或坐标。为了弥合这一差距，我们引入了一种新的细粒度视觉知识对齐方法，该方法有效地对齐和集成了对象的多尺度知识，包括文本，坐标和图像。这种创新方法得到了我们的多尺度细粒度增强数据合成管道的支持，该管道提供了超过300K的基本训练数据，以增强对齐并提高整体性能。此外，我们提出了TinyGroundingGPT，一系列紧凑的模型优化高层次的比对。TinyGroundingGPT具有约3B参数的规模，在接地任务中取得了出色的成绩，同时在复杂的视觉场景中提供与大型MLLM相当的性能。

链接：http://arxiv.org/pdf/2411.09691v1

Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models

摘要：扩散模型使图像生成领域焕发了新的活力，在学术研究和艺术表达中发挥着至关重要的作用。随着新的扩散模型的出现，评估文本到图像模型的性能变得越来越重要。目前的度量集中在直接匹配输入文本与生成的图像，但由于跨模态信息不对称，这导致不可靠或不完整的评估结果。出于这一动机，我们在这项研究中引入了图像再生任务，通过任务T2I模型根据参考图像生成图像来评估文本到图像模型。我们使用GPT4V来弥合T2I模型的参考图像和文本输入之间的差距，使T2I模型能够理解图像内容。该评估过程被简化，因为生成的图像和参考图像之间的比较是直接的。两个再生数据集跨越内容多样性和风格多样性的评估数据集，以评估目前可用的领先的扩散模型。此外，我们提出了ImageRepainter框架，通过MLLM引导的迭代生成和修改来提高内容理解，从而提高生成图像的质量。我们的综合实验已经展示了该框架在评估模型生成能力方面的有效性。通过利用MLLM，我们已经证明了一个强大的T2M可以产生更接近参考图像的图像。

链接：http://arxiv.org/pdf/2411.09449v1

On the Surprising Effectiveness of Attention Transfer for Vision Transformers

摘要：传统观点认为，预训练Vision Transformers（ViT）通过学习有用的表示来提高下游性能。这是真的吗？我们调查了这个问题，发现在预训练期间学到的特征和表示并不重要。令人惊讶的是，仅使用来自预训练的注意力模式（即，引导信息如何在令牌之间流动）足以让模型从头开始学习高质量的特征，并实现可比的下游性能。我们通过介绍一种称为注意力转移的简单方法来证明这一点，其中只有来自预先训练的教师ViT的注意力模式通过复制或提取注意力地图转移给学生。由于注意力转移可以让学生学习自己的特征，因此将其与经过微调的老师结合起来也可以进一步提高ImageNet的准确性。我们系统地研究了我们在注意力地图充分性方面的研究结果的各个方面，包括它们表现不佳的分布偏移设置。我们希望我们的探索能够更好地理解预训练的作用，并为标准的微调实践提供有用的替代方案

链接：http://arxiv.org/pdf/2411.09702v1

VCBench: A Controllable Benchmark for Symbolic and Abstract Challenges in Video Cognition

摘要：大型视频语言模型（LVLM）的最新进展推动了旨在评估基于视频任务的认知能力的基准的发展。然而，大多数现有的基准严重依赖于网络收集的视频与人类注释或模型生成的问题，这限制了对视频内容的控制，并且在评估涉及符号元素和抽象概念的高级认知能力方面存在不足。为了解决这些限制，我们引入VCBench，一个可控的基准来评估LVLM的认知能力，涉及不同难度水平的符号和抽象概念。通过使用基于Python的引擎生成视频数据，VCBench允许对视频内容进行精确控制，创建以复杂场景和抽象概念为特征的动态、面向任务的视频。每个任务都配有针对特定认知挑战的定制问题模板，提供严格的评估测试。我们的评估显示，即使是最先进的（SOTA）模型，如Qwen 2-VL-72 B，也难以处理涉及抽象概念的简单视频认知任务，随着视频复杂性的增加，性能急剧下降19%。这些发现揭示了LVLM在高级认知任务中的局限性，并强调了VCBench在推动研究更强大的LVLM以应对复杂视频认知挑战方面的关键作用。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r

魔乐社区

提升Angular2-HN性能的7个实用技巧：让新闻加载速度飞起来

Angular2-HN是一款基于Angular构建的Progressive Hacker News客户端，专为追求高效新闻浏览体验的用户设计。本文将分享7个实用技巧，帮助你优化Angular2-HN的性能，让新闻加载速度显著提升，带来更流畅的阅读体验。## 1. 启用Service Worker缓存关键资源Service Worker是提升Angular应用性能的强大工具，它可以在后台缓存