开源的文档智能视觉语言模型(VLMs)速览:Llama-3.1-Nemotron-Nano-VL-8B-V1
Llama-3.1-Nemotron-Nano-VL-8B-V1
一、模型概述
Llama Nemotron Nano VL 是一款领先的文档智能视觉语言模型(VLMs),它能够实现对现实或虚拟世界中的图像和视频进行查询以及总结。此模型可以在数据中心、云端以及边缘(包括 Jetson Orin 和通过 AWQ 4 位量化后的笔记本电脑)部署,是基于 TinyChat 框架运行的。
在训练过程中,有三点重要发现:一是仅使用图像 - 文本对是不够的,交错的图像 - 文本至关重要;二是在交错的图像 - 文本预训练期间解冻 LLM 有助于实现上下文学习;三是重新混合纯文本指令数据对于提升 VLM 和纯文本性能都极为关键。该模型是在商业图片和视频上进行了三个阶段的训练,且支持单图像和视频推理。
二、许可与使用条款
其使用受到 NVIDIA 开放许可协议的约束,同时还有 Llama 3.1 社区模型许可;该模型是基于 Llama 构建的,部署范围为全球。
三、应用场景
主要面向 AI 制造企业客户,其应用场景涵盖了图像总结、文本 - 图像分析、光学字符识别(OCR)、基于图像的交互式问答、多图像对比以及文本链式推理等。
四、发布日期
于 2025 年 6 月 3 日通过 Build.Nvidia.com 以及 Hugging Face 发布。
五、模型架构
网络架构类型为 Transformer,其中视觉编码器为 CRadioV2-H,语言编码器为 Llama-3.1-8B-Instruct。
六、输入输出
输入类型包括图像、视频和文本,支持多种输入图像(最多 16K 输入 + 输出令牌),仅支持英语。图像输入格式为 RGB,视频为 .mp4,文本为字符串。输入参数分别为图像(2D)、视频(3D)、文本(1D)。输入 + 输出令牌上限为 16K,最大分辨率由 12 个瓷砖布局约束决定,例如 4 × 3 布局支持最大 2048 × 1536 像素等,通道数为 3 通道(RGB),不支持透明度(无 Alpha 通道)。输出类型为文本,格式为字符串,参数为 1D,同样输入 + 输出令牌上限为 16K。
七、软件集成
运行时引擎为 TensorRT-LLM,支持的硬件微观架构为 H100 SXM 80GB,适用操作系统为 Linux。
八、快速入门
提供了安装依赖(如 pip 安装 transformers、accelerate、timm、einops、open-clip 等)以及使用示例代码,展示如何加载模型、图像处理器和标记器,进行图像特征处理,并通过模型聊天功能生成对问题的回答。
九、训练与评估数据集
使用 NV- 预训练和 NV-CosmosNemotron-SFT 进行训练和评估,数据收集方法为混合方式(人类、合成),标注方法也是混合的(人类、合成)。数据集包含内部和公共数据集,用于训练和评估各种任务,如对话建模、文档分析、图像描述和视觉问答等,还包括为特定任务(如表格数据理解)生成的合成数据集,以及用于安全对齐、函数调用和特定领域任务(如科学图表、金融问答)的专用数据集。
十、评估基准
在多个基准测试中取得了一定的成绩,如 MMMU Val(以 chatGPT 为评判标准)得分为 48.2%、AI2D 为 85.0%、ChartQA 为 86.3%、InfoVQA Val 为 77.4%、OCRBench 为 839、OCRBenchV2 英文版本为 60.1%、中文版本为 37.9%、DocVQA val 为 91.2%、VideoMME 为 54.7%。
十一、推理
采用 TTensorRT-LLM 引擎进行推理,测试硬件为 1x NVIDIA H100 SXM 80GB。
十二、伦理考量
NVIDIA 认为可信 AI 是共同的责任,已建立相关政策和实践来支持开发多种 AI 应用。开发者和用户应确保模型满足相关行业和使用案例的要求,并防止不可预见的产品滥用。用户要对模型的输入输出负责,并确保在部署前安全地集成该模型,包括实施防护措施等安全机制。模型生成的输出可能包含政治内容或其他可能具有误导性的信息,或存在内容安全、偏见等问题,这些都可能独立于监督之外。
核心技术汇总表格

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)