开源的文档智能视觉语言模型（VLMs）速览：Llama-3.1-Nemotron-Nano-VL-8B-V1

Llama-3.1-Nemotron-Nano-VL-8B-V1

Panesle

1057人浏览 · 2025-06-10 14:21:47

Panesle · 2025-06-10 14:21:47 发布

一、模型概述

Llama Nemotron Nano VL 是一款领先的文档智能视觉语言模型（VLMs），它能够实现对现实或虚拟世界中的图像和视频进行查询以及总结。此模型可以在数据中心、云端以及边缘（包括 Jetson Orin 和通过 AWQ 4 位量化后的笔记本电脑）部署，是基于 TinyChat 框架运行的。

在训练过程中，有三点重要发现：一是仅使用图像 - 文本对是不够的，交错的图像 - 文本至关重要；二是在交错的图像 - 文本预训练期间解冻 LLM 有助于实现上下文学习；三是重新混合纯文本指令数据对于提升 VLM 和纯文本性能都极为关键。该模型是在商业图片和视频上进行了三个阶段的训练，且支持单图像和视频推理。

二、许可与使用条款

其使用受到 NVIDIA 开放许可协议的约束，同时还有 Llama 3.1 社区模型许可；该模型是基于 Llama 构建的，部署范围为全球。

三、应用场景

主要面向 AI 制造企业客户，其应用场景涵盖了图像总结、文本 - 图像分析、光学字符识别（OCR）、基于图像的交互式问答、多图像对比以及文本链式推理等。

四、发布日期

于 2025 年 6 月 3 日通过 Build.Nvidia.com 以及 Hugging Face 发布。

五、模型架构

网络架构类型为 Transformer，其中视觉编码器为 CRadioV2-H，语言编码器为 Llama-3.1-8B-Instruct。

六、输入输出

输入类型包括图像、视频和文本，支持多种输入图像（最多 16K 输入 + 输出令牌），仅支持英语。图像输入格式为 RGB，视频为 .mp4，文本为字符串。输入参数分别为图像（2D）、视频（3D）、文本（1D）。输入 + 输出令牌上限为 16K，最大分辨率由 12 个瓷砖布局约束决定，例如 4 × 3 布局支持最大 2048 × 1536 像素等，通道数为 3 通道（RGB），不支持透明度（无 Alpha 通道）。输出类型为文本，格式为字符串，参数为 1D，同样输入 + 输出令牌上限为 16K。

七、软件集成

运行时引擎为 TensorRT-LLM，支持的硬件微观架构为 H100 SXM 80GB，适用操作系统为 Linux。

八、快速入门

提供了安装依赖（如 pip 安装 transformers、accelerate、timm、einops、open-clip 等）以及使用示例代码，展示如何加载模型、图像处理器和标记器，进行图像特征处理，并通过模型聊天功能生成对问题的回答。

九、训练与评估数据集

使用 NV- 预训练和 NV-CosmosNemotron-SFT 进行训练和评估，数据收集方法为混合方式（人类、合成），标注方法也是混合的（人类、合成）。数据集包含内部和公共数据集，用于训练和评估各种任务，如对话建模、文档分析、图像描述和视觉问答等，还包括为特定任务（如表格数据理解）生成的合成数据集，以及用于安全对齐、函数调用和特定领域任务（如科学图表、金融问答）的专用数据集。

十、评估基准

在多个基准测试中取得了一定的成绩，如 MMMU Val（以 chatGPT 为评判标准）得分为 48.2%、AI2D 为 85.0%、ChartQA 为 86.3%、InfoVQA Val 为 77.4%、OCRBench 为 839、OCRBenchV2 英文版本为 60.1%、中文版本为 37.9%、DocVQA val 为 91.2%、VideoMME 为 54.7%。

十一、推理

采用 TTensorRT-LLM 引擎进行推理，测试硬件为 1x NVIDIA H100 SXM 80GB。

十二、伦理考量

NVIDIA 认为可信 AI 是共同的责任，已建立相关政策和实践来支持开发多种 AI 应用。开发者和用户应确保模型满足相关行业和使用案例的要求，并防止不可预见的产品滥用。用户要对模型的输入输出负责，并确保在部署前安全地集成该模型，包括实施防护措施等安全机制。模型生成的输出可能包含政治内容或其他可能具有误导性的信息，或存在内容安全、偏见等问题，这些都可能独立于监督之外。

核心技术汇总表格

在这里插入图片描述

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r