基于天池Better Synth多模态大模型数据合成挑战赛的多模态大模型数据合成(1) [Datawhale AI 夏令营]

weixin_64865780

1787人浏览 · 2024-08-13 23:37:32

weixin_64865780 · 2024-08-13 23:37:32 发布

前言

该问题背景基于天池Better Synth多模态大模型数据合成挑战赛，详细可以参考该链接。
简而言之，本背景基于图片数据方面，在合成与清洗图文数据中提高多模态大模型的图片理解能力。
基于 Mini-Gemini 模型进行训练，只关注于预训练（模态间对齐）阶段的数据合成与清洗，指令微调阶段为固定数据集。选用 MGM-2B 规模的模型作为模型。

小题外话

基于大模型的数据任务一般占用的训练时间和推理时间都较长，海量的图片文字处理任务更提高了其存储和训练空间的压力。针对这类任务，比较推荐组显卡或服务器运行，例如阿里云等平台。

服务器下的数据下载和准备

可以借助于datawhale创建的镜像快速在平台中创建实例并下载基本的数据和准备工作（包括环境的设置和激活）（Bash代码）。

# 激活环境
conda activate name（环境名称）

git clone https:XXX

小题外话

在服务器的terminal（终端）中，我们一般使用 Linux 语句提高执行和运行效率，同时可以借助于 git clone https:XXX（地址）快速部署。
Linux 语句和 git 的相关内容或者细节感兴趣的话可以自主搜索学习。

安装必要工具并下载实验数据集和图片描述（Bash代码）：

apt update
apt install axel zip file
pip install modelscope

bash download.sh 

python download_blip.py

服务器下的数据处理、合成、推理

# 激活环境
conda activate name（环境名称）
# 进入指定目录
cd list（目录）
name-process xx（进程执行）
name-process xx（进程执行）

bash xx.sh   # 执行训练，推理程序

bash 具体用法可参考如下：bash具体用法

数据格式整合

借助于cp命令（主要用于复制文件或目录）可以便捷将不同目录整合打包在一起，最后整合输出：

cp -r xxx(目录)

zip -r submit.zip solution output

cp具体用法可参考如下：cp具体用法

提交结果（测评结果）

提交结果中由分数，MMBench，TextVQA构成

小题外话(两种评估详细解释可跳转以下链接)

MMBench:主要由两个元素组成。第一个元素是精心标注的数据集，在评估问题和能力的数量和种类方面超过了现有的类似基准。第二个元素引入了一种新的 CircularEval 策略，并结合了 ChatGPT 的使用。这种实现旨在将自由形式的预测转换为预定义的选择，从而促进对模型预测的更稳健的评估。MMBench 是一个系统设计的客观基准，用于稳健地评估视觉语言模型的各种能力。

TextVQA:详细数据集官网介绍

总结

该任务总体上来说难度较大，且利用大模型合成数据时间和空间存储占用都较大，环境配置等对未进行过服务器租借人员来说需要花费一定时间。

参考资料

1.天池Better Synth多模态大模型数据合成挑战赛
 2.阿里云
 3.Linux教程
 4.多模态大模型评估基准
 5.TextVQA数据集官网介绍

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模