最近想要自己玩一个多模态医疗大模型,首选需要获取数据集,于是抱抱脸上找到了MedTrinity-25M的下载地址 https://huggingface.co/datasets/UCSC-VLAA/MedTrinity-25M

数据集介绍

MedTrinity-25M 是一个全面的大型医学多模态数据集,由华中科技大学、加州大学、哈佛大学、斯坦福大学等机构合作发布,涵盖 10 种模态 2500 多万张图像,为 65 多种疾病提供多粒度注释。这些注释既包括全局文本信息,例如疾病/病变类型、模态、区域特定描述和区域间关系,也包括感兴趣区域 (ROI) 的详细局部注释,包括边界框、分割蒙版。支持全面的多模态任务,例如字幕和报告生成,以及以视觉为中心的分类、分割等任务。

下载数据集

本地安装官网提示下载遇到了各种问题(25M_full下载正常,但25M_demo各种失败),于是果断使用手工下载数据集
在这里插入图片描述
点击data后一个个点击下载,总共10个文件在这里插入图片描述
下载之后长这样在这里插入图片描述

本地预览数据集

.parquet文件,使用pandas pyarrow引擎可以读取,脚本如下:
df = pd.read_parquet(‘cache/UCSC-VLAA___med_trinity-25_m/25M_demo/0.0.0/train-00000-of-00010.parquet’, engine=‘pyarrow’)
打印前五行出来看看 print(df.head()) ,数据长这样
在这里插入图片描述
不记得df都有啥,没关系,dir(df)去看看都有哪些方法和熟悉可用,看到了info,就他吧
在这里插入图片描述

df.info()预览一下信息 长这样,不错,大概知道里面都有啥了
在这里插入图片描述
再试试loc方法,df.loc[0]读取第0行信息,长这样
在这里插入图片描述
看到imag、id 和caption信息,image是bytes类型,存储在一个字典里,探究一下字典里还放了什么:在这里插入图片描述image = df.loc[0, “image”]
type(image) 果然是个字典
在这里插入图片描述
来看看字典里都有啥,image.keys()
在这里插入图片描述
image.values()
在这里插入图片描述嗯,基本清楚数据里放的是图像、id、caption、还有路径,可用试试看完整的图像和内容了,
临时写一个方法来显示图像和相关描述使用
在这里插入图片描述
在这里插入图片描述
好啦,数据全貌都出来啦,后续再记录如何使用这些数据搞点事情

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐