文本生成精准图像字幕,谷歌等开源PixelLLM 相信Google
传统的大语言模型可以描述、回答与图像相关的问题,甚至进行复杂的图像推理。但使用大型语言模型进行文本定位,或用图像指代准确坐标却不太行。PixelLLM可以将图像位置信息作为输入或输出。当将位置作为输入时,模型可以根据位置生成与指定对象或区域相关的描述文本。为了进行该技术的探索,谷歌和加州大学圣地亚哥分校的研究人员开发了像素对齐大语言模型——PixelLLM。当生成位置作为输出时,模型可以为每个输出
·
传统的大语言模型可以描述、回答与图像相关的问题,甚至进行复杂的图像推理。但使用大型语言模型进行文本定位,或用图像指代准确坐标却不太行。
为了进行该技术的探索,谷歌和加州大学圣地亚哥分校的研究人员开发了像素对齐大语言模型——PixelLLM。
PixelLLM可以将图像位置信息作为输入或输出。当将位置作为输入时,模型可以根据位置生成与指定对象或区域相关的描述文本。
当生成位置作为输出时,模型可以为每个输出词语生成像素坐标,实现密集的词语定位。

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)