文本生成精准图像字幕，谷歌等开源PixelLLM 相信Google

传统的大语言模型可以描述、回答与图像相关的问题，甚至进行复杂的图像推理。但使用大型语言模型进行文本定位，或用图像指代准确坐标却不太行。PixelLLM可以将图像位置信息作为输入或输出。当将位置作为输入时，模型可以根据位置生成与指定对象或区域相关的描述文本。为了进行该技术的探索，谷歌和加州大学圣地亚哥分校的研究人员开发了像素对齐大语言模型——PixelLLM。当生成位置作为输出时，模型可以为每个输出

后觉2022

847人浏览 · 2023-12-20 09:59:08

后觉2022 · 2023-12-20 09:59:08 发布

传统的大语言模型可以描述、回答与图像相关的问题，甚至进行复杂的图像推理。但使用大型语言模型进行文本定位，或用图像指代准确坐标却不太行。

为了进行该技术的探索，谷歌和加州大学圣地亚哥分校的研究人员开发了像素对齐大语言模型——PixelLLM。

PixelLLM可以将图像位置信息作为输入或输出。当将位置作为输入时，模型可以根据位置生成与指定对象或区域相关的描述文本。

当生成位置作为输出时，模型可以为每个输出词语生成像素坐标，实现密集的词语定位。

项目地址：Pixel Aligned Language Models‌

论文地址：https://arxiv.org/abs/2312.09237‌

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

【计算机视觉】Pixel逐像素分类&Mask掩码分类理解摘要

魔乐社区

计算机视觉（opencv）实战三十二——CascadeClassifier 人脸微笑检测（摄像头）

本文从原理到实现，详细介绍了基于 OpenCV Haar 分类器的人脸与微笑检测：讲解了 Haar 特征和级联检测原理。对代码逐行拆解并解释参数含义。画出完整流程图，帮助理解执行过程。给出了常见问题和优化建议，甚至扩展到深度学习方法。这种方法简单、轻量、实时性好，非常适合入门和小型应用项目。但如果需要更高准确率和更强鲁棒性，建议使用深度学习检测器替代 Haar 分类器。