浅谈视觉与语言中的多模态研究,究竟都研究什么
前言随着人工智能的整体进步,计算机视觉和自然语言处理已经有了巨大的。有了如此强大的算法和自主系统的综合能力,就需要合并知识领域,实现跨模态兼容,视觉语言(VisLang)研究具有更复杂的任务和交互式和可解释系统的需要。这已经浮出了各种具有挑战性的任务,如视觉语言导航,机器人的自主功能与环境的全面了解,视觉字幕生成丰富和有意义的语言描述等等,本篇就浅谈视觉语言多模态研究究竟在研究什么。VisLang
前言
随着人工智能的整体进步,计算机视觉和自然语言处理已经有了巨大的。有了如此强大的算法和自主系统的综合能力,就需要合并知识领域,实现跨模态兼容,视觉语言(VisLang)研究具有更复杂的任务和交互式和可解释系统的需要。这已经浮出了各种具有挑战性的任务,如视觉语言导航,机器人的自主功能与环境的全面了解,视觉字幕生成丰富和有意义的语言描述等等,本篇就浅谈视觉语言多模态研究究竟在研究什么。
VisLang任务总结

1.Generation tasks
2.Classification tasks

3.Retrieval tasks(检索任务)

4.Other tasks

Vision-Language Navigation (VLN):视觉语言导航,视觉语言导航是一种基于语言指令的主体运动的基础自然语言任务。这通常被视是一项序列到序列转编码的任务,类似于VQA。然而,这两者之间有明显的区别。VLN通常有更长的序列,问题的动态完全变化,因为它是一个实时演化的任务。
总结
本篇记录了Visual-Language的多模态研究都有什么大类,并且每个大类里面又分为什么任务,并且记录了一些子任务的缩写代表什么意思,方便以后再看到相似的缩写词能够明白是在做什么。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐




所有评论(0)