vllm+llama模型出现＜|eot_id|＞并且一直输出至最大长度问题的解决方案

本人在使用vllm的openai接口部署llama3以及llama2时，出现了下面的模型输出结果：可以看到上面的输出存在两点问题：1. 输出中包含模型的eos_token_id信息；2. 模型接着上一段开始自行组织多轮对话直到max_tokens.本文提供了解决方案

johnteller · 2024-11-18 19:56:02 发布

问题描述

本人在使用vllm的openai接口部署llama3以及llama2时，出现了下面的模型输出结果：

可以看到上面的输出存在两点问题：

1. 输出中包含模型的eos_token_id信息；

2. 模型接着上一段开始自行组织多轮对话直到max_tokens.

很简单，在openai的response中设置stop为相应模型的eos_token_id即可：

因为学艺不精出现的一个弱智问题，特此记录。

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

替你试过了，消费级显卡可以跑的开源文生图SOTA模型，顶级渲染、高密度文本绘图

量化挑战赛冠军专访：4小时啃下W4A8量化，我靠的是这些经验

从0到1：魔乐社区贡献者丁一超的大模型量化实战指南

查看更多评论

已为社区贡献2条内容