vllm+llama模型出现<|eot_id|>并且一直输出至最大长度问题的解决方案
本人在使用vllm的openai接口部署llama3以及llama2时,出现了下面的模型输出结果:可以看到上面的输出存在两点问题:1. 输出中包含模型的eos_token_id信息;2. 模型接着上一段开始自行组织多轮对话直到max_tokens.本文提供了解决方案
·
问题描述
本人在使用vllm的openai接口部署llama3以及llama2时,出现了下面的模型输出结果:

可以看到上面的输出存在两点问题:
1. 输出中包含模型的eos_token_id信息;
2. 模型接着上一段开始自行组织多轮对话直到max_tokens.
解决方案
很简单,在openai的response中设置stop为相应模型的eos_token_id即可:

后记
因为学艺不精出现的一个弱智问题,特此记录。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐



所有评论(0)