从语言模型流式获取响应的实现方法

在与语言模型交互时，传统方法是等待完整生成输出后再返回给用户。然而，这可能导致响应延迟，尤其是在生成大型响应时。通过流式传输响应，我们可以在生成过程中逐步获取输出，从而减少延迟。

vaidfl

287人浏览 · 2025-02-18 20:29:32

vaidfl · 2025-02-18 20:29:32 发布

在大规模语言模型(LLM)的应用中，流式获取响应可以提高响应速度和用户体验，尤其是在处理长文本或者实时应用场景中。本篇文章将深入探讨如何实现LLM的响应流式获取，包括同步流、异步流以及事件流的实现方法。

技术背景介绍

核心原理解析

大多数LLM实现了Runnable接口，该接口提供了标准的可运行方法，包括同步流（stream）、异步流（astream）、和异步事件流（astream_events）。这些方法允许我们以流的方式逐步获取模型的输出。

代码实现演示

以下代码示例演示了如何使用OpenAI的Langchain库实现流式获取响应的方法。

同步流示例

from langchain_openai import OpenAI

# 初始化OpenAI模型
llm = OpenAI(model="gpt-3.5-turbo-instruct", temperature=0, max_tokens=512)

# 使用同步流式方法获取响应
for chunk in llm.stream("Write me a 1 verse song about sparkling water."):
    print(chunk, end="|", flush=True)  # 使用'|'符号分隔每个token

异步流示例

from langchain_openai import OpenAI
import asyncio

async def main():
    # 初始化OpenAI模型
    llm = OpenAI(model="gpt-3.5-turbo-instruct", temperature=0, max_tokens=512)

    # 使用异步流式方法获取响应
    async for chunk in llm.astream("Write me a 1 verse song about sparkling water."):
        print(chunk, end="|", flush=True)

# 运行异步主函数
asyncio.run(main())

异步事件流示例

from langchain_openai import OpenAI
import asyncio

async def event_stream():
    # 初始化OpenAI模型
    llm = OpenAI(model="gpt-3.5-turbo-instruct", temperature=0, max_tokens=512)
    
    idx = 0
    # 使用异步事件流式方法获取响应
    async for event in llm.astream_events("Write me a 1 verse song about goldfish on the moon", version="v1"):
        idx += 1
        if idx >= 5:  # 控制输出的长度
            print("...Truncated")
            break
        print(event)

# 运行异步事件流函数
asyncio.run(event_stream())

应用场景分析

流式响应特别适用于以下场景：

实时对话应用：逐步生成并返回对话内容，提高交互性。
长篇文本生成：在生成长文字时，可以分段返回提高用户体验。
多步骤任务：在复杂任务中逐步执行每一步，并即时获取反馈。

实践建议

在实际应用中，选择同步还是异步流式方法取决于具体使用场景和技术栈。异步方法通常在高并发场景下表现更优，而同步方法则更易于实现。

最后，确保你的语言模型和服务提供商支持流式传输功能，以充分发挥流式响应的优势。

如果遇到问题欢迎在评论区交流。
—END—

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

【计算机视觉】Pixel逐像素分类&Mask掩码分类理解摘要

魔乐社区

计算机视觉（opencv）实战三十二——CascadeClassifier 人脸微笑检测（摄像头）

本文从原理到实现，详细介绍了基于 OpenCV Haar 分类器的人脸与微笑检测：讲解了 Haar 特征和级联检测原理。对代码逐行拆解并解释参数含义。画出完整流程图，帮助理解执行过程。给出了常见问题和优化建议，甚至扩展到深度学习方法。这种方法简单、轻量、实时性好，非常适合入门和小型应用项目。但如果需要更高准确率和更强鲁棒性，建议使用深度学习检测器替代 Haar 分类器。