AI 中的流式响应：AI 输出如何实时生成

Pranshu Kabra 2025-01-14

在与现代人工智能（AI）或大语言模型（LLMs）交互时，你可能已经注意到，响应几乎会“即时”出现，就像 AI 正在屏幕上“打字”一样。这种令人印象深刻的功能得益于一种复杂的流式响应机制。在本篇博客中，我们将深入探讨这一功能背后的技术细节，并探索它是如何无缝运作，从而创造出高度互动和动态的用户体验的。

AI 中的流式响应简介

流式响应允许 AI 系统在计算响应的同时逐步生成并显示输出。系统不会等到整个响应生成完毕才进行展示，而是将较小的数据块（即 token）在准备好后立即发送出去。这种机制让交互感觉更加流畅、自然，仿佛正在进行一场真实的对话。

这种能力常见于 ChatGPT、Bard 或类似聊天机器人界面等 AI 应用中。但其底层究竟发生了什么？让我们一探究竟。

流式响应的工作原理

1. 按 Token 逐个生成

LLM 一次只生成一个 token。Token 是文本的基本单位，可以是：

一个完整的词（例如：“happy”）
一个词的一部分（例如：“happ-” 在 “happiness” 中）
单个字符（例如：“a” 或标点符号如 “,”）

当用户提交查询后，LLM 开始按顺序生成 token。一旦第一个 token 生成完成，它就会被立即发送到客户端界面，随后继续生成并发送后续 token，直到完整响应生成完毕。这种 token 的增量交付构成了流式响应的基础。

2. 流式 API

大多数 LLM 都通过专用 API 支持流式传输。例如，OpenAI 的 API 提供了一个 stream 参数，允许客户端接收实时的 token 流，而不是等待完整响应返回。具体流程如下：

步骤 1：客户端向服务器发送带有流式启用标志的查询请求。
步骤 2：服务器处理输入并开始生成 token。
步骤 3：token 在生成后立即以小数据块的形式逐个发送给客户端。
步骤 4：客户端将每个接收到的数据块实时追加到界面上显示。

这给用户营造出一种 AI 正在“打字”回复的错觉。

3. 客户端的实时渲染

在客户端，应用程序被设计为立即渲染接收到的 token 或数据块。例如：

Web 应用可能会在新 token 到达时立即更新用户界面。
基于终端的程序可能会直接将每个 token 刷新（flush）到输出流中，实现“实时打字”的效果。

支撑流式响应的关键技术

以下几项核心技术共同协作，使流式响应成为可能：

a) 服务器发送事件（Server-Sent Events, SSE）

SSE 是一种协议，允许服务器通过单一 HTTP 连接向客户端实时推送更新。每个数据块都作为独立的事件发送。

以下是 SSE 的一个示例：

data: Hello

data: how

data: are

data: you?

每个 data 字段代表响应的一个片段，客户端可以立即显示。

b) WebSocket

WebSocket 提供了客户端与服务器之间的双向通信通道，特别适用于流式场景。虽然对于简单的文本流式传输，WebSocket 并不常用，但在更复杂的实时应用（如协同编辑器或实时仪表盘）中经常使用。

c) 异步编程

像 Python 的 asyncio 或 JavaScript 的 Node.js 这样的异步编程框架，对高效处理流式响应至关重要。这些框架使服务器能够：

并发处理多个客户端请求
在不阻塞后续 token 生成的情况下向客户端发送 token

LLM 中的流水线优化

流式响应之所以可行，还得益于 LLM 架构和解码策略的高度优化：

1. Transformer 架构

LLM 使用 Transformer 架构，该架构并行处理输入，但顺序生成输出。每个 token 的预测都基于前序 token 的上下文，从而实现平滑的生成流程。

2. 解码策略

LLM 依赖多种解码策略，例如：

束搜索（Beam Search）：生成多个潜在序列，并选择概率最高的那个。
采样（Sampling）：引入随机性以生成多样化的响应。
Top-k 采样或核采样（Nucleus Sampling）：通过限制 token 选择范围至最可能的候选者，在质量和创造性之间取得平衡。

这些策略确保 token 能够高效生成，同时保持连贯性和相关性。

代码示例：不同语言中的流式实现

以下是 Python、JavaScript 和 Java 中实现流式响应的示例：

Python 示例

import openai

# 调用 OpenAI API 并启用流式响应
response = openai.ChatCompletion.create(
    model="gpt-4",
    messages=[{"role": "user", "content": "Tell me a story"}],
    stream=True  # 启用流式
)

# 逐个 token 流式输出
for chunk in response:
    print(chunk.choices[0].delta.get("content", ""), end="", flush=True)

JavaScript 示例

const fetch = require('node-fetch');

async function getStreamedResponse() {
    const response = await fetch('https://api.openai.com/v1/chat/completions', {
        method: 'POST',
        headers: {
            'Content-Type': 'application/json',
            'Authorization': `Bearer YOUR_API_KEY`
        },
        body: JSON.stringify({
            model: 'gpt-4',
            messages: [{ role: 'user', content: 'Tell me a story' }],
            stream: true
        })
    });

    const reader = response.body.getReader();
    const decoder = new TextDecoder('utf-8');

    while (true) {
        const { done, value } = await reader.read();
        if (done) break;
        console.log(decoder.decode(value, { stream: true }));
    }
}

getStreamedResponse();

Java 示例

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;

public class StreamingResponse {
    public static void main(String[] args) {
        try {
            URL url = new URL("https://api.openai.com/v1/chat/completions");
            HttpURLConnection conn = (HttpURLConnection) url.openConnection();
            conn.setRequestMethod("POST");
            conn.setRequestProperty("Authorization", "Bearer YOUR_API_KEY");
            conn.setRequestProperty("Content-Type", "application/json");
            conn.setDoOutput(true);

            String body = "{\"model\": \"gpt-4\", \"messages\": [{\"role\": \"user\", \"content\": \"Tell me a story\"}], \"stream\": true}";
            conn.getOutputStream().write(body.getBytes());

            BufferedReader in = new BufferedReader(new InputStreamReader(conn.getInputStream()));
            String line;
            while ((line = in.readLine()) != null) {
                System.out.println(line);
            }
            in.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

流式响应的优势

1. 更快的感知响应时间

即使对于长响应，用户也能立即看到结果，从而获得更流畅的体验。

2. 增强的交互性

实时反馈使交互更具动态性和对话感。用户可以在 AI 回答过程中中断或细化查询。

3. 高效的资源利用

流式传输避免了在服务器或客户端内存中缓存整个响应，从而减少资源占用。

流式响应的挑战

尽管流式响应带来了诸多优势，但也引入了一些挑战：

网络延迟：缓慢或不稳定的连接可能破坏实时体验。
错误处理：需要精心设计，以确保在中断或 token 生成失败时能优雅恢复。
复杂性：实现流式响应会增加服务器端和客户端代码的复杂度。

结论

流式响应是现代 AI 系统的基石，它使实时交互变得自然且直观。通过利用逐 token 生成、流式 API 和优化的架构，开发者可以构建出提供无缝用户体验的应用程序。

无论你是在开发聊天机器人、语音助手，还是任何交互式 AI 工具，理解和实现流式响应都能让你的应用脱颖而出。随着 AI 技术和基础设施的不断进步，这项技术将持续演进，为全球用户带来更快、更吸引人的体验。