Skip to content

4. 响应

4.1 成功响应

能力stream=falsestream=true
文本JSONSSE
图片JSON(通常直接返回结果;仅返回 task_id 时才需轮询)暂不定义稳定流式格式
视频JSON(异步,返回 task_id 后需轮询)暂不定义稳定流式格式
语音合成JSON(当前支持模型返回 JSON,可能含音频数据或下载 URL)SSE

SSE 响应头:

http
Content-Type: text/event-stream; charset=utf-8

SSE 示例(节选):

text
data: {"id":"chatcmpl-e30f5ae7-3063-93c4-90fe-beb5f900bd57","object":"chat.completion.chunk","created":1749600000,"model":"qwen3.6-plus","choices":[{"index":0,"delta":{"role":"assistant","content":""},"finish_reason":null}],"usage":null}

data: {"id":"chatcmpl-e30f5ae7-3063-93c4-90fe-beb5f900bd57","object":"chat.completion.chunk","created":1749600000,"model":"qwen3.6-plus","choices":[{"index":0,"delta":{"content":"我是 Qwen,由阿里云开发的大语言模型。"},"finish_reason":null}],"usage":null}

data: {"id":"chatcmpl-e30f5ae7-3063-93c4-90fe-beb5f900bd57","object":"chat.completion.chunk","created":1749600000,"model":"qwen3.6-plus","choices":[{"index":0,"delta":{},"finish_reason":"stop"}],"usage":null}

data: [DONE]

说明:

  • 流式响应以 data: [DONE] 结束。
  • 非流式文本响应通常包含 id/object/model/choices/usage 字段。
  • 图片或视频响应返回 task_id 时,可通过任务查询接口轮询任务状态。

任务查询接口:

  • 视频任务:GET /v1/videos/generations/{task_id}task_id 必填)
  • 图片任务:GET /v1/images/generations/{task_id}task_id 必填,仅当创建接口实际返回 task_id 时使用)

4.2 响应头

响应头类型说明
X-Request-Idstring (UUID)请求唯一标识,可用于客服排查
X-Trace-IDstring链路追踪 ID
X-RateLimit-Limitinteger当前生效限流层级的窗口配额。仅在服务启用了限速且当前请求命中了对应限流检查时返回。
X-RateLimit-Remaininginteger当前生效限流层级的窗口剩余额度。
X-RateLimit-Resetinteger (Unix 秒)当前生效限流窗口的重置时间(Unix 时间戳)。

4.3 响应类型说明

场景常见响应类型
文本非流式application/json
文本流式text/event-stream; charset=utf-8
图片/视频创建application/json
语音非流式application/json
语音流式text/event-stream; charset=utf-8

4.4 统一层与模型原生响应边界

本接口对外公开的“统一”主要体现在入口、统一字段、错误包与通用响应约束,而不是所有成功响应都强制归一为单一 JSON 结构。

以下内容属于稳定的统一层契约:

  • 调用入口:POST /v1/experience/run
  • 统一请求字段:见 3. 请求体
  • 错误响应包格式:见 5. 错误与限流
  • 通用响应头:见 §4.2
  • 文本/语音流式使用 SSE,且以 data: [DONE] 结束

以下内容保留模型原生差异,调用方应按模型或能力分别解析:

  • 图片、视频、语音合成的成功响应字段
  • 异步任务查询返回体的字段命名与状态枚举大小写
  • usageoutputdata 等模型原生扩展字段

如果你的客户端需要在多个模型间切换,请不要假设所有成功响应共享同一套字段;建议至少按“文本 / 多模态理解 / 图片 / 视频 / 语音合成”能力分类解析。