AI API 定价机制简介

绝大多数商用 AI API 采用按 token 计费的模式。Token 是模型处理文本的最小单位，通常 1 个英文单词约 1-1.3 个 token，1 个中文汉字约 1.5-2 个 token。费用分为两部分：

输入价格（Input / Prompt）：你发送给模型的 token 数量，包括 system prompt、上下文、用户消息等。
输出价格（Output / Completion）：模型生成的 token 数量，即模型的回复内容。

输出价格通常是输入价格的 2-5 倍，因为生成 token 需要更多计算资源。价格按每百万 token（1M tokens）报价。例如，GPT-4o 的输入价格为 $2.50/1M tokens，意味着处理 100 万个 token 的输入成本为 2.50 美元。

了解定价结构是控制 AI 开发成本的第一步。本页提供 2026 年所有主流模型的完整定价对比、交互式成本计算器以及针对不同场景的模型推荐。

2026 年 AI API 完整定价表

下表列出了所有主流 AI 模型的 API 定价，按厂商分组。价格单位为美元/百万 token。点击表头可排序。

厂商 ▴▾	模型 ▴▾	上下文 ▴▾	输入 $/1M ▴▾	输出 $/1M ▴▾	RPM 限制	备注
OpenAI	GPT-4o	128K	$2.50	$10.00	500	旗舰多模态模型
OpenAI	GPT-4o Mini	128K	$0.15	$0.60	500	高性价比之选
OpenAI	GPT-4 Turbo	128K	$10.00	$30.00	500	旧版，建议迁移到 4o
OpenAI	o1	200K	$15.00	$60.00	100	推理模型，深度思考
OpenAI	o1-mini	128K	$3.00	$12.00	200	推理模型的轻量版
Anthropic	Claude Sonnet 4	200K	$3.00	$15.00	1000	代码与分析首选
Anthropic	Claude Haiku 3.5	200K	$0.80	$4.00	1000	快速轻量任务
Anthropic	Claude Opus 4	200K	$15.00	$75.00	250	最强推理能力
Google	Gemini 2.0 Flash	1M	$0.10	$0.40	2000	极致性价比+超长上下文
Google	Gemini 1.5 Pro	1M	$1.25	$5.00	360	长文档分析
Google	Gemini 1.5 Flash	1M	$0.075	$0.30	2000	最便宜的选项之一
DeepSeek	DeepSeek V3	128K	$0.27	$1.10	500	中文场景性价比王
Mistral	Mistral Large	128K	$2.00	$6.00	300	欧洲厂商，多语言
Groq	Llama 3.1 70B	128K	$0.59	$0.79	30	超低延迟推理

价格说明

以上价格为 2026 年 4 月的标准 API 价格（按需计费）。批量 API（Batch API）通常可获得 50% 折扣。企业合同和承诺用量折扣另议。价格可能随时变动，请以各厂商官方文档为准。Gemini 1.5 Flash 的 $0.075 为 128K 上下文内的价格，超过 128K 部分价格翻倍。

AI API 月度成本计算器

输入你每月预计的 token 用量，即可查看各模型的月度成本排行。1M = 100 万 token，约等于 75 万英文单词或 50 万汉字。

每月输入 token (百万M)

每月输出 token (百万M)

#	模型	月度成本	输入费用	输出费用

按使用场景选择模型

不同业务场景对模型能力和成本的要求截然不同。下表根据典型场景推荐最具性价比的模型。

场景	特点	推荐模型	预估成本/月	理由
聊天助手	高并发、简单对话	GPT-4o Mini	~$21 (10M in/2M out)	$0.15/$0.60 极低价格，质量足够日常对话
代码生成	中等量、需要高质量	Claude Sonnet 4	~$60 (10M in/2M out)	代码质量业界领先，200K 上下文适合大型项目
文档分析	超长输入、少量输出	Gemini 2.0 Flash	~$4.80 (10M in/2M out)	1M 上下文+极低价格，长文档一次读完
创意写作	中等输入、大量输出	DeepSeek V3	~$4.90 (2M in/2M out)	中文写作质量优秀，价格实惠
数据提取	结构化输出、批量处理	Gemini 1.5 Flash	~$1.35 (10M in/2M out)	最低价格之一，JSON 结构化输出可靠

API 成本优化技巧

以下 8 个策略可帮助你显著降低 AI API 的使用成本：

1. 模型路由分层

为不同复杂度的任务分配不同模型。简单分类/摘要用 GPT-4o Mini ($0.15)，复杂推理才用 Claude Sonnet 4 ($3.00)。一个简单的 LLM 路由器可节省 60-80% 成本。

2. 实施语义缓存

对相似查询缓存结果。使用向量数据库（如 Qdrant）存储 prompt-response 对，相似度超过阈值时直接返回缓存。典型场景下可减少 30-50% 的 API 调用。

3. 使用批量 API

OpenAI 和 Anthropic 都提供批量 API（Batch API），价格为标准 API 的 50%。适合不需要实时响应的场景，如数据标注、批量翻译、内容审核。

4. 优化 Prompt 长度

精简 system prompt，移除冗余指令。使用 few-shot 而非长篇说明。一个优化过的 prompt 可以减少 40% 的输入 token，同时保持输出质量不变。

5. 考虑开源模型

对于高并发场景（日均 100M+ token），自部署 Llama 3.1 70B 或 DeepSeek V3 的边际成本可低至闭源 API 的 1/5-1/10。使用 vLLM 或 TGI 可最大化吞吐量。

6. 使用流式传输

启用 streaming 不会降低成本，但可以显著改善用户体验，减少用户因等待而重复提交请求的情况。间接减少约 10-15% 的无效调用。

7. 设置用量监控与限额

在 API 密钥级别设置月度消费上限。使用 OpenAI/Anthropic 的用量仪表盘监控每日消费趋势。及时发现异常调用可避免意外高额账单。

8. 利用 Prompt Caching

Anthropic 和 OpenAI 都支持 Prompt Caching，对于重复的 system prompt 或长上下文，缓存后的 token 价格可降至原价的 10%。非常适合 RAG 和多轮对话场景。

免费额度与试用计划

大多数 AI API 厂商提供免费额度或试用计划，适合开发测试和个人项目：

厂商	免费额度	有效期	限制	适合场景
OpenAI	$5 额度	注册后 3 个月	仅限 GPT-3.5/4o Mini	入门测试
Anthropic	免费层	持续	速率限制，每日用量上限	小规模开发
Google	Gemini 免费	持续	15 RPM / 100 万 TPD	原型验证
Groq	免费层	持续	30 RPM，开源模型	高速推理测试
Mistral	免费试用	注册后 1 个月	有限请求配额	评估模型
DeepSeek	$5 额度	注册后 1 个月	所有模型可用	中文场景测试

常见问题 (FAQ)

AI API 按 token 计费，怎样估算一次请求的成本？

使用公式：成本 = (输入 token 数 / 1,000,000) x 输入价格 + (输出 token 数 / 1,000,000) x 输出价格。例如，使用 GPT-4o 发送 2000 token 的 prompt 并收到 500 token 的回复，成本为 (2000/1M) x $2.50 + (500/1M) x $10.00 = $0.005 + $0.005 = $0.01。你可以使用上方的计算器批量估算月度成本。

最便宜的 AI API 是哪个？

截至 2026 年 4 月，Gemini 1.5 Flash 是最便宜的选项之一（$0.075/$0.30），而 Gemini 2.0 Flash（$0.10/$0.40）在价格和能力之间取得了最佳平衡。如果你主要处理中文内容，DeepSeek V3（$0.27/$1.10）的性价比也非常出色。对于需要高质量但预算有限的场景，GPT-4o Mini（$0.15/$0.60）是 OpenAI 阵营的最优选择。

输入价格和输出价格为什么差异这么大？

输出（completion）需要模型逐个 token 进行自回归生成，每个 token 都需要完整的前向传播计算，这比批量处理输入 token 的计算成本高得多。此外，输出 token 占用 GPU 的时间更长（因为是串行生成），降低了整体吞吐量。这就是为什么输出价格通常是输入价格的 2-5 倍。Claude Opus 4 的比例最高，输出是输入的 5 倍（$15/$75），反映了其强大推理能力所需的额外计算。

Batch API 和标准 API 有什么区别？

Batch API（批量 API）允许你一次提交大量请求，在 24 小时内异步返回结果。价格通常是标准 API 的 50%。OpenAI 的 Batch API 支持 GPT-4o 和 GPT-4o Mini，Anthropic 的 Message Batches 支持所有 Claude 模型。适用场景包括：大规模数据标注、批量内容生成、离线评估等不需要实时响应的任务。不适合实时聊天、需要低延迟的应用。

API 定价会继续下降吗？

从历史趋势来看，AI API 定价每年下降 40-60%。GPT-4 的初始定价（2023 年）为 $30/$60，而 2026 年的 GPT-4o 已降至 $2.50/$10。驱动降价的因素包括：硬件效率提升（新一代 GPU）、推理优化（量化、投机解码）、以及开源模型带来的竞争压力。预计这一趋势将在未来 2-3 年内持续，最终使 AI API 成本降至今天的 1/10。

AI API 定价对比

AI API 定价机制简介

2026 年 AI API 完整定价表

价格说明

AI API 月度成本计算器

按使用场景选择模型

API 成本优化技巧

1. 模型路由分层

2. 实施语义缓存

3. 使用批量 API

4. 优化 Prompt 长度

5. 考虑开源模型

6. 使用流式传输

7. 设置用量监控与限额

8. 利用 Prompt Caching

免费额度与试用计划

相关工具

常见问题 (FAQ)

AI API 定价对比

AI API 定价机制简介

2026 年 AI API 完整定价表

价格说明

AI API 月度成本计算器

按使用场景选择模型

API 成本优化技巧

1. 模型路由分层

2. 实施语义缓存

3. 使用批量 API

4. 优化 Prompt 长度

5. 考虑开源模型

6. 使用流式传输

7. 设置用量监控与限额

8. 利用 Prompt Caching

免费额度与试用计划

相关工具

常见问题 (FAQ)

相关工具推荐