AI API 定价对比
AI API 定价机制简介
绝大多数商用 AI API 采用按 token 计费的模式。Token 是模型处理文本的最小单位,通常 1 个英文单词约 1-1.3 个 token,1 个中文汉字约 1.5-2 个 token。费用分为两部分:
- 输入价格(Input / Prompt):你发送给模型的 token 数量,包括 system prompt、上下文、用户消息等。
- 输出价格(Output / Completion):模型生成的 token 数量,即模型的回复内容。
输出价格通常是输入价格的 2-5 倍,因为生成 token 需要更多计算资源。价格按每百万 token(1M tokens)报价。例如,GPT-4o 的输入价格为 $2.50/1M tokens,意味着处理 100 万个 token 的输入成本为 2.50 美元。
了解定价结构是控制 AI 开发成本的第一步。本页提供 2026 年所有主流模型的完整定价对比、交互式成本计算器以及针对不同场景的模型推荐。
2026 年 AI API 完整定价表
下表列出了所有主流 AI 模型的 API 定价,按厂商分组。价格单位为美元/百万 token。点击表头可排序。
| 厂商 ▴▾ | 模型 ▴▾ | 上下文 ▴▾ | 输入 $/1M ▴▾ | 输出 $/1M ▴▾ | RPM 限制 | 备注 |
|---|---|---|---|---|---|---|
| OpenAI | GPT-4o | 128K | $2.50 | $10.00 | 500 | 旗舰多模态模型 |
| OpenAI | GPT-4o Mini | 128K | $0.15 | $0.60 | 500 | 高性价比之选 |
| OpenAI | GPT-4 Turbo | 128K | $10.00 | $30.00 | 500 | 旧版,建议迁移到 4o |
| OpenAI | o1 | 200K | $15.00 | $60.00 | 100 | 推理模型,深度思考 |
| OpenAI | o1-mini | 128K | $3.00 | $12.00 | 200 | 推理模型的轻量版 |
| Anthropic | Claude Sonnet 4 | 200K | $3.00 | $15.00 | 1000 | 代码与分析首选 |
| Anthropic | Claude Haiku 3.5 | 200K | $0.80 | $4.00 | 1000 | 快速轻量任务 |
| Anthropic | Claude Opus 4 | 200K | $15.00 | $75.00 | 250 | 最强推理能力 |
| Gemini 2.0 Flash | 1M | $0.10 | $0.40 | 2000 | 极致性价比+超长上下文 | |
| Gemini 1.5 Pro | 1M | $1.25 | $5.00 | 360 | 长文档分析 | |
| Gemini 1.5 Flash | 1M | $0.075 | $0.30 | 2000 | 最便宜的选项之一 | |
| DeepSeek | DeepSeek V3 | 128K | $0.27 | $1.10 | 500 | 中文场景性价比王 |
| Mistral | Mistral Large | 128K | $2.00 | $6.00 | 300 | 欧洲厂商,多语言 |
| Groq | Llama 3.1 70B | 128K | $0.59 | $0.79 | 30 | 超低延迟推理 |
价格说明
以上价格为 2026 年 4 月的标准 API 价格(按需计费)。批量 API(Batch API)通常可获得 50% 折扣。企业合同和承诺用量折扣另议。价格可能随时变动,请以各厂商官方文档为准。Gemini 1.5 Flash 的 $0.075 为 128K 上下文内的价格,超过 128K 部分价格翻倍。
AI API 月度成本计算器
输入你每月预计的 token 用量,即可查看各模型的月度成本排行。1M = 100 万 token,约等于 75 万英文单词或 50 万汉字。
| # | 模型 | 月度成本 | 输入费用 | 输出费用 |
|---|
按使用场景选择模型
不同业务场景对模型能力和成本的要求截然不同。下表根据典型场景推荐最具性价比的模型。
| 场景 | 特点 | 推荐模型 | 预估成本/月 | 理由 |
|---|---|---|---|---|
| 聊天助手 | 高并发、简单对话 | GPT-4o Mini | ~$21 (10M in/2M out) | $0.15/$0.60 极低价格,质量足够日常对话 |
| 代码生成 | 中等量、需要高质量 | Claude Sonnet 4 | ~$60 (10M in/2M out) | 代码质量业界领先,200K 上下文适合大型项目 |
| 文档分析 | 超长输入、少量输出 | Gemini 2.0 Flash | ~$4.80 (10M in/2M out) | 1M 上下文+极低价格,长文档一次读完 |
| 创意写作 | 中等输入、大量输出 | DeepSeek V3 | ~$4.90 (2M in/2M out) | 中文写作质量优秀,价格实惠 |
| 数据提取 | 结构化输出、批量处理 | Gemini 1.5 Flash | ~$1.35 (10M in/2M out) | 最低价格之一,JSON 结构化输出可靠 |
API 成本优化技巧
以下 8 个策略可帮助你显著降低 AI API 的使用成本:
1. 模型路由分层
为不同复杂度的任务分配不同模型。简单分类/摘要用 GPT-4o Mini ($0.15),复杂推理才用 Claude Sonnet 4 ($3.00)。一个简单的 LLM 路由器可节省 60-80% 成本。
2. 实施语义缓存
对相似查询缓存结果。使用向量数据库(如 Qdrant)存储 prompt-response 对,相似度超过阈值时直接返回缓存。典型场景下可减少 30-50% 的 API 调用。
3. 使用批量 API
OpenAI 和 Anthropic 都提供批量 API(Batch API),价格为标准 API 的 50%。适合不需要实时响应的场景,如数据标注、批量翻译、内容审核。
4. 优化 Prompt 长度
精简 system prompt,移除冗余指令。使用 few-shot 而非长篇说明。一个优化过的 prompt 可以减少 40% 的输入 token,同时保持输出质量不变。
5. 考虑开源模型
对于高并发场景(日均 100M+ token),自部署 Llama 3.1 70B 或 DeepSeek V3 的边际成本可低至闭源 API 的 1/5-1/10。使用 vLLM 或 TGI 可最大化吞吐量。
6. 使用流式传输
启用 streaming 不会降低成本,但可以显著改善用户体验,减少用户因等待而重复提交请求的情况。间接减少约 10-15% 的无效调用。
7. 设置用量监控与限额
在 API 密钥级别设置月度消费上限。使用 OpenAI/Anthropic 的用量仪表盘监控每日消费趋势。及时发现异常调用可避免意外高额账单。
8. 利用 Prompt Caching
Anthropic 和 OpenAI 都支持 Prompt Caching,对于重复的 system prompt 或长上下文,缓存后的 token 价格可降至原价的 10%。非常适合 RAG 和多轮对话场景。
免费额度与试用计划
大多数 AI API 厂商提供免费额度或试用计划,适合开发测试和个人项目:
| 厂商 | 免费额度 | 有效期 | 限制 | 适合场景 |
|---|---|---|---|---|
| OpenAI | $5 额度 | 注册后 3 个月 | 仅限 GPT-3.5/4o Mini | 入门测试 |
| Anthropic | 免费层 | 持续 | 速率限制,每日用量上限 | 小规模开发 |
| Gemini 免费 | 持续 | 15 RPM / 100 万 TPD | 原型验证 | |
| Groq | 免费层 | 持续 | 30 RPM,开源模型 | 高速推理测试 |
| Mistral | 免费试用 | 注册后 1 个月 | 有限请求配额 | 评估模型 |
| DeepSeek | $5 额度 | 注册后 1 个月 | 所有模型可用 | 中文场景测试 |
相关工具
搭配以下工具一起使用,更好地管理 AI API 成本: