Groq
Groq 提供由定制 LPU(语言处理单元)硬件驱动的超快 AI 推理。Groq 不训练自己的模型 —— 相反,它以比传统 GPU 基础设施更快的速度运行流行的开源模型。多个模型免费提供,但有速率限制。
获取 API 密钥
- 访问 console.groq.com/keys
- 登录或创建账户(免费)
- 生成新的 API 密钥(以
gsk_...开头) - 将密钥粘贴到 AI Supreme Council 的 设置 > AI 模型 > Groq
Groq 提供具有慷慨速率限制的免费额度。创建账户和使用免费模型无需信用卡。
API 密钥本地存储在您的浏览器(localStorage)中,永远不会包含在分享的机器人 URL 中。
支持的模型
免费模型
| 模型 | 上下文窗口 | 最大输出 | 能力 |
|---|---|---|---|
| Llama 3.3 70B | 128K | 32K | 工具、代码、流式传输 |
| DeepSeek R1 Distill 70B | 128K | 16K | 推理、代码、流式传输 |
| Compound Beta | 128K | 32K | 工具、推理、流式传输 |
| Llama 3.1 8B Instant | 128K | 8K | 工具、代码、流式传输 |
| Gemma 2 9B | 8K | 8K | 流式传输 |
付费模型
| 模型 | 上下文窗口 | 最大输出 | 输入价格 | 输出价格 | 能力 |
|---|---|---|---|---|---|
| Llama 4 Scout | 128K | 8K | $0.11/MTok | $0.34/MTok | 视觉、工具、代码 |
| Llama 4 Maverick | 128K | 8K | $0.50/MTok | $0.77/MTok | 视觉、工具、代码 |
| Qwen3 32B | 128K | 8K | $0.29/MTok | $0.59/MTok | 工具、推理 |
价格为每百万 token (MTok)。
免费模型有速率限制,因模型和账户级别而异。典型限制为:
- 每分钟请求数:30
- 每分钟 Token 数:6,000-15,000
- 每天请求数:1,000-14,400
请查看 console.groq.com 获取您账户的当前限制。
为什么 Groq 很快
Groq 使用定制设计的 LPU(语言处理单元) 芯片而非 GPU。LPU 专为序列 token 生成而构建,这是 LLM 推理的瓶颈。结果是:
- 首 token 时间:通常低于 100ms
- Token 生成速度:许多模型达到 500-800+ token/秒
- 一致的延迟:可预测的性能,没有 GPU 批处理的变异性
这使得 Groq 非常适合响应速度比模型大小更重要的应用。
推理支持
DeepSeek R1 Distill 70B 和 Compound Beta 支持推理,在给出最终答案之前展示逐步思考。Qwen3 32B(付费)也支持推理。
由于 Groq 使用 OpenAI 兼容的 API 格式,推理输出作为 reasoning_content 流式传输,并显示在聊天中可折叠的思考块中。
Compound Beta(智能体 AI)
Compound Beta 是 Groq 的复合 AI 系统,将推理与工具使用相结合。它可以通过规划、推理和按顺序使用工具来执行多步骤任务。此模型免费,可使用 Groq API 密钥获取。
视觉支持
付费的 Llama 4 Scout 和 Llama 4 Maverick 模型支持视觉输入。您可以为这些模型粘贴、上传或拖放图片。
Groq 上的免费模型目前不支持视觉。
工具调用
大多数 Groq 模型通过 OpenAI 兼容格式支持函数/工具调用。这包括免费的 Llama 3.3 70B 和 Compound Beta 模型。
OpenAI 兼容 API
Groq 使用完全 OpenAI 兼容的 API:
api.groq.com的标准POST /openai/v1/chat/completions端点- Bearer token 认证
- SSE 流式传输
- 工具/函数调用
无需特殊配置。
配置
创建机器人配置文件时,选择 Groq 作为提供商并选择您偏好的模型。您可以在机器人配置面板中设置每机器人 API 密钥来覆盖全局密钥。
Groq 提供商使用 api.groq.com/openai/v1/chat/completions 的 Chat Completions API。
最适合
| 使用场景 | 推荐模型 |
|---|---|
| 速度关键的聊天 | Llama 3.3 70B(免费) |
| 快速推理 | DeepSeek R1 Distill 70B(免费) |
| 智能体工作流 | Compound Beta(免费) |
| 轻量级任务 | Llama 3.1 8B Instant(免费) |
| 视觉任务 | Llama 4 Scout 或 Maverick(付费) |
| 代码 + 推理 | Qwen3 32B(付费) |
获得最佳效果的技巧
- 当速度重要时使用 Groq。 如果您需要最快的响应速度并且可以使用开源模型,Groq 是最佳选择。
- 从 Llama 3.3 70B 开始。 它免费、快速且能力强 —— Groq 上最好的通用免费模型。
- 使用 DeepSeek R1 Distill 进行推理。 它免费提供强大的链式思维推理,而且速度是 Groq 级别的。
- 在委员会中与其他提供商配对。 Groq 的速度使其成为多模型委员会中优秀的快速响应成员,可以提供快速的初步答案,由更慢但更强大的模型进行完善。
- 注意速率限制。 免费额度的速率限制在高量使用时可能很快达到。将请求分散到不同时间或升级到付费计划以获得更高限制。