Groq

Groq 提供由定制 LPU（语言处理单元）硬件驱动的超快 AI 推理。Groq 不训练自己的模型 —— 相反，它以比传统 GPU 基础设施更快的速度运行流行的开源模型。多个模型免费提供，但有速率限制。

获取 API 密钥

访问 console.groq.com/keys
登录或创建账户（免费）
生成新的 API 密钥（以 gsk_... 开头）
将密钥粘贴到 AI Supreme Council 的 设置 > AI 模型 > Groq

免费额度

Groq 提供具有慷慨速率限制的免费额度。创建账户和使用免费模型无需信用卡。

API 密钥本地存储在您的浏览器（localStorage）中，永远不会包含在分享的机器人 URL 中。

支持的模型

免费模型

模型	上下文窗口	最大输出	能力
Llama 3.3 70B	128K	32K	工具、代码、流式传输
DeepSeek R1 Distill 70B	128K	16K	推理、代码、流式传输
Compound Beta	128K	32K	工具、推理、流式传输
Llama 3.1 8B Instant	128K	8K	工具、代码、流式传输
Gemma 2 9B	8K	8K	流式传输

付费模型

模型	上下文窗口	最大输出	输入价格	输出价格	能力
Llama 4 Scout	128K	8K	$0.11/MTok	$0.34/MTok	视觉、工具、代码
Llama 4 Maverick	128K	8K	$0.50/MTok	$0.77/MTok	视觉、工具、代码
Qwen3 32B	128K	8K	$0.29/MTok	$0.59/MTok	工具、推理

价格为每百万 token (MTok)。

免费模型速率限制

免费模型有速率限制，因模型和账户级别而异。典型限制为：

每分钟请求数：30
每分钟 Token 数：6,000-15,000
每天请求数：1,000-14,400

请查看 console.groq.com 获取您账户的当前限制。

为什么 Groq 很快

Groq 使用定制设计的 LPU（语言处理单元） 芯片而非 GPU。LPU 专为序列 token 生成而构建，这是 LLM 推理的瓶颈。结果是：

首 token 时间：通常低于 100ms
Token 生成速度：许多模型达到 500-800+ token/秒
一致的延迟：可预测的性能，没有 GPU 批处理的变异性

这使得 Groq 非常适合响应速度比模型大小更重要的应用。

推理支持

DeepSeek R1 Distill 70B 和 Compound Beta 支持推理，在给出最终答案之前展示逐步思考。Qwen3 32B（付费）也支持推理。

由于 Groq 使用 OpenAI 兼容的 API 格式，推理输出作为 reasoning_content 流式传输，并显示在聊天中可折叠的思考块中。

Compound Beta（智能体 AI）

Compound Beta 是 Groq 的复合 AI 系统，将推理与工具使用相结合。它可以通过规划、推理和按顺序使用工具来执行多步骤任务。此模型免费，可使用 Groq API 密钥获取。

视觉支持

付费的 Llama 4 Scout 和 Llama 4 Maverick 模型支持视觉输入。您可以为这些模型粘贴、上传或拖放图片。

Groq 上的免费模型目前不支持视觉。

工具调用

大多数 Groq 模型通过 OpenAI 兼容格式支持函数/工具调用。这包括免费的 Llama 3.3 70B 和 Compound Beta 模型。

OpenAI 兼容 API

Groq 使用完全 OpenAI 兼容的 API：

api.groq.com 的标准 POST /openai/v1/chat/completions 端点
Bearer token 认证
SSE 流式传输
工具/函数调用

无需特殊配置。

配置

创建机器人配置文件时，选择 Groq 作为提供商并选择您偏好的模型。您可以在机器人配置面板中设置每机器人 API 密钥来覆盖全局密钥。

Groq 提供商使用 api.groq.com/openai/v1/chat/completions 的 Chat Completions API。

最适合

使用场景	推荐模型
速度关键的聊天	Llama 3.3 70B（免费）
快速推理	DeepSeek R1 Distill 70B（免费）
智能体工作流	Compound Beta（免费）
轻量级任务	Llama 3.1 8B Instant（免费）
视觉任务	Llama 4 Scout 或 Maverick（付费）
代码 + 推理	Qwen3 32B（付费）

获得最佳效果的技巧

当速度重要时使用 Groq。 如果您需要最快的响应速度并且可以使用开源模型，Groq 是最佳选择。
从 Llama 3.3 70B 开始。 它免费、快速且能力强 —— Groq 上最好的通用免费模型。
使用 DeepSeek R1 Distill 进行推理。 它免费提供强大的链式思维推理，而且速度是 Groq 级别的。
在委员会中与其他提供商配对。 Groq 的速度使其成为多模型委员会中优秀的快速响应成员，可以提供快速的初步答案，由更慢但更强大的模型进行完善。
注意速率限制。 免费额度的速率限制在高量使用时可能很快达到。将请求分散到不同时间或升级到付费计划以获得更高限制。

获取 API 密钥​

支持的模型​

免费模型​

付费模型​

为什么 Groq 很快​

推理支持​

Compound Beta（智能体 AI）​

视觉支持​

工具调用​

OpenAI 兼容 API​

配置​

最适合​

获得最佳效果的技巧​