跳到主要内容

Groq

Groq 提供由定制 LPU(语言处理单元)硬件驱动的超快 AI 推理。Groq 不训练自己的模型 —— 相反,它以比传统 GPU 基础设施更快的速度运行流行的开源模型。多个模型免费提供,但有速率限制。

获取 API 密钥

  1. 访问 console.groq.com/keys
  2. 登录或创建账户(免费)
  3. 生成新的 API 密钥(以 gsk_... 开头)
  4. 将密钥粘贴到 AI Supreme Council 的 设置 > AI 模型 > Groq
免费额度

Groq 提供具有慷慨速率限制的免费额度。创建账户和使用免费模型无需信用卡。

API 密钥本地存储在您的浏览器(localStorage)中,永远不会包含在分享的机器人 URL 中。

支持的模型

免费模型

模型上下文窗口最大输出能力
Llama 3.3 70B128K32K工具、代码、流式传输
DeepSeek R1 Distill 70B128K16K推理、代码、流式传输
Compound Beta128K32K工具、推理、流式传输
Llama 3.1 8B Instant128K8K工具、代码、流式传输
Gemma 2 9B8K8K流式传输

付费模型

模型上下文窗口最大输出输入价格输出价格能力
Llama 4 Scout128K8K$0.11/MTok$0.34/MTok视觉、工具、代码
Llama 4 Maverick128K8K$0.50/MTok$0.77/MTok视觉、工具、代码
Qwen3 32B128K8K$0.29/MTok$0.59/MTok工具、推理

价格为每百万 token (MTok)。

免费模型速率限制

免费模型有速率限制,因模型和账户级别而异。典型限制为:

  • 每分钟请求数:30
  • 每分钟 Token 数:6,000-15,000
  • 每天请求数:1,000-14,400

请查看 console.groq.com 获取您账户的当前限制。

为什么 Groq 很快

Groq 使用定制设计的 LPU(语言处理单元) 芯片而非 GPU。LPU 专为序列 token 生成而构建,这是 LLM 推理的瓶颈。结果是:

  • 首 token 时间:通常低于 100ms
  • Token 生成速度:许多模型达到 500-800+ token/秒
  • 一致的延迟:可预测的性能,没有 GPU 批处理的变异性

这使得 Groq 非常适合响应速度比模型大小更重要的应用。

推理支持

DeepSeek R1 Distill 70BCompound Beta 支持推理,在给出最终答案之前展示逐步思考。Qwen3 32B(付费)也支持推理。

由于 Groq 使用 OpenAI 兼容的 API 格式,推理输出作为 reasoning_content 流式传输,并显示在聊天中可折叠的思考块中。

Compound Beta(智能体 AI)

Compound Beta 是 Groq 的复合 AI 系统,将推理与工具使用相结合。它可以通过规划、推理和按顺序使用工具来执行多步骤任务。此模型免费,可使用 Groq API 密钥获取。

视觉支持

付费的 Llama 4 ScoutLlama 4 Maverick 模型支持视觉输入。您可以为这些模型粘贴、上传或拖放图片。

Groq 上的免费模型目前不支持视觉。

工具调用

大多数 Groq 模型通过 OpenAI 兼容格式支持函数/工具调用。这包括免费的 Llama 3.3 70B 和 Compound Beta 模型。

OpenAI 兼容 API

Groq 使用完全 OpenAI 兼容的 API:

  • api.groq.com 的标准 POST /openai/v1/chat/completions 端点
  • Bearer token 认证
  • SSE 流式传输
  • 工具/函数调用

无需特殊配置。

配置

创建机器人配置文件时,选择 Groq 作为提供商并选择您偏好的模型。您可以在机器人配置面板中设置每机器人 API 密钥来覆盖全局密钥。

Groq 提供商使用 api.groq.com/openai/v1/chat/completions 的 Chat Completions API。

最适合

使用场景推荐模型
速度关键的聊天Llama 3.3 70B(免费)
快速推理DeepSeek R1 Distill 70B(免费)
智能体工作流Compound Beta(免费)
轻量级任务Llama 3.1 8B Instant(免费)
视觉任务Llama 4 Scout 或 Maverick(付费)
代码 + 推理Qwen3 32B(付费)

获得最佳效果的技巧

  • 当速度重要时使用 Groq。 如果您需要最快的响应速度并且可以使用开源模型,Groq 是最佳选择。
  • 从 Llama 3.3 70B 开始。 它免费、快速且能力强 —— Groq 上最好的通用免费模型。
  • 使用 DeepSeek R1 Distill 进行推理。 它免费提供强大的链式思维推理,而且速度是 Groq 级别的。
  • 在委员会中与其他提供商配对。 Groq 的速度使其成为多模型委员会中优秀的快速响应成员,可以提供快速的初步答案,由更慢但更强大的模型进行完善。
  • 注意速率限制。 免费额度的速率限制在高量使用时可能很快达到。将请求分散到不同时间或升级到付费计划以获得更高限制。