All contents are forked from cline official repo.

Groq

了解如何配置和使用 Groq 的闪电般快速推理与 Cline。在 Groq 专用 LPU 架构上访问来自 OpenAI、Meta、DeepSeek 等提供商的模型。

Groq 通过其自定义 LPU™（语言处理单元）架构提供超快速的 AI 推理，该架构专为推理而构建，而非从训练硬件改编而来。Groq 托管来自各种提供商（包括 OpenAI、Meta、DeepSeek、Moonshot AI 和其他）的开源模型。

网站： https://groq.com/

获取 API 密钥

注册/登录： 访问 Groq 并创建账户或登录。
导航到控制台： 访问 Groq 控制台以访问您的仪表板。
创建密钥： 导航到 API 密钥部分并创建新的 API 密钥。为您的密钥指定描述性名称（例如"Cline"）。
复制密钥： 立即复制 API 密钥。您将无法再次查看它。安全存储它。

支持的模型

Cline 支持以下 Groq 模型：

llama-3.3-70b-versatile (Meta) - 平衡性能，131K 上下文
llama-3.1-8b-instant (Meta) - 快速推理，131K 上下文
openai/gpt-oss-120b (OpenAI) - 精选旗舰模型，131K 上下文
openai/gpt-oss-20b (OpenAI) - 精选紧凑模型，131K 上下文
moonshotai/kimi-k2-instruct (Moonshot AI) - 1 万亿参数模型，支持提示词缓存
deepseek-r1-distill-llama-70b (DeepSeek/Meta) - 推理优化模型
qwen/qwen3-32b (Alibaba Cloud) - 增强用于问答任务
meta-llama/llama-4-maverick-17b-128e-instruct (Meta) - 最新 Llama 4 变体
meta-llama/llama-4-scout-17b-16e-instruct (Meta) - 最新 Llama 4 变体

在 Cline 中配置

打开 Cline 设置： 在 Cline 面板中点击设置图标（⚙️）。
选择提供商： 从"API 提供商"下拉菜单中选择"Groq"。
输入 API 密钥： 将您的 Groq API 密钥粘贴到"Groq API 密钥"字段中。
选择模型： 从"模型"下拉菜单中选择您想要的模型。

Groq 的速度革命

Groq 的 LPU 架构相比基于传统 GPU 的推理提供几个关键优势：

LPU 架构

与从训练工作负载改编的 GPU 不同，Groq 的 LPU 专为推理而构建。这消除了在传统系统中产生延迟的架构瓶颈。

无与伦比的速度

亚毫秒级延迟在流量、区域和工作负载之间保持一致
静态调度与预计算执行图消除运行时协调延迟
张量并行性针对低延迟单响应而非高吞吐量批处理进行了优化

无折衷质量

TruePoint 数值仅在不影响准确性的区域减少精度
100 位中间累加确保无损计算
战略性精度控制在实现比 BF16 快 2-4 倍的加速的同时保持质量

内存架构

SRAM 作为主存储（而非缓存），芯片上具有数百兆字节
消除困扰传统加速器的 DRAM/HBM 延迟
通过在多个芯片间分层实现真正的张量并行性

在他们的 LPU 架构博客文章中了解更多关于 Groq 技术的信息。

特殊功能

提示词缓存

Kimi K2 模型支持提示词缓存，这可以显著降低重复提示词的成本和延迟。

视觉支持

选定模型支持图像输入和视觉能力。查看 Groq 控制台中的模型详细信息以了解具体能力。

推理模型

某些模型（如 DeepSeek 变体）提供增强的推理能力，具有逐步思维过程。

提示和注意事项

模型选择： 根据您的特定用例和性能要求选择模型。
速度优势： Groq 擅长单请求延迟而非高吞吐量批处理。
OSS 模型提供商： Groq 在其快速基础设施上托管来自多个提供商（OpenAI、Meta、DeepSeek 等）的开源模型。
上下文窗口： 大多数模型提供大上下文窗口（高达 131K tokens）以包含大量代码和上下文。
定价： Groq 提供具有速度优势的竞争性定价。检查 Groq 定价页面以获取当前费率。
速率限制： Groq 具有慷慨的速率限制，但根据您的使用层级查看其文档以了解当前限制。

PreviousDeepSeek NextxAI Grok

Last updated 2 months ago