Fireworks

了解如何配置和使用 Fireworks AI 的闪电般快速推理平台与 Cline。体验高达 4 倍的推理速度,具有优化模型和竞争性定价。

Fireworks AI 是生成式 AI 的领先基础设施平台,专注于通过优化的推理能力提供卓越的性能。拥有比替代平台快达 4 倍的推理速度和支持 40 多种不同的 AI 模型,Fireworks 消除了大规模运行 AI 模型的运营复杂性。

网站: https://fireworks.ai/arrow-up-right

获取 API 密钥

  1. 注册/登录: 访问 Fireworks AIarrow-up-right 并创建账户或登录。

  2. 导航到 API 密钥: 访问仪表板中的 API 密钥部分。

  3. 创建密钥: 生成新的 API 密钥。为其指定描述性名称(例如"Cline")。

  4. 复制密钥: 立即复制 API 密钥。安全存储它。

支持的模型

Fireworks AI 支持跨不同类别的各种模型。流行模型包括:

文本生成模型:

  • Llama 3.1 系列(8B、70B、405B)

  • Mixtral 8x7B 和 8x22B

  • Qwen 2.5 系列

  • 具有推理能力的 DeepSeek 模型

  • 用于编程任务的 Code Llama 模型

视觉模型:

  • Llama 3.2 Vision 模型

  • Qwen 2-VL 模型

嵌入模型:

  • 各种文本嵌入模型用于语义搜索

平台策展、优化和部署模型,使用自定义内核和推理优化以实现最大性能。

在 Cline 中配置

  1. 打开 Cline 设置: 在 Cline 面板中点击设置图标(⚙️)。

  2. 选择提供商: 从"API 提供商"下拉菜单中选择"Fireworks"。

  3. 输入 API 密钥: 将您的 Fireworks API 密钥粘贴到"Fireworks API 密钥"字段中。

  4. 输入模型 ID: 指定您要使用的模型(例如"accounts/fireworks/models/llama-v3p1-70b-instruct")。

  5. 配置 Tokens: 可选择设置最大完成 tokens 和上下文窗口大小。

Fireworks AI 的性能重点

Fireworks AI 的竞争优势集中在性能优化和开发者体验:

闪电般快速推理

  • 比替代平台快达 4 倍的推理速度

  • 与开源推理引擎相比 250% 更高的吞吐量

  • 显著降低延迟的同时速度提升 50%

  • 比 HuggingFace Endpoints 成本低 6 倍,生成速度提升 2.5 倍

高级优化技术

  • 自定义内核和推理优化增加每个 GPU 的吞吐量

  • Multi-LoRA 架构实现高效资源共享

  • 数百个微调模型变体可以在共享基础模型基础设施上运行

  • 轻资产模型专注于优化软件而非昂贵的 GPU 所有权

全面的模型支持

  • 40 多种不同的 AI 模型经过策展和优化以实现性能

  • 支持多种 GPU 类型:A100、H100、H200、B200、AMD MI300X

  • 按 GPU 秒计费,启动时间无额外费用

  • OpenAI API 兼容性实现无缝集成

定价结构

Fireworks AI 使用基于使用情况的定价模型,具有竞争性费率:

文本和视觉模型(2025 年)

参数数量
每 1M 输入 Tokens 的价格

少于 4B 参数

$0.10

4B - 16B 参数

$0.20

多于 16B 参数

$0.90

MoE 0B - 56B 参数

$0.50

微调服务

基础模型大小
每 1M 训练 Tokens 的价格

最多 16B 参数

$0.50

16.1B - 80B 参数

$3.00

DeepSeek R1 / V3

$10.00

专用部署

GPU 类型
每小时价格

A100 80GB

$2.90

H100 80GB

$5.80

H200 141GB

$6.99

B200 180GB

$11.99

AMD MI300X

$4.99

特殊功能

微调能力

Fireworks 提供复杂的微调服务,可通过 CLI 接口访问,支持来自 MongoDB Atlas 等数据库的 JSON 格式数据。微调模型的推理成本与基础模型相同。

开发者体验

  • 浏览器游乐场用于直接模型交互

  • REST API,具有 OpenAI 兼容性

  • 综合食谱书,包含即用型配方

  • 多种部署选项,从无服务器到专用 GPU

企业功能

  • HIPAA 和 SOC 2 Type II 合规,适用于受监管行业

  • 自助式接入,面向开发者

  • 企业销售,用于大型部署

  • 后付费计费选项和企业层级

推理模型支持

高级推理模型支持,具有 🤔 标签处理和推理内容提取,使复杂的多步推理对实时应用程序实用化。

性能优势

Fireworks AI 的优化带来可衡量的改进:

  • 比开源引擎高 250% 的吞吐量

  • 降低延迟的同时速度提升 50%

  • 与替代方案相比成本降低 6 倍

  • 每个请求生成速度提升 2.5 倍

提示和注意事项

  • 模型选择: 根据您的特定用例选择模型 - 小模型追求速度,大模型用于复杂推理。

  • 性能重点: Fireworks 擅长通过高级优化使 AI 推理快速且经济高效。

  • 微调: 利用微调能力使用您的专有数据提高模型准确性。

  • 合规性: HIPAA 和 SOC 2 Type II 合规使在受监管行业中使用成为可能。

  • 定价模型: 基于使用情况的定价随您的成功扩展,而非传统的基于席位模式。

  • 开发者资源: 广泛的文档和食谱配方加速实施。

  • GPU 选项: 基于性能需求提供多种 GPU 类型用于专用部署。

Last updated