Fireworks
了解如何配置和使用 Fireworks AI 的闪电般快速推理平台与 Cline。体验高达 4 倍的推理速度,具有优化模型和竞争性定价。
Fireworks AI 是生成式 AI 的领先基础设施平台,专注于通过优化的推理能力提供卓越的性能。拥有比替代平台快达 4 倍的推理速度和支持 40 多种不同的 AI 模型,Fireworks 消除了大规模运行 AI 模型的运营复杂性。
获取 API 密钥
注册/登录: 访问 Fireworks AI 并创建账户或登录。
导航到 API 密钥: 访问仪表板中的 API 密钥部分。
创建密钥: 生成新的 API 密钥。为其指定描述性名称(例如"Cline")。
复制密钥: 立即复制 API 密钥。安全存储它。
支持的模型
Fireworks AI 支持跨不同类别的各种模型。流行模型包括:
文本生成模型:
Llama 3.1 系列(8B、70B、405B)
Mixtral 8x7B 和 8x22B
Qwen 2.5 系列
具有推理能力的 DeepSeek 模型
用于编程任务的 Code Llama 模型
视觉模型:
Llama 3.2 Vision 模型
Qwen 2-VL 模型
嵌入模型:
各种文本嵌入模型用于语义搜索
平台策展、优化和部署模型,使用自定义内核和推理优化以实现最大性能。
在 Cline 中配置
打开 Cline 设置: 在 Cline 面板中点击设置图标(⚙️)。
选择提供商: 从"API 提供商"下拉菜单中选择"Fireworks"。
输入 API 密钥: 将您的 Fireworks API 密钥粘贴到"Fireworks API 密钥"字段中。
输入模型 ID: 指定您要使用的模型(例如"accounts/fireworks/models/llama-v3p1-70b-instruct")。
配置 Tokens: 可选择设置最大完成 tokens 和上下文窗口大小。
Fireworks AI 的性能重点
Fireworks AI 的竞争优势集中在性能优化和开发者体验:
闪电般快速推理
比替代平台快达 4 倍的推理速度
与开源推理引擎相比 250% 更高的吞吐量
显著降低延迟的同时速度提升 50%
比 HuggingFace Endpoints 成本低 6 倍,生成速度提升 2.5 倍
高级优化技术
自定义内核和推理优化增加每个 GPU 的吞吐量
Multi-LoRA 架构实现高效资源共享
数百个微调模型变体可以在共享基础模型基础设施上运行
轻资产模型专注于优化软件而非昂贵的 GPU 所有权
全面的模型支持
40 多种不同的 AI 模型经过策展和优化以实现性能
支持多种 GPU 类型:A100、H100、H200、B200、AMD MI300X
按 GPU 秒计费,启动时间无额外费用
OpenAI API 兼容性实现无缝集成
定价结构
Fireworks AI 使用基于使用情况的定价模型,具有竞争性费率:
文本和视觉模型(2025 年)
少于 4B 参数
$0.10
4B - 16B 参数
$0.20
多于 16B 参数
$0.90
MoE 0B - 56B 参数
$0.50
微调服务
最多 16B 参数
$0.50
16.1B - 80B 参数
$3.00
DeepSeek R1 / V3
$10.00
专用部署
A100 80GB
$2.90
H100 80GB
$5.80
H200 141GB
$6.99
B200 180GB
$11.99
AMD MI300X
$4.99
特殊功能
微调能力
Fireworks 提供复杂的微调服务,可通过 CLI 接口访问,支持来自 MongoDB Atlas 等数据库的 JSON 格式数据。微调模型的推理成本与基础模型相同。
开发者体验
浏览器游乐场用于直接模型交互
REST API,具有 OpenAI 兼容性
综合食谱书,包含即用型配方
多种部署选项,从无服务器到专用 GPU
企业功能
HIPAA 和 SOC 2 Type II 合规,适用于受监管行业
自助式接入,面向开发者
企业销售,用于大型部署
后付费计费选项和企业层级
推理模型支持
高级推理模型支持,具有 🤔 标签处理和推理内容提取,使复杂的多步推理对实时应用程序实用化。
性能优势
Fireworks AI 的优化带来可衡量的改进:
比开源引擎高 250% 的吞吐量
降低延迟的同时速度提升 50%
与替代方案相比成本降低 6 倍
每个请求生成速度提升 2.5 倍
提示和注意事项
模型选择: 根据您的特定用例选择模型 - 小模型追求速度,大模型用于复杂推理。
性能重点: Fireworks 擅长通过高级优化使 AI 推理快速且经济高效。
微调: 利用微调能力使用您的专有数据提高模型准确性。
合规性: HIPAA 和 SOC 2 Type II 合规使在受监管行业中使用成为可能。
定价模型: 基于使用情况的定价随您的成功扩展,而非传统的基于席位模式。
开发者资源: 广泛的文档和食谱配方加速实施。
GPU 选项: 基于性能需求提供多种 GPU 类型用于专用部署。
Last updated