Skip to main content

Fireworks AI

Fireworks AI — это ведущая инфраструктурная платформа для генеративного AI, ориентированная на обеспечение исключительной производительности за счет оптимизированных возможностей инференса. Благодаря скорости инференса до 4 раз выше, чем на альтернативных платформах, и поддержке более 40 различных моделей AI, Fireworks устраняет операционную сложность масштабируемого запуска моделей AI.

Веб-сайт: https://fireworks.ai/

Получение API Key

  1. Регистрация/Вход: Перейдите на Fireworks AI и создайте аккаунт или войдите в систему.
  2. Перейдите к API Keys: Откройте раздел API keys в вашей панели управления.
  3. Создайте ключ: Сгенерируйте новый API key. Дайте ему понятное название (например, «Careti»).
  4. Скопируйте ключ: Немедленно скопируйте API key. Храните его в безопасном месте.

Поддерживаемые модели

Fireworks AI поддерживает широкий спектр моделей в различных категориях. Популярные модели включают:

Модели генерации текста:

  • Серия Llama 3.1 (8B, 70B, 405B)
  • Mixtral 8x7B и 8x22B
  • Серия Qwen 2.5
  • Модели DeepSeek с возможностями рассуждения (reasoning)
  • Модели Code Llama для задач программирования

Vision-модели:

  • Vision-модели Llama 3.2
  • Модели Qwen 2-VL

Модели эмбеддингов (Embedding):

  • Различные модели текстовых эмбеддингов для семантического поиска

Платформа курирует, оптимизирует и развертывает модели с использованием кастомных kernels и оптимизаций инференса для обеспечения максимальной производительности.

Настройка в Careti

  1. Откройте настройки Careti: Нажмите на иконку шестеренки (⚙️) на панели Careti.
  2. Выберите провайдера: Выберите «Fireworks» в выпадающем списке «API Provider».
  3. Введите API Key: Вставьте ваш Fireworks API key в поле «Fireworks API Key».
  4. Введите Model ID: Укажите модель, которую вы хотите использовать (например, «accounts/fireworks/models/llama-v3p1-70b-instruct»).
  5. Настройте токены: При необходимости установите максимальное количество токенов генерации (max completion tokens) и размер окна контекста.

Фокус Fireworks AI на производительности

Конкурентные преимущества Fireworks AI сосредоточены на оптимизации производительности и удобстве для разработчиков:

Сверхбыстрый инференс

  • До 4 раз более быстрый инференс, чем на альтернативных платформах
  • На 250% выше пропускная способность по сравнению с движками инференса с открытым исходным кодом
  • На 50% выше скорость со значительно меньшей задержкой (latency)
  • В 6 раз ниже стоимость, чем у HuggingFace Endpoints, при скорости генерации в 2.5 раза выше

Продвинутые технологии оптимизации

  • Кастомные kernels и оптимизации инференса увеличивают пропускную способность на один GPU
  • Архитектура Multi-LoRA обеспечивает эффективное совместное использование ресурсов
  • Сотни дообученных (fine-tuned) вариантов моделей могут работать на общей инфраструктуре базовых моделей
  • Asset-light модель фокусируется на программном обеспечении для оптимизации, а не на владении дорогостоящими GPU

Всесторонняя поддержка моделей

  • Более 40 различных AI моделей, отобранных и оптимизированных для производительности
  • Поддержка различных типов GPU: A100, H100, H200, B200, AMD MI300X
  • Оплата по секундам работы GPU без дополнительной платы за время запуска
  • Совместимость с OpenAI API для бесшовной интеграции

Структура ценообразования

Fireworks AI использует модель оплаты по факту использования (usage-based) с конкурентоспособными тарифами:

Текстовые и Vision-модели (2025)

Количество параметровЦена за 1 млн входных токенов
Менее 4B параметров$0.10
От 4B до 16B параметров$0.20
Более 16B параметров$0.90
MoE от 0B до 56B параметров$0.50

Услуги Fine-Tuning

Размер базовой моделиЦена за 1 млн токенов обучения
До 16B параметров$0.50
От 16.1B до 80B параметров$3.00
DeepSeek R1 / V3$10.00

Выделенные развертывания (Dedicated Deployments)

Тип GPUЦена за час
A100 80GB$2.90
H100 80GB$5.80
H200 141GB$6.99
B200 180GB$11.99
AMD MI300X$4.99

Специальные возможности

Возможности Fine-Tuning

Fireworks предлагает сложные услуги дообучения (fine-tuning), доступные через интерфейс CLI, поддерживающие данные в формате JSON из баз данных, таких как MongoDB Atlas. Стоимость инференса дообученных моделей такая же, как и для базовых моделей.

Опыт разработчика

  • Браузерная песочница (playground) для прямого взаимодействия с моделями
  • REST API с совместимостью с OpenAI
  • Подробный cookbook с готовыми к использованию рецептами
  • Несколько вариантов развертывания: от serverless до выделенных GPU

Корпоративные функции

  • Соответствие стандартам HIPAA и SOC 2 Type II для регулируемых отраслей
  • Самостоятельная регистрация (self-serve onboarding) для разработчиков
  • Корпоративные продажи для крупных развертываний
  • Варианты постоплаты и уровень Business

Поддержка моделей рассуждения (Reasoning)

Расширенная поддержка моделей рассуждения с обработкой тегов <think> и извлечением контента рассуждений, что делает сложное многошаговое рассуждение практичным для приложений реального времени.

Преимущества производительности

Оптимизация Fireworks AI обеспечивает измеримые улучшения:

  • На 250% выше пропускная способность по сравнению с open source движками
  • На 50% выше скорость с уменьшенной задержкой
  • Шестикратное снижение затрат по сравнению с альтернативами
  • Улучшение скорости генерации в 2.5 раза на каждый запрос

Советы и примечания

  • Выбор модели: Выбирайте модели исходя из вашего конкретного случая использования: меньшие модели — для скорости, большие — для сложных рассуждений.
  • Фокус на производительности: Fireworks превосходит других в обеспечении быстрого и экономически эффективного инференса AI за счет продвинутых оптимизаций.
  • Fine-Tuning: Используйте возможности дообучения для повышения точности модели на ваших собственных данных.
  • Комплаенс: Соответствие HIPAA и SOC 2 Type II позволяет использовать платформу в регулируемых отраслях.
  • Модель ценообразования: Тарификация на основе использования масштабируется вместе с вашим успехом, в отличие от традиционных моделей оплаты за каждое рабочее место.
  • Ресурсы для разработчиков: Обширная документация и рецепты в cookbook ускоряют внедрение.
  • Варианты GPU: Для выделенных развертываний доступны различные типы GPU в зависимости от требований к производительности.