Groq
Groq обеспечивает сверхбыстрый AI inference благодаря собственной архитектуре LPU™ (Language Processing Unit), специально разработанной для инференса, а не адаптированной из оборудования для обучения. Groq размещает модели с открытым исходным кодом от различных поставщиков, включая OpenAI, Meta, DeepSeek, Moonshot AI и других.
Сайт: https://groq.com/
Получение API Key
- Регистрация/Вход: Перейдите на Groq и создайте аккаунт или войдите в систему.
- Переход в Console: Перейдите в Groq Console, чтобы получить доступ к панели управления.
- Создание ключа: Перейдите в раздел API Keys и создайте новый API key. Дайте вашему ключу описательное имя (например, "Careti").
- Копирование ключа: Немедленно скопируйте API key. Вы не сможете увидеть его снова. Храните его в надежном месте.
Поддерживаемые модели
Careti поддерживает следующие модели Groq:
llama-3.3-70b-versatile(Meta) — сбалансированная производительность с контекстом 131Kllama-3.1-8b-instant(Meta) — быстрый инференс с контекстом 131Kopenai/gpt-oss-120b(OpenAI) — флагманская модель с контекстом 131Kopenai/gpt-oss-20b(OpenAI) — компактная модель с контекстом 131Kmoonshotai/kimi-k2-instruct(Moonshot AI) — модель с 1 триллионом параметров и поддержкой prompt cachingdeepseek-r1-distill-llama-70b(DeepSeek/Meta) — модель, оптимизированная для рассуждений (reasoning)qwen/qwen3-32b(Alibaba Cloud) — улучшена для задач Q&Ameta-llama/llama-4-maverick-17b-128e-instruct(Meta) — новейший вариант Llama 4meta-llama/llama-4-scout-17b-16e-instruct(Meta) — новейший вариант Llama 4
Настройка в Careti
- Откройте настройки Careti: Нажмите на иконку настроек (⚙️) в панели Careti.
- Выберите провайдера: Выберите "Groq" в выпадающем списке "API Provider".
- Введите API Key: Вставьте ваш Groq API key в поле "Groq API Key".
- Выберите модель: Выберите нужную модель в выпадающем списке "Model".
Революция скорости Groq
Архитектура LPU от Groq обеспечивает несколько ключевых преимуществ по сравнению с традиционным инференсом на базе GPU:
Архитектура LPU
В отличие от GPU, которые адаптированы под задачи обучения, LPU от Groq специально создан для инференса. Это устраняет архитектурные «узкие места», создающие задержки в традиционных системах.
Непревзойденная скорость
- Задержка менее миллисекунды (sub-millisecond latency), которая остается стабильной независимо от трафика, регионов и рабочих нагрузок.
- Статическое планирование (static scheduling) с предварительно вычисленными графами выполнения исключает задержки координации во время выполнения.
- Тензорный параллелизм (tensor parallelism), оптимизированный для низких задержек при одиночных ответах, а не для пакетной обработки с высокой пропускной способностью.
Качество без компромиссов
- Числа TruePoint снижают точность только в тех областях, которые не влияют на достоверность.
- 100-битное промежуточное накопление обеспечивает вычисления без потерь.
- Стратегический контроль точности сохраняет качество, достигая ускорения в 2–4 раза по сравнению с BF16.
Архитектура памяти
- SRAM как основное хранилище (а не кэш) с сотнями мегабайт на чипе.
- Устранение задержек DRAM/HBM, которые характерны для традиционных ускорителей.
- Обеспечение истинного тензорного параллелизма за счет разделения слоев между несколькими чипами.
Узнайте больше о технологии Groq в их блоге об архитектуре LPU.
Специальные возможности
Prompt Caching
Модель Kimi K2 поддерживает prompt caching, что может значительно снизить затраты и задержки при повторных запросах.
Поддержка Vision
Определенные модели поддерживают ввод изображений и возможности компьютерного зрения. Проверьте детали в Groq Console для уточнения возможностей конкретных моделей.
Модели для рассуждений (Reasoning Models)
Некоторые модели, такие как варианты DeepSeek, предлагают расширенные возможности рассуждения с пошаговым процессом мышления.
Советы и примечания
- Выбор модели: Выбирайте модели исходя из вашего конкретного случая использования и требований к производительности.
- Преимущество в скорости: Groq превосходит других в задержке одиночных запросов, а не в пакетной обработке с высокой пропускной способностью.
- Провайдер OSS-моделей: Groq размещает модели с открытым исходным кодом от нескольких поставщиков (OpenAI, Meta, DeepSeek и др.) на своей быстрой инфраструктуре.
- Окна контекста: Большинство моделей предлагают большие окна контекста (до 131K токенов) для включения значительного объема кода и контекста.
- Цены: Groq предлагает конкурентоспособные цены в сочетании со своими преимуществами в скорости. Актуальные тарифы можно найти на странице Groq Pricing.
- Rate Limits: Groq предоставляет щедрые лимиты частоты запросов, но проверяйте их документацию для получения актуальной информации в зависимости от вашего уровня использования.