Übersicht über lokale Modelle
Note
Dies ist das Referenzdokument für Careti. Es basiert auf dem Merge-Stand von Careti v3.38.1. Falls es Careti-spezifische Richtlinien gibt (unterstützte lokale Runtimes, Authentifizierung/Routing, Modell-Beschränkungen), werden diese im Text mit <Note> gekennzeichnet.
Modelle lokal mit Careti ausführen
Betreiben Sie Careti komplett offline mit leistungsfähigen Modellen auf Ihrer eigenen Hardware. Keine API-Kosten, keine Daten, die Ihren Rechner verlassen, keine Internetabhängigkeit.
Lokale Modelle haben einen Wendepunkt erreicht, an dem sie nun für echte Entwicklungsarbeit praktikabel sind. Dieser Guide deckt alles ab, was Sie wissen müssen, um Careti mit lokalen Modellen zu nutzen.
Quick Start
- Hardware prüfen – Minimal 32GB+ RAM
- Runtime wählen – LM Studio oder Ollama
- Qwen3 Coder 30B herunterladen – Das empfohlene Modell
- Einstellungen konfigurieren – Compact Prompts aktivieren, maximalen Context festlegen
- Coding starten – Komplett offline
Hardware-Anforderungen
Ihr RAM bestimmt, welche Modelle Sie effektiv ausführen können:
| RAM | Empfohlenes Modell | Quantization | Performance-Level |
|---|---|---|---|
| 32GB | Qwen3 Coder 30B | 4-bit | Einstieg in lokales Coding |
| 64GB | Qwen3 Coder 30B | 8-bit | Volle Careti-Funktionen |
| 128GB+ | GLM-4.5-Air | 4-bit | Performance auf Cloud-Niveau |
Empfohlene Modelle
Hauptempfehlung: Qwen3 Coder 30B
Nach umfangreichen Tests ist Qwen3 Coder 30B das zuverlässigste Modell unter 70B Parametern für Careti:
- 256K native Context Window – Verarbeitet ganze Repositories
- Starke Tool-use-Fähigkeiten – Zuverlässige Befehlsausführung
- Verständnis auf Repository-Ebene – Behält den Kontext über Dateien hinweg bei
- Bewährte Zuverlässigkeit – Konsistente Ausgaben im Tool-Format von Careti
Download-Größen:
- 4-bit: ~17GB (empfohlen für 32GB RAM)
- 8-bit: ~32GB (empfohlen für 64GB RAM)
- 16-bit: ~60GB (erfordert 128GB+ RAM)
Warum keine kleineren Modelle?
Die meisten Modelle unter 30B Parametern (7B-20B) scheitern mit Careti, weil sie:
- Fehlerhafte Tool-use-Ausgaben produzieren
- Die Ausführung von Befehlen verweigern
- Den Konversationskontext nicht aufrechterhalten können
- Mit komplexen Coding-Aufgaben überfordert sind
Runtime-Optionen
LM Studio
- Vorteile: Benutzerfreundliche GUI, einfaches Modell-Management, integrierter Server
- Nachteile: Memory-Overhead durch das UI, beschränkt auf ein Modell gleichzeitig
- Bestens geeignet für: Desktop-Nutzer, die Einfachheit wünschen
- Setup-Guide →
Ollama
- Vorteile: Befehlszeilenbasiert, geringerer Memory-Overhead, scriptfähig
- Nachteile: Erfordert Terminal-Kenntnisse, manuelles Modell-Management
- Bestens geeignet für: Power-User und Server-Deployments
- Setup-Guide →
Kritische Konfiguration
Erforderliche Einstellungen
In Careti:
- ✅ "Use Compact Prompt" aktivieren – Reduziert die Prompt-Größe um 90%
- ✅ Passendes Modell in den Einstellungen auswählen
- ✅ Base URL entsprechend Ihrem Server konfigurieren
In LM Studio:
- Context Length:
262144(Maximum) - KV Cache Quantization:
OFF(entscheidend für ordnungsgemäße Funktion) - Flash Attention:
ON(falls auf Ihrer Hardware verfügbar)
In Ollama:
- Context Window festlegen:
num_ctx 262144 - Flash Attention aktivieren, falls unterstützt
Quantization verstehen
Quantization reduziert die Modellpräzision, damit es auf Consumer-Hardware passt:
| Typ | Größenreduktion | Qualität | Anwendungsfall |
|---|---|---|---|
| 4-bit | ~75% | Gut | Die meisten Coding-Aufgaben, begrenzter RAM |
| 8-bit | ~50% | Besser | Professionelle Arbeit, mehr Nuancen |
| 16-bit | Keine | Beste | Maximale Qualität, erfordert viel RAM |
Modell-Formate
GGUF (Universal)
- Läuft auf allen Plattformen (Windows, Linux, Mac)
- Umfangreiche Quantization-Optionen
- Breitere Tool-Kompatibilität
- Empfohlen für die meisten Nutzer
MLX (Nur Mac)
- Optimiert für Apple Silicon (M1/M2/M3)
- Nutzt Metal- und AMX-Beschleunigung
- Schnellere Inference auf dem Mac
- Erfordert macOS 13+
Performance-Erwartungen
Was normal ist
- Initiale Ladezeit: 10-30 Sekunden zum Aufwärmen des Modells
- Token-Generierung: 5-20 Tokens/Sekunde auf Consumer-Hardware
- Kontext-Verarbeitung: Langsamer bei großen Codebases
- Speicherverbrauch: Nahe an Ihrer Quantization-Größe
Performance-Tipps
- Compact Prompts nutzen – Essenziell für lokale Inference
- Kontext limitieren, wenn möglich – Mit kleineren Fenstern beginnen
- Richtige Quantization wählen – Balance zwischen Qualität und Geschwindigkeit
- Andere Anwendungen schließen – RAM für das Modell freigeben
- SSD-Speicher verwenden – Schnelleres Laden des Modells
Vergleich der Anwendungsfälle
Wann lokale Modelle nutzen
✅ Perfekt für:
- Offline-Entwicklungsumgebungen
- Datenschutzsensible Projekte
- Lernen ohne API-Kosten
- Unbegrenztes Experimentieren
- Air-Gapped-Umgebungen
- Kostenbewusste Entwicklung
Wann Cloud-Modelle nutzen
☁️ Besser für:
- Sehr große Codebases (>256K Tokens)
- Mehrstündige Refactoring-Sessions
- Teams, die konsistente Performance benötigen
- Neueste Modell-Fähigkeiten
- Zeitkritische Projekte
Fehlerbehebung
Häufige Probleme & Lösungen
"Shell integration unavailable"
- Wechseln Sie zu bash in Careti Settings → Terminal → Default Terminal Profile
- Löst 90% der Terminal-Integrationsprobleme
"No connection could be made"
- Überprüfen Sie, ob der Server läuft (LM Studio oder Ollama)
- Prüfen Sie, ob die Base URL mit der Server-Adresse übereinstimmt
- Stellen Sie sicher, dass keine Firewall die Verbindung blockiert
- Standard-Ports: LM Studio (1234), Ollama (11434)
Langsame oder unvollständige Antworten
- Normal für lokale Modelle (5-20 Tokens/Sek typisch)
- Versuchen Sie eine geringere Quantization (4-bit statt 8-bit)
- Aktivieren Sie Compact Prompts, falls noch nicht geschehen
- Verkleinern Sie das Context Window
Modell-Verwirrung oder Fehler
- Sicherstellen, dass KV Cache Quantization auf OFF steht (LM Studio)
- Sicherstellen, dass Compact Prompts aktiviert sind
- Prüfen, ob die Context Length auf Maximum gesetzt ist
- Ausreichend RAM für die gewählte Quantization bestätigen
Performance-Optimierung
Für schnellere Inference:
- 4-bit Quantization verwenden
- Flash Attention aktivieren
- Context Window reduzieren, falls nicht benötigt
- Unnötige Anwendungen schließen
- NVMe SSD für die Modell-Speicherung nutzen
Für bessere Qualität:
- 8-bit oder höhere Quantization verwenden
- Context Window maximieren
- Für ausreichende Kühlung sorgen
- Maximalen RAM für das Modell zuweisen
Fortgeschrittene Konfiguration
Multi-GPU-Setup
Wenn Sie mehrere GPUs haben, können Sie die Modell-Layer aufteilen:
- LM Studio: Automatische GPU-Erkennung
- Ollama: Parameter
num_gpusetzen
Eigene Modelle
Obwohl Qwen3 Coder 30B empfohlen wird, können Sie experimentieren mit:
- DeepSeek Coder V2
- Codestral 22B
- StarCoder2 15B
Hinweis: Diese benötigen möglicherweise zusätzliche Konfiguration und Tests.
Community & Support
- Discord: Tritt unserer Community bei für Echtzeit-Hilfe
- Reddit: r/caret für Diskussionen
- GitHub: Probleme melden
Nächste Schritte
Bereit loszulegen? Wählen Sie Ihren Pfad:
LM Studio Setup
Benutzerfreundlicher GUI-Ansatz mit detailliertem Konfigurations-Guide
Ollama Setup
Kommandozeilen-Setup für Power-User und Automatisierung
Zusammenfassung
Lokale Modelle mit Careti sind mittlerweile absolut praktikabel. Auch wenn sie bei der Geschwindigkeit nicht mit Top-Tier Cloud-APIs mithalten können, bieten sie vollständige Privatsphäre, null Kosten und Offline-Fähigkeit. Mit der richtigen Konfiguration und Hardware kann Qwen3 Coder 30B die meisten Coding-Aufgaben effektiv bewältigen.
Der Schlüssel liegt im richtigen Setup: ausreichend RAM, korrekte Konfiguration und realistische Erwartungen. Folgen Sie diesem Guide, und Sie erhalten einen fähigen Coding-Assistenten, der vollständig auf Ihrer eigenen Hardware läuft.