PRIVATE, LOKALE & OFFLINE-KI. WERBEFREI UND OHNE ABONNEMENT
TokForge führt große Sprachmodelle direkt auf Ihrem Android-Gerät schnell aus. Keine Cloud, kein Abonnement und kein Datenverbrauch.
Ob Sie einen lokalen KI-Assistenten für mehr Produktivität oder einen KI-Freund für Offline-Gespräche benötigen – TokForge bietet leistungsstarke Inferenz ohne Internetverbindung.
WAS KANN ES? TOKFORGE-FUNKTIONEN:
Chatten Sie mit KI-Charakteren
💬 Ihr Offline-KI-Chat-Erlebnis wurde verbessert. Importieren Sie TavernAI V2-Charakterkarten (PNG/JSON), passen Sie Persönlichkeiten an und führen Sie dank Streaming-Generierung echte Gespräche. TokForge ist der ultimative KI-Freund für Offline-Gespräche mit Hintergrundgeschichten, alternativen Begrüßungen und Weltinformationen. Die Denkmodelle beinhalten sogar ausklappbare Denkblöcke für tiefgründige Logik.
Dokumente anhängen & Fragen stellen
📄 Verwandeln Sie TokForge in ein leistungsstarkes KI-Forschungstool für unterwegs. Fügen Sie einfach eine PDF-, DOCX-, EPUB- oder Textdatei hinzu und nutzen Sie die Offline-Funktion „Fragen Sie mich alles“. Dank RAPTOR-Baumindizierung und BGE-Small-Embeddings findet die App relevante Textstellen sofort. Folgefragen werden dank der Delta-KV-Cache-Speicherung schnell beantwortet.
Antworten vorlesen lassen
🔊 Ein echter Sprachassistent für Android – auch offline. Mit der integrierten Kokoro-TTS-Funktion mit 11 Stimmen und zwei Qualitätsstufen liest Ihnen Ihr Offline-Assistent Antworten ohne Verzögerung und ohne Datenverbrauch vor.
Doppelt so schnell mit spekulativer Dekodierung
⚡ Erleben Sie die schnellste LLM-Performance auf Mobilgeräten. Ein kleines Entwurfsmodell prognostiziert die Ergebnisse, während das Hauptmodell die Daten im Batch-Verfahren verifiziert. Mit einer Live-Token/s-Anzeige und intelligentem Backend-Routing ist es die effizienteste verfügbare KI-Lösung für Endgeräte.
Drei Backends, fünf GPU-Pfade
• MNN mit OpenCL- und Vulkan-GPU: Optimierte Kernel für Mali und Adreno. TQ4 TurboQuant erreicht 46–57 Token/s bei kleinen Modellen.
• GGUF via llama.cpp: ARM i8mm, Vulkan-Kooperationsmatrix, Flash-Attention und voller Quantisierungsbereich.
• Remote-API: OpenAI-kompatibles Streaming an Ollama-, vLLM- oder llama.cpp-Server.
• SoC-basiertes Auto-Routing: Dieser lokale KI-Assistent wählt automatisch den schnellsten Pfad für Ihren spezifischen Chipsatz.
ERWEITERTE KI-OFFLINE-CHAT-FUNKTIONEN:
• Ihre KI merkt sich Ihre Daten: Persistenter Speicher pro Zeichen mit Hintergrundextraktion. Wissensgraphen verfolgen Entitätsbeziehungen mithilfe einer hybriden Suche aus Schlüsselwörtern und semantischer Suche.
• Optimieren Sie Ihr Gerät: ForgeLab testet jedes KI-Modell und jede Backend-Kombination auf Ihrer Hardware. AutoForge durchsucht alle Konfigurationen, um die schnellsten Einstellungen für Ihre Offline-KI-Anwendung zu ermitteln.
• Entwickler-API: Über 120 Endpunkte für die vollständige lokale Kontrolle über HTTP. Laden Sie Modelle, verwalten Sie den Speicher und senden Sie Nachrichten programmatisch.
Auf realer Hardware getestet
- RedMagic 11 Pro: 21,0 tok/s — Qwen3-8B
- Galaxy S24 Ultra: 13,58 tok/s — Qwen3-4B
- OnePlus Ace 5 Ultra: 11,88 tok/s — Qwen3-8B
- Xiaomi Pad 7 Pro: 11,81 tok/s — Qwen3-4B
Warum Tokforge?
►Die KI-All-in-One-App für Nutzer, die keine Kompromisse bei Geschwindigkeit und Sicherheit eingehen wollen.
►Keine Analysen, keine Telemetrie, keine Cloud-Abhängigkeit.
►Kostenloser KI-Chatbot offline: Alle Inferenzprozesse finden lokal auf dem Gerät statt – auch im Flugmodus.
►Keine Konten, keine Registrierung.
►17 ausgewählte Modelle (0,6–14 Mrd.): Wählen Sie aus Qwen3, DeepSeek-R1, Llama 3, Phi-4 und mehr.
Ihr Smartphone ist intelligenter und leistungsstärker als Sie denken. Indem wir die KI-Architektur direkt auf Ihren Chip verlagert haben, eliminieren wir Verzögerungen, Kosten und den Zugriff der Cloud.
☑️Laden Sie diese kostenlose Offline-KI-Plattform noch heute herunter und behalten Sie die Kontrolle über Ihre Daten.Aktualisiert am
06.04.2026