Tu teléfono es más inteligente de lo que crees.
TokForge ejecuta grandes modelos de lenguaje directamente en tu dispositivo Android: sin nube, sin suscripción, sin que tus datos salgan de tu bolsillo. Chatea con personajes de IA, adjunta documentos, escucha respuestas en voz alta y ajusta todo automáticamente a tu hardware.
¿QUÉ PUEDE HACER?
Chatea con personajes de IA
Importa fichas de personajes de TavernAI V2 (PNG/JSON), personaliza personalidades con ajustes individuales y mantén conversaciones reales con generación en tiempo real. Los modelos de razonamiento cuentan con bloques de pensamiento desplegables. Libros de historia, saludos alternativos, información del mundo: todas las funciones.
Adjunta documentos y haz preguntas
Añade un archivo PDF, DOCX, EPUB o de texto y formula preguntas basadas en ese documento. La indexación de árboles RAPTOR y las incrustaciones pequeñas de BGE encuentran pasajes relevantes. Las preguntas de seguimiento se mantienen rápidas gracias a la preservación de la caché delta KV.
Escucha las respuestas leídas en voz alta
Kokoro TTS integrado: 11 voces, velocidad ajustable, dos niveles de calidad. Funciona completamente sin conexión. No requiere internet.
2 veces más rápido con decodificación especulativa
Un modelo preliminar pequeño predice el resultado, mientras que el modelo principal verifica en lotes. Indicador de tok/s en tiempo real en la barra de chat. Emparejamientos detectados automáticamente con enrutamiento inteligente de backend por modo.
TRES BACKENDS, CINCO RUTAS DE GPU
• MNN con GPU OpenCL y Vulkan: kernels MNN Vulkan GEMV optimizados para Mali y OpenCL para Adreno. TQ4 TurboQuant alcanza entre 46 y 57 tok/s en modelos pequeños.
• GGUF vía llama.cpp: ARM i8mm, matriz cooperativa Vulkan, atención flash, muestreador DRY, Mirostat, rango de cuantización completo.
• API remota: transmisión compatible con OpenAI a Ollama, vLLM o servidor llama.cpp.
• Enrutamiento automático con reconocimiento de SoC que selecciona la ruta más rápida para tu chipset.
TU IA TE RECUERDA
Memoria persistente por carácter con extracción en segundo plano: sin etiquetado manual. Los grafos de conocimiento rastrean las relaciones entre entidades. Búsqueda híbrida por palabra clave y semántica. Los archivos adjuntos de documentos persisten entre sesiones.
AJUSTA TU DISPOSITIVO
ForgeLab evalúa el rendimiento de cada combinación de modelo/backend en tu hardware. AutoForge analiza todas las configuraciones y selecciona la más rápida. Los perfiles de inferencia con nombre guardan la configuración del muestreador. Informes PNG compartibles.
API PARA DESARROLLADORES: más de 120 PUNTOS DE ENTRADA
Plano de control local completo a través de HTTP. Carga modelos, ejecuta pruebas de rendimiento, gestiona la memoria, fija documentos, envía mensajes: todo mediante programación. Autenticación con token de portador, desactivada por defecto.
PROBADO EN HARDWARE REAL
• RedMagic 11 Pro (SM8850): 21,0 tok/s — Qwen3-8B, OpenCL
• Galaxy S24 Ultra (SM8650): 13,58 tok/s — Qwen3-4B, OpenCL
• OnePlus Ace 5 Ultra (D9400): 11,88 tok/s — Qwen3-8B, MNN Vulkan
• Xiaomi Pad 7 Pro (SM8635): 11,81 tok/s — Qwen3-4B, CPU
LA PRIVACIDAD ES NUESTRA PRIORIDAD
• Sin análisis, sin telemetría, sin dependencia de la nube
• Toda la inferencia se realiza en el dispositivo; el modo avión funciona correctamente
• Sin cuentas, sin registro
17 modelos seleccionados (0,6B–14B): Qwen3, DeepSeek-R1, Llama 3, Phi-4 y más. Descárgala dentro de la aplicación o busca HuggingFace.