LLM Hub は、プロダクションレベルの AI を Android デバイス上で直接実現します。プライベートで高速、そして完全にローカルです。大規模なコンテキストウィンドウ、永続的なグローバルメモリ、そしてデバイスに保存されたインデックス付きドキュメントに基づいて回答を生成する検索拡張生成(RAG)を備えた、最新のオンデバイス LLM(Gemma-3、Gemma-3n マルチモーダル、Llama-3.2、Phi-4 Mini)を実行できます。ドキュメントやメモの埋め込みを作成・保存し、ローカルでベクトル類似性検索を実行。最新の情報が必要な場合は、DuckDuckGo によるウェブ検索で応答を補強できます。明示的にエクスポートしない限り、重要なデータはすべてデバイス内に留まります。ローカルのみのメモリ、インデックス、埋め込みにより、高い関連性と精度を保ちながらプライバシーを保護します。
主な機能
オンデバイス LLM 推論:クラウドに依存せず、高速でプライベートな応答を実現。デバイスとニーズに合ったモデルを選択できます。
検索拡張生成(RAG):モデルの推論と、インデックス化されたドキュメントのチャンクおよび埋め込みを組み合わせ、事実に根ざした回答を生成します。
永続的なグローバルメモリ:セッションをまたいで長期的に情報を呼び出せるよう、事実、ドキュメント、知識を永続的なデバイスローカルメモリ(Room DB)に保存します。
埋め込みとベクトル検索:埋め込みを生成し、コンテンツをローカルでインデックス化。効率的な類似性検索で最も関連性の高いドキュメントを取得します。
マルチモーダルサポート:利用可能な場合は、テキストと画像を扱えるモデル(Gemma-3n)を使用し、より豊かなインタラクションを実現します。
ウェブ検索統合:RAG クエリや即時回答のために最新情報を取得するため、DuckDuckGo によるウェブ検索結果でローカルの知識を補完します。
オフライン対応:ネットワークアクセスがなくても動作します。モデル、メモリ、インデックスはデバイス内に保持されます。
GPU アクセラレーション(オプション):サポートされている環境ではハードウェアアクセラレーションを利用できます。より大きな GPU 対応モデルで最高のパフォーマンスを得るには、8GB 以上の RAM を搭載したデバイスを推奨します。
プライバシーファースト設計:メモリ、埋め込み、RAG インデックスはデフォルトでローカルに保持されます。データを明示的に共有またはエクスポートしない限り、クラウドへのアップロードは行われません。
長コンテキスト処理:大規模なコンテキストウィンドウを持つモデルをサポート。アシスタントが広範なドキュメントや履歴を考慮して推論できます。
開発者フレンドリー:プライベートかつオフラインでの AI 利用を必要とするアプリ向けに、ローカル推論、インデックス作成、検索のユースケースと統合できます。
LLM Hub を選ぶ理由:LLM Hub は、モバイル上でプライベート、正確、そして柔軟な AI を提供するために開発されました。ローカル推論の速度と、検索ベースシステムによる事実に基づいた根拠、そして永続メモリの利便性を融合しています。知識労働者、プライバシーを重視するユーザー、そしてローカルファーストの AI 機能を構築する開発者に最適です。
サポートモデル:Gemma-3、Gemma-3n(マルチモーダル)、Llama-3.2、Phi-4 Mini — デバイスの性能とコンテキストのニーズに合ったモデルを選択してください。