教えて!まむちゃん
仕事

ローカルLLMについて


スマホで動作するLLMがあると聞いたのですが、どのようなものがあるのでしょうか。


AI Icon
AIまむちゃん
AI回答
8時間前

スマホで「端末内で」動くLLMは、ここ1〜2年でかなり増えています。代表的なものと、その特徴をざっと整理します。


1. iPhone(iOS)で動く代表例

(1) Apple公式系(今後本格化予定)

  • Apple Intelligence(iOS 18以降)
    • 2024年発表のAppleのAI機能群。
    • 文章要約、文章生成、画像生成などを「オンデバイスLLM+クラウドLLM」で実行。
    • A17 Pro / Mシリーズなど、比較的新しいチップが対象。
    • まだ日本語対応や日本での提供時期は限定的・未定部分あり。

(2) アプリとして入れられるもの

App Storeで「LLM」「GPT」「AI Chat」などで検索すると多数出てきますが、本当に端末内で完結しているかは要注意です。
端末内で動く代表的なものは:

  • MLC Chat / MLC LLM

    • オープンソースのMLC(Machine Learning Compilation)プロジェクト。
    • Llama 2 / Mistral / Phiなどの軽量モデルをiPhone上で動かせる。
    • オフライン動作可能(モデルを端末にダウンロード)。
    • ただし、モデルサイズが大きいのでストレージとRAMに余裕が必要。
  • llama.cpp系アプリ

    • llama.cppというC++実装をベースにしたアプリがいくつか存在。
    • 量子化(4bitなど)されたLlama系モデルをiPhoneで動かせる。
    • 速度は端末性能に依存。最新のiPhoneなら実用レベル、古い端末だとかなり遅い。
  • LM Studio(モバイル版が出てくる可能性)

    • 現状は主にPC向けだが、同系統の「ローカルLLMクライアント」がモバイルに来る流れは強い。

2. Androidで動く代表例

Androidは端末の自由度が高いので、ローカルLLMアプリがかなり豊富です。

(1) 代表的なアプリ

  • KoboldCpp / KoboldAI系クライアント

    • もともとPC向けだが、Android向けビルドや派生アプリが存在。
    • 物語生成・チャット向けにチューニングされたモデルを動かせる。
  • Termux + llama.cpp

    • Termux(Android上のLinux環境)を使い、llama.cppをビルドして動かす方法。
    • 技術的ハードルは高いが、柔軟性が高い。
    • Llama 2 / Mistral / Phiなどの量子化モデルを端末内で実行可能。
  • GPT4All(モバイル版)

    • PC向けが有名だが、Android向けのクライアントも出てきている。
    • オフラインで動く軽量モデルを選んでダウンロードして使う形。
  • Ollamaクライアント系

    • 本家OllamaはPC向けだが、Androidからローカルサーバーに接続するクライアントアプリがある。
    • 「完全にスマホ単体で完結」ではないが、LAN内のPC上のLLMをスマホから使う形。

3. 端末内LLMの中身(モデルの種類)

スマホで動かすためには、以下のような「軽量モデル」がよく使われます。

  • Llama 2 / Llama 3 の小さいサイズ

    • 7B / 8Bパラメータ程度のモデルを4bit量子化して使う。
    • 例:Llama-2-7B-Chat-Q4_K_M など。
  • Mistral 7B / Mixtral系の軽量版

    • 高性能な7Bモデルを量子化してスマホで動かす。
  • Phi-2 / Phi-3-mini などの小型モデル

    • MicrosoftのPhiシリーズは小さい割に性能が良く、モバイル向き。
  • 日本語特化モデルの軽量版

    • rinna / Japanese-LLaMA / Swallow などの日本語モデルを量子化したもの。
    • ただし、日本語特化モデルは英語モデルより重いことが多く、スマホでの実用性は端末性能次第。

4. 「スマホで動くLLM」を選ぶときのポイント

  1. 本当にオンデバイスか?

    • 多くのアプリは「クラウドのGPT/Claude等を呼び出すだけ」なので、
      プライバシーやオフライン利用が目的なら「ローカル実行」と明記されているものを選ぶ。
  2. 端末性能

    • RAM:最低でも6GB、できれば8GB以上あると快適。
    • ストレージ:モデル1つで数GB使うこともある。
    • CPU/GPU/NPU:最新のiPhoneやハイエンドAndroidほど高速。
  3. 用途

    • 軽いチャット・メモ要約程度 → 3〜7Bクラスのモデルで十分。
    • 長文生成・プログラミング補助など → スマホ単体だと厳しく、PCやクラウド併用が現実的。

5. どう使い始めるのが現実的か

  • iPhoneユーザーなら:

    • まずは MLC Chat や llama.cpp系のアプリを試す。
    • iOS 18以降なら、Apple Intelligenceの日本対応状況をチェック。
  • Androidユーザーなら:

    • Playストアで「local LLM」「offline AI chat」などで探し、
      「モデルをダウンロードしてオフラインで使える」と明記されたものを選ぶ。
    • 技術に慣れているなら、Termux + llama.cpp で自分好みのモデルを動かすのもあり。

ここまでの内容は、最新情報をすべて網羅しているわけではなく、アプリやモデルは日々更新されています。
実際に利用する際は、ストアの説明やGitHubのREADMEを確認しつつ、必要に応じて専門家や開発者コミュニティの情報も参照してください。


回答(0件)
AN