2026.04.30 2026.05.06

オンデバイスAI（ローカルLLM）とは？Ollamaで始めるローカルAI入門

kidaken-ai

Contents

オンデバイスAI・ローカルLLMとは：自分のPCの中で動くAI
Ollamaとは：ローカルLLMを最も簡単に使えるツール
- Ollamaの特徴
- Ollamaのインストール手順
最初に試すべきモデルと使い方
- 日本語対応モデルのおすすめ
- 基本的な使い方
GUIで使う：ブラウザからChatGPTライクに使う方法
- Open WebUIのセットアップ
ローカルLLMを使うべき場面・使わなくていい場面
- 使うべき場面
- クラウドAIのままでいい場面
Ollama以外のローカルLLMツール
まとめ：ローカルLLMは「第2のAI環境」として使う

オンデバイスAI・ローカルLLMとは：自分のPCの中で動くAI

ChatGPTやClaudeは、インターネット経由でOpenAIやAnthropicのサーバーに問い合わせて回答を得る「クラウドAI」です。これに対してオンデバイスAI（ローカルLLM）は、自分のPCやスマートフォン上でAIモデルを動かす仕組みです。

	クラウドAI（ChatGPT等）	ローカルLLM（Ollama等）
動作場所	サービス会社のサーバー	自分のPC・スマホ
インターネット	必須	不要（完全オフライン可）
プライバシー	入力データが外部に送られる	データが外部に出ない
性能	最新・最高品質	ハードウェアに依存
コスト	月額料金またはAPI課金	電気代のみ（モデルは無料）
カスタマイズ	制限あり	自由（モデルを選んで設定可）

2026年に注目が高まっている理由は「モデルの軽量化・高性能化」と「ハードウェアの進化」が重なったことです。数年前は高性能なGPUを積んだワークステーションが必要だったローカルLLMが、今では一般的なノートPCやApple Siliconのマシンで実用的に動くようになりました。

るみな

ローカルLLMって難しそう。プログラミングの知識が必要？

きだけん

Ollamaを使えばコマンド1行でLLMが動きます。プログラミング知識は不要です。インストールして『ollama run qwen3:8b』を打つだけで、数分でAIとチャットできます。

Ollamaとは：ローカルLLMを最も簡単に使えるツール

Ollamaの特徴

Ollamaは、ローカルLLMを手軽に実行するためのオープンソースツールです。2026年時点でローカルLLM入門に最も広く使われているツールです。

インストールが簡単：公式サイトからのダウンロードまたは1コマンドで完了
モデルが豊富：Qwen3・Llama 3・Gemma 3・DeepSeekなど100以上のモデルを1コマンドでDL
APIサーバーとして動作：OpenAI互換のAPIとして使えるため、アプリに組み込みやすい
Mac・Windows・Linux対応：すべての主要OSで動作
GPU自動検出：Apple SiliconのMetalもNVIDIA CUDAも自動で使われる

Ollamaのインストール手順

Mac・Linuxの場合：

curl -fsSL https://ollama.com/install.sh | sh

またはollama.comからインストーラーをダウンロードしてインストールします。

Windowsの場合：

ollama.com/download/windowsからインストーラーをダウンロードして実行します。

最初に試すべきモデルと使い方

日本語対応モデルのおすすめ

2026年時点で日本語性能が優れているモデルの選び方：

モデル名	サイズ	必要メモリ目安	日本語性能	特徴
qwen3:8b	約5GB	16GB以上推奨	◎	日本語トップクラス。コーディングも得意
qwen3:4b	約2.5GB	8GB以上	○	8GBマシンで動く軽量版
gemma3:12b	約7.5GB	16GB以上	○	Google製。バランスが良い
deepseek-r1:8b	約5GB	16GB以上	○	推論特化。論理問題に強い
llama3.1:8b	約4.7GB	16GB以上	△	英語が得意。日本語はやや劣る

まず試すなら qwen3:8b（16GB以上のマシン）または qwen3:4b（8GBのマシン）がおすすめです。

基本的な使い方

モデルのダウンロードとチャット開始：

# モデルをダウンロードしてチャット開始（初回はDLに数分かかります）
ollama run qwen3:8b

# チャット開始後、日本語で話しかけてOK
>>> こんにちは。Pythonでフィボナッチ数列を出力するコードを書いてください。

よく使うコマンド：

# ダウンロード済みのモデル一覧
ollama list

# 実行中のモデルを確認
ollama ps

# モデルを削除（ストレージ節約）
ollama rm qwen3:8b

# APIサーバーとして起動（バックグラウンドで常駐）
ollama serve

るみな

ollama runってターミナルで打つの？Windowsだとどうすればいい？

きだけん

Windowsの場合はインストール後にコマンドプロンプトまたはPowerShellを開いて『ollama run qwen3:8b』と打てばOKです。インストーラーがPATHを自動設定するので、どこからでも使えます。

GUIで使う：ブラウザからChatGPTライクに使う方法

Open WebUIのセットアップ

ターミナルでのチャットが使いにくい場合、「Open WebUI」というブラウザベースのインターフェースを追加できます。ChatGPTと同じような見た目・操作感でローカルLLMを使えます。

Dockerがインストールされている場合、以下のコマンドで起動します：

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway   -v open-webui:/app/backend/data   --name open-webui --restart always   ghcr.io/open-webui/open-webui:main

起動後、ブラウザで http://localhost:3000 にアクセスするとChatGPT風のUIが使えます。Dockerを使いたくない場合は、pip install open-webui でもインストールできます。

ローカルLLMを使うべき場面・使わなくていい場面

使うべき場面

機密情報・個人情報を含む文書を処理したい：医療記録・契約書・社外秘資料などをAIに読ませたいが外部サーバーに送りたくない
完全オフライン環境で使いたい：インターネット接続のないセキュアな環境・移動中・航空機内
APIコストを削減したい開発者：アプリのプロトタイプ開発・テスト時にローカルで繰り返し実行してコストゼロで確認
AIの仕組みを学びたい：モデルの動作・量子化・パラメータの理解には実際に動かすのが最も効果的

クラウドAIのままでいい場面

精度が最優先：GPT-4.1やClaude Sonnet 4.6の精度はローカルの8Bモデルより圧倒的に高い。質を妥協したくない場合はクラウドAIが現実的
ハードウェアが非力：8GB未満のメモリでは実用的なモデルが動かない
Web検索・マルチモーダルが必要：ローカルLLMは標準では画像生成やWeb検索と連携しない

Ollama以外のローカルLLMツール

ツール	特徴	向いている人
Ollama	最も手軽。コマンド1つで動く。API対応	初心者〜開発者全般
LM Studio	GUIが充実。モデルのダウンロードもGUIで完結	GUI操作が好きな非エンジニア
Jan	デスクトップアプリ。オフライン重視設計	プライバシー重視ユーザー
llama.cpp	軽量・高速。技術的なカスタマイズ向き	上級者・低スペックPC