ローカルLLM(Ollama)はMacで動くか。スペック別の判断基準と導入手順

結論:Macで動く。ただしメモリ次第で使えるモデルが全く違う
ローカルLLMツールの定番「Ollama」はMacで動きます。特にApple Silicon(M1以降)のMacは、統合メモリとMetalのGPUアクセラレーションにより、ローカルLLM環境として優秀なハードウェアです。
ただし「動く」と「実用になる」は別の話です。メモリ容量によって使えるモデルの幅が大きく変わります。
| メモリ | 実用できるモデル | 判定 |
|---|---|---|
| 8GB | Llama 3.2 3B、Phi-3 Miniなど最小モデルのみ | △ 動くが実用は限定的 |
| 16GB | Qwen3 8B、Gemma 3 12Bなど中型モデル | ○ 日常利用に十分 |
| 32GB | Qwen3 30B相当のMoEモデルなど | ◎ 実用範囲が広い |
| 64GB以上 | Llama 3 70B Q4なども動作 | ◎◎ ほぼ何でも動く |
Intel MacはOllamaが動くものの、GPUアクセラレーションが効かずCPU推論になるため速度が実用に耐えないケースがほとんどです。Intel Macユーザーには現時点でローカルLLMはおすすめしません。



Ollamaの動作要件:Apple Siliconが推奨される理由
最低動作環境
- OS:macOS 12 Monterey 以上(推奨はmacOS 13 Ventura以上でMetalフル対応)
- チップ:Apple Silicon(M1/M2/M3/M4)推奨。Intel Macも動くがCPU推論になり低速
- メモリ:最低8GB(実用には16GB推奨)
- ストレージ:モデルサイズ分の空き容量が必要(7B Q4モデルで約4GB、70B Q4モデルで約40GB)
Apple Siliconが優れている理由
Apple Siliconが他のPCと比べてローカルLLMに向いている最大の理由は「統合メモリ」です。
一般的なWindowsノートPCでは、CPUとGPUが別々のメモリを持っています。GPUのVRAMが8GBしかない場合、10GBのモデルは動きません。ところがApple Siliconは、CPUとGPUが同じメモリプール(統合メモリ)を共有します。MacBook Pro 16GB なら、そのうち約11〜12GB相当をモデルに使えます。
また、OllamaはApple SiliconでMetalのGPUアクセラレーションを自動的に有効化します。インストールするだけで設定不要でGPUが使われます。



メモリ別の詳細:何が動いて何が動かないか
8GB Mac:最小モデル専用。動くが精度は限定的
メモリの約70〜75%がモデルに使えるため、8GBなら実質5〜6GBほどがモデル用です。
動くモデル例:
llama3.2:1b(約800MB):最軽量。日本語の精度は低いllama3.2:3b(約2GB):軽いタスクには使えるphi3:mini(約2.2GB):コーディング補助に特化gemma3:1b(約800MB):Google製の小型モデル
8GBの正直な評価:
これらのモデルは「AIが動く」という体験はできますが、ChatGPT無料版と比べると回答の精度や文章の自然さは大きく劣ります。プライバシーの確保や完全オフライン利用が目的でなければ、クラウドAIを使ったほうが実用的です。
16GB Mac:中型モデルで日常利用できるレベル
16GBなら約11〜12GBをモデルに使えます。ここから実用的な選択肢が広がります。
おすすめモデル:
qwen3:8b(約5GB):日本語性能が高く、2026年時点でのローカルLLMの定番。コーディング・文章作成に強いgemma3:12b(約7.5GB):Google製。バランスが良く16GBで快適に動くdeepseek-r1:8b(約5GB):推論特化モデル。論理的な問題解決が得意llama3.1:8b(約4.7GB):Meta製。英語が得意で翻訳・要約に強い
16GBの評価:
Qwen3 8Bはローカルで動くモデルの中では日本語精度がかなり高く、「ちょっとした質問の壁打ち」「コードのデバッグ補助」「文章の校正」程度であればクラウドAIの代替として使えます。応答速度もM1/M2以降ならトークン毎秒20〜40程度出るため、体感的に自然な速度です。
32GB Mac:MoEモデルで大型モデルに匹敵する精度
32GBになると、MoE(Mixture of Experts)アーキテクチャの大型モデルが実用範囲に入ります。
おすすめモデル:
qwen3:30b-a3b(約17GB):30BパラメータのMoEモデルで実際の推論に使うパラメータは3B分。速度と精度のバランスが抜群gemma4:e4b(約10GB):Googleの最新MoEモデル。4B相当の効率で26B級の精度deepseek-r1:32b(約19GB):推論タスクで特に強い。数学・コーディング・論理問題向け
32GBの評価:
このクラスになると「ローカルLLMだから我慢する」という感覚が薄れてきます。コーディング補助・長文要約・複雑な論理タスクで十分実用できるレベルです。MacBook Pro 32GB(M3 Pro/M4 Pro等)を持っているなら、ローカルLLM環境を本格的に整える価値があります。
64GB以上のMac:大型モデルを余裕で動かせる
Mac StudioやMac Pro、MacBook Pro最上位の64GB/96GB/128GB構成なら、70Bクラスのモデルも快適に動作します。
llama3:70b-q4(約40GB):64GBなら動作可能。GPT-4に近い精度という評価もあるqwen3:72b(約43GB):日本語性能が高い70Bクラス
ただしこのクラスのモデルを動かすためにMacを選ぶのはコストが見合わない場合もあります。GPUが充実したWindowsワークステーションのほうが費用対効果が高いことも多いです。

Ollamaのインストールと基本的な使い方
インストールは3ステップで完了
Ollamaのインストールは非常に簡単です。
方法1:公式サイトからダウンロード(推奨)
- ollama.com にアクセス
- 「Download」からmacOS版のインストーラーをダウンロード
- インストーラーを実行してアプリを起動
方法2:Homebrewでインストール
brew install ollama
インストール後、ターミナルを開いてモデルをダウンロードします:
# モデルのダウンロード(例:Qwen3 8B)
ollama pull qwen3:8b
# 起動してチャット
ollama run qwen3:8b
主要なコマンド一覧
| コマンド | 内容 |
|---|---|
ollama pull モデル名 |
モデルをダウンロード |
ollama run モデル名 |
モデルを起動してチャット開始 |
ollama list |
ダウンロード済みモデルの一覧を表示 |
ollama rm モデル名 |
モデルを削除(ストレージを解放) |
ollama serve |
APIサーバーとして起動(ポート11434) |
OllamaはAPIサーバーとしても動くため、http://localhost:11434 に対してHTTPリクエストを送ることでOpenAI互換のAPIとして使えます。



よくある問題と対処法
動作が遅い・応答が返ってこない
動作が遅い場合の確認ポイント:
- モデルがメモリに収まっているか:
ollama psコマンドで実行中のモデルを確認。モデルがRAMに収まらずスワップが発生すると極端に遅くなる - Intel Macを使っていないか:Intel MacはMetalアクセラレーションが効かず、CPUのみで推論するため非常に遅い
- 他のアプリがメモリを使い切っていないか:ChromeやSlackなど重いアプリを閉じてメモリを確保してから再試行
応答速度の目安(Apple Silicon Mac、モデル別):
| モデル | M1 16GB | M3 Pro 36GB |
|---|---|---|
| 3B(小型) | 40〜60 tok/s | 80〜120 tok/s |
| 8B(中型) | 20〜35 tok/s | 50〜70 tok/s |
| 30B MoE | 動作困難 | 25〜40 tok/s |
日本語の精度が低い
モデルによって日本語の得意・不得意が大きく異なります。日本語性能が高いモデルの選び方:
- Qwen3シリーズ(Alibaba製):中国語・日本語対応が強く、ローカルLLMの日本語タスクでは現状トップクラス
- DeepSeek-R1シリーズ:推論タスクに特化しているが日本語も対応
- Llama 3.1以降:英語は強いが日本語はQwenに劣る
日本語タスクが多い場合は ollama pull qwen3:8b か ollama pull qwen3:14b(メモリに余裕があれば)から始めるのがおすすめです。

ローカルLLMをMacで使う価値がある人・ない人
使う価値が高い人
- 機密情報を扱う業務がある人:入力内容がクラウドに送られないため、社内文書・個人情報の処理に適している
- インターネット接続なしで使いたい人:完全オフライン環境(飛行機内・セキュア環境)での利用
- APIコストを削減したい開発者:自分のアプリのプロトタイプ開発時、ローカルLLMで繰り返しテストしてから本番でクラウドAPIに切り替える使い方
- ローカルLLMの仕組みを学びたい人:エンジニアの学習・研究用途
クラウドAIのままでいい人
- MacBook Air 8GBの人:動くモデルが小型すぎて実用に耐えない。ChatGPT無料版のほうが圧倒的に高品質
- 精度を最優先したい人:GPT-4.1・Claude Sonnet 4.6・Gemini 2.5 Proはローカルモデルとは精度が段違い。品質が重要ならクラウドAI
- セットアップの手間をかけたくない人:OllamaのインストールとモデルのDLは簡単だが、GUIの整備などに時間がかかる



まとめ:スペック別の判断基準
| スペック | おすすめ度 | 使えるモデル | 用途 |
|---|---|---|---|
| Intel Mac(任意のメモリ) | ✕ 非推奨 | 小型のみ・非常に遅い | 学習目的のみ |
| M1/M2 8GB | △ 限定的 | 3Bクラスのみ | 体験・学習用 |
| M1/M2/M3 16GB | ○ 実用可 | 8B〜12Bクラス | 日常的な補助タスク |
| M3/M4 Pro 36GB | ◎ 快適 | 30B MoEクラスまで | 本格的なローカルLLM環境 |
| M3/M4 Max 64GB+ | ◎◎ 最強 | 70Bクラスも動作 | ほぼクラウドAI不要の環境 |
まず試すなら、ollama.comからインストールして ollama run qwen3:8b を1コマンド打つだけです。16GBのApple Silicon MacユーザーならこれだけでAIがローカルで動き始めます。
ローカルLLMとクラウドAIの使い分けについては「ChatGPT・Claude・Geminiの使い分け完全ガイド」も参考にしてください。
