2026.04.29 2026.05.06

ローカルLLM（Ollama）はMacで動くか。スペック別の判断基準と導入手順

kidaken-ai

Contents

結論：Macで動く。ただしメモリ次第で使えるモデルが全く違う
Ollamaの動作要件：Apple Siliconが推奨される理由
- 最低動作環境
- Apple Siliconが優れている理由
メモリ別の詳細：何が動いて何が動かないか
Ollamaのインストールと基本的な使い方
- インストールは3ステップで完了
- 主要なコマンド一覧
よくある問題と対処法
- 動作が遅い・応答が返ってこない
- 日本語の精度が低い
ローカルLLMをMacで使う価値がある人・ない人
- 使う価値が高い人
- クラウドAIのままでいい人
まとめ：スペック別の判断基準

結論：Macで動く。ただしメモリ次第で使えるモデルが全く違う

ローカルLLMツールの定番「Ollama」はMacで動きます。特にApple Silicon（M1以降）のMacは、統合メモリとMetalのGPUアクセラレーションにより、ローカルLLM環境として優秀なハードウェアです。

ただし「動く」と「実用になる」は別の話です。メモリ容量によって使えるモデルの幅が大きく変わります。

メモリ	実用できるモデル	判定
8GB	Llama 3.2 3B、Phi-3 Miniなど最小モデルのみ	△ 動くが実用は限定的
16GB	Qwen3 8B、Gemma 3 12Bなど中型モデル	○ 日常利用に十分
32GB	Qwen3 30B相当のMoEモデルなど	◎ 実用範囲が広い
64GB以上	Llama 3 70B Q4なども動作	◎◎ ほぼ何でも動く

Intel MacはOllamaが動くものの、GPUアクセラレーションが効かずCPU推論になるため速度が実用に耐えないケースがほとんどです。Intel Macユーザーには現時点でローカルLLMはおすすめしません。

るみな

MacBook Airの8GBモデル持ってるんだけど、OllamaってどんなAIが動くの？

きだけん

動きはしますが、8GBだと使えるモデルが3Bパラメータ以下の小型モデルに限られます。回答精度はChatGPTの無料版より落ちる印象で、「何でもこなす」というより「軽いタスクを試す」程度の用途になります。16GBあると体験が格段に変わります。

Ollamaの動作要件：Apple Siliconが推奨される理由

最低動作環境

OS：macOS 12 Monterey 以上（推奨はmacOS 13 Ventura以上でMetalフル対応）
チップ：Apple Silicon（M1/M2/M3/M4）推奨。Intel Macも動くがCPU推論になり低速
メモリ：最低8GB（実用には16GB推奨）
ストレージ：モデルサイズ分の空き容量が必要（7B Q4モデルで約4GB、70B Q4モデルで約40GB）

Apple Siliconが優れている理由

Apple Siliconが他のPCと比べてローカルLLMに向いている最大の理由は「統合メモリ」です。

一般的なWindowsノートPCでは、CPUとGPUが別々のメモリを持っています。GPUのVRAMが8GBしかない場合、10GBのモデルは動きません。ところがApple Siliconは、CPUとGPUが同じメモリプール（統合メモリ）を共有します。MacBook Pro 16GB なら、そのうち約11〜12GB相当をモデルに使えます。

また、OllamaはApple SiliconでMetalのGPUアクセラレーションを自動的に有効化します。インストールするだけで設定不要でGPUが使われます。

るみな

Windowsでも同じスペックならMacと同じように動くんじゃないの？

きだけん

それが違うんです。WindowsのノートPCはCPUメモリとGPUのVRAMが分離しているため、16GBのRAMがあっても専用GPU（VRAM）が4〜8GBしかないことが多い。その場合モデルはVRAMに収まるサイズに制限されます。Apple Siliconの統合メモリはその制限がないのでローカルLLMと相性がいいんです。

メモリ別の詳細：何が動いて何が動かないか

8GB Mac：最小モデル専用。動くが精度は限定的

メモリの約70〜75%がモデルに使えるため、8GBなら実質5〜6GBほどがモデル用です。

動くモデル例：

llama3.2:1b（約800MB）：最軽量。日本語の精度は低い
llama3.2:3b（約2GB）：軽いタスクには使える
phi3:mini（約2.2GB）：コーディング補助に特化
gemma3:1b（約800MB）：Google製の小型モデル

8GBの正直な評価：
これらのモデルは「AIが動く」という体験はできますが、ChatGPT無料版と比べると回答の精度や文章の自然さは大きく劣ります。プライバシーの確保や完全オフライン利用が目的でなければ、クラウドAIを使ったほうが実用的です。

16GB Mac：中型モデルで日常利用できるレベル

16GBなら約11〜12GBをモデルに使えます。ここから実用的な選択肢が広がります。

おすすめモデル：

qwen3:8b（約5GB）：日本語性能が高く、2026年時点でのローカルLLMの定番。コーディング・文章作成に強い
gemma3:12b（約7.5GB）：Google製。バランスが良く16GBで快適に動く
deepseek-r1:8b（約5GB）：推論特化モデル。論理的な問題解決が得意
llama3.1:8b（約4.7GB）：Meta製。英語が得意で翻訳・要約に強い

16GBの評価：
Qwen3 8Bはローカルで動くモデルの中では日本語精度がかなり高く、「ちょっとした質問の壁打ち」「コードのデバッグ補助」「文章の校正」程度であればクラウドAIの代替として使えます。応答速度もM1/M2以降ならトークン毎秒20〜40程度出るため、体感的に自然な速度です。

32GB Mac：MoEモデルで大型モデルに匹敵する精度

32GBになると、MoE（Mixture of Experts）アーキテクチャの大型モデルが実用範囲に入ります。

おすすめモデル：

qwen3:30b-a3b（約17GB）：30BパラメータのMoEモデルで実際の推論に使うパラメータは3B分。速度と精度のバランスが抜群
gemma4:e4b（約10GB）：Googleの最新MoEモデル。4B相当の効率で26B級の精度
deepseek-r1:32b（約19GB）：推論タスクで特に強い。数学・コーディング・論理問題向け

32GBの評価：
このクラスになると「ローカルLLMだから我慢する」という感覚が薄れてきます。コーディング補助・長文要約・複雑な論理タスクで十分実用できるレベルです。MacBook Pro 32GB（M3 Pro/M4 Pro等）を持っているなら、ローカルLLM環境を本格的に整える価値があります。

64GB以上のMac：大型モデルを余裕で動かせる

Mac StudioやMac Pro、MacBook Pro最上位の64GB/96GB/128GB構成なら、70Bクラスのモデルも快適に動作します。

llama3:70b-q4（約40GB）：64GBなら動作可能。GPT-4に近い精度という評価もある
qwen3:72b（約43GB）：日本語性能が高い70Bクラス

ただしこのクラスのモデルを動かすためにMacを選ぶのはコストが見合わない場合もあります。GPUが充実したWindowsワークステーションのほうが費用対効果が高いことも多いです。

Ollamaのインストールと基本的な使い方

インストールは3ステップで完了

Ollamaのインストールは非常に簡単です。

方法1：公式サイトからダウンロード（推奨）

ollama.com にアクセス
「Download」からmacOS版のインストーラーをダウンロード
インストーラーを実行してアプリを起動

方法2：Homebrewでインストール

brew install ollama

インストール後、ターミナルを開いてモデルをダウンロードします：

# モデルのダウンロード（例：Qwen3 8B）
ollama pull qwen3:8b

# 起動してチャット
ollama run qwen3:8b

主要なコマンド一覧

コマンド	内容
`ollama pull モデル名`	モデルをダウンロード
`ollama run モデル名`	モデルを起動してチャット開始
`ollama list`	ダウンロード済みモデルの一覧を表示
`ollama rm モデル名`	モデルを削除（ストレージを解放）
`ollama serve`	APIサーバーとして起動（ポート11434）

OllamaはAPIサーバーとしても動くため、http://localhost:11434 に対してHTTPリクエストを送ることでOpenAI互換のAPIとして使えます。

るみな

インストールしたあと、GUIで使えるの？ターミナルだけ？

きだけん

ターミナルでも使えますが、GUIも充実しています。OllamaはAPIサーバーとして動くので、「Open WebUI」というChatGPTライクなWebインターフェースを別途インストールして繋ぐ使い方が人気です。Dockerがあれば数コマンドで使えます。

よくある問題と対処法

動作が遅い・応答が返ってこない

動作が遅い場合の確認ポイント：

モデルがメモリに収まっているか：ollama ps コマンドで実行中のモデルを確認。モデルがRAMに収まらずスワップが発生すると極端に遅くなる
Intel Macを使っていないか：Intel MacはMetalアクセラレーションが効かず、CPUのみで推論するため非常に遅い
他のアプリがメモリを使い切っていないか：ChromeやSlackなど重いアプリを閉じてメモリを確保してから再試行

応答速度の目安（Apple Silicon Mac、モデル別）：

モデル	M1 16GB	M3 Pro 36GB
3B（小型）	40〜60 tok/s	80〜120 tok/s
8B（中型）	20〜35 tok/s	50〜70 tok/s
30B MoE	動作困難	25〜40 tok/s

日本語の精度が低い

モデルによって日本語の得意・不得意が大きく異なります。日本語性能が高いモデルの選び方：

Qwen3シリーズ（Alibaba製）：中国語・日本語対応が強く、ローカルLLMの日本語タスクでは現状トップクラス
DeepSeek-R1シリーズ：推論タスクに特化しているが日本語も対応
Llama 3.1以降：英語は強いが日本語はQwenに劣る

日本語タスクが多い場合は ollama pull qwen3:8b か ollama pull qwen3:14b（メモリに余裕があれば）から始めるのがおすすめです。

ローカルLLMをMacで使う価値がある人・ない人

使う価値が高い人

機密情報を扱う業務がある人：入力内容がクラウドに送られないため、社内文書・個人情報の処理に適している
インターネット接続なしで使いたい人：完全オフライン環境（飛行機内・セキュア環境）での利用
APIコストを削減したい開発者：自分のアプリのプロトタイプ開発時、ローカルLLMで繰り返しテストしてから本番でクラウドAPIに切り替える使い方
ローカルLLMの仕組みを学びたい人：エンジニアの学習・研究用途

クラウドAIのままでいい人

MacBook Air 8GBの人：動くモデルが小型すぎて実用に耐えない。ChatGPT無料版のほうが圧倒的に高品質
精度を最優先したい人：GPT-4.1・Claude Sonnet 4.6・Gemini 2.5 Proはローカルモデルとは精度が段違い。品質が重要ならクラウドAI
セットアップの手間をかけたくない人：OllamaのインストールとモデルのDLは簡単だが、GUIの整備などに時間がかかる

るみな

結局MacBook Pro 16GBの人はOllama使う価値あるの？

きだけん

十分あると思います。Qwen3 8Bなら日本語の文章校正・簡単なコーディング補助・要約などはしっかりこなせます。機密情報の処理や、ChatGPTを使えないオフライン環境での作業ならCouldAI不要で動かせるのは大きなメリットですよ。

まとめ：スペック別の判断基準

スペック	おすすめ度	使えるモデル	用途
Intel Mac（任意のメモリ）	✕ 非推奨	小型のみ・非常に遅い	学習目的のみ
M1/M2 8GB	△ 限定的	3Bクラスのみ	体験・学習用
M1/M2/M3 16GB	○ 実用可	8B〜12Bクラス	日常的な補助タスク
M3/M4 Pro 36GB	◎ 快適	30B MoEクラスまで	本格的なローカルLLM環境
M3/M4 Max 64GB+	◎◎ 最強	70Bクラスも動作	ほぼクラウドAI不要の環境