AIコーディング・自動化

ローカルLLM(Ollama)はMacで動くか。スペック別の判断基準と導入手順

kidaken-ai

結論:Macで動く。ただしメモリ次第で使えるモデルが全く違う

ローカルLLMツールの定番「Ollama」はMacで動きます。特にApple Silicon(M1以降)のMacは、統合メモリとMetalのGPUアクセラレーションにより、ローカルLLM環境として優秀なハードウェアです。

ただし「動く」と「実用になる」は別の話です。メモリ容量によって使えるモデルの幅が大きく変わります。

メモリ 実用できるモデル 判定
8GB Llama 3.2 3B、Phi-3 Miniなど最小モデルのみ △ 動くが実用は限定的
16GB Qwen3 8B、Gemma 3 12Bなど中型モデル ○ 日常利用に十分
32GB Qwen3 30B相当のMoEモデルなど ◎ 実用範囲が広い
64GB以上 Llama 3 70B Q4なども動作 ◎◎ ほぼ何でも動く

Intel MacはOllamaが動くものの、GPUアクセラレーションが効かずCPU推論になるため速度が実用に耐えないケースがほとんどです。Intel Macユーザーには現時点でローカルLLMはおすすめしません。

るみな

るみな

MacBook Airの8GBモデル持ってるんだけど、OllamaってどんなAIが動くの?

きだけん

きだけん

動きはしますが、8GBだと使えるモデルが3Bパラメータ以下の小型モデルに限られます。回答精度はChatGPTの無料版より落ちる印象で、「何でもこなす」というより「軽いタスクを試す」程度の用途になります。16GBあると体験が格段に変わります。

Ollamaの動作要件:Apple Siliconが推奨される理由

最低動作環境

  • OS:macOS 12 Monterey 以上(推奨はmacOS 13 Ventura以上でMetalフル対応)
  • チップ:Apple Silicon(M1/M2/M3/M4)推奨。Intel Macも動くがCPU推論になり低速
  • メモリ:最低8GB(実用には16GB推奨)
  • ストレージ:モデルサイズ分の空き容量が必要(7B Q4モデルで約4GB、70B Q4モデルで約40GB)

Apple Siliconが優れている理由

Apple Siliconが他のPCと比べてローカルLLMに向いている最大の理由は「統合メモリ」です。

一般的なWindowsノートPCでは、CPUとGPUが別々のメモリを持っています。GPUのVRAMが8GBしかない場合、10GBのモデルは動きません。ところがApple Siliconは、CPUとGPUが同じメモリプール(統合メモリ)を共有します。MacBook Pro 16GB なら、そのうち約11〜12GB相当をモデルに使えます。

また、OllamaはApple SiliconでMetalのGPUアクセラレーションを自動的に有効化します。インストールするだけで設定不要でGPUが使われます。

るみな

るみな

Windowsでも同じスペックならMacと同じように動くんじゃないの?

きだけん

きだけん

それが違うんです。WindowsのノートPCはCPUメモリとGPUのVRAMが分離しているため、16GBのRAMがあっても専用GPU(VRAM)が4〜8GBしかないことが多い。その場合モデルはVRAMに収まるサイズに制限されます。Apple Siliconの統合メモリはその制限がないのでローカルLLMと相性がいいんです。

メモリ別の詳細:何が動いて何が動かないか

8GB Mac:最小モデル専用。動くが精度は限定的

メモリの約70〜75%がモデルに使えるため、8GBなら実質5〜6GBほどがモデル用です。

動くモデル例:

  • llama3.2:1b(約800MB):最軽量。日本語の精度は低い
  • llama3.2:3b(約2GB):軽いタスクには使える
  • phi3:mini(約2.2GB):コーディング補助に特化
  • gemma3:1b(約800MB):Google製の小型モデル

8GBの正直な評価:
これらのモデルは「AIが動く」という体験はできますが、ChatGPT無料版と比べると回答の精度や文章の自然さは大きく劣ります。プライバシーの確保や完全オフライン利用が目的でなければ、クラウドAIを使ったほうが実用的です。

16GB Mac:中型モデルで日常利用できるレベル

16GBなら約11〜12GBをモデルに使えます。ここから実用的な選択肢が広がります。

おすすめモデル:

  • qwen3:8b(約5GB):日本語性能が高く、2026年時点でのローカルLLMの定番。コーディング・文章作成に強い
  • gemma3:12b(約7.5GB):Google製。バランスが良く16GBで快適に動く
  • deepseek-r1:8b(約5GB):推論特化モデル。論理的な問題解決が得意
  • llama3.1:8b(約4.7GB):Meta製。英語が得意で翻訳・要約に強い

16GBの評価:
Qwen3 8Bはローカルで動くモデルの中では日本語精度がかなり高く、「ちょっとした質問の壁打ち」「コードのデバッグ補助」「文章の校正」程度であればクラウドAIの代替として使えます。応答速度もM1/M2以降ならトークン毎秒20〜40程度出るため、体感的に自然な速度です。

32GB Mac:MoEモデルで大型モデルに匹敵する精度

32GBになると、MoE(Mixture of Experts)アーキテクチャの大型モデルが実用範囲に入ります。

おすすめモデル:

  • qwen3:30b-a3b(約17GB):30BパラメータのMoEモデルで実際の推論に使うパラメータは3B分。速度と精度のバランスが抜群
  • gemma4:e4b(約10GB):Googleの最新MoEモデル。4B相当の効率で26B級の精度
  • deepseek-r1:32b(約19GB):推論タスクで特に強い。数学・コーディング・論理問題向け

32GBの評価:
このクラスになると「ローカルLLMだから我慢する」という感覚が薄れてきます。コーディング補助・長文要約・複雑な論理タスクで十分実用できるレベルです。MacBook Pro 32GB(M3 Pro/M4 Pro等)を持っているなら、ローカルLLM環境を本格的に整える価値があります。

64GB以上のMac:大型モデルを余裕で動かせる

Mac StudioやMac Pro、MacBook Pro最上位の64GB/96GB/128GB構成なら、70Bクラスのモデルも快適に動作します。

  • llama3:70b-q4(約40GB):64GBなら動作可能。GPT-4に近い精度という評価もある
  • qwen3:72b(約43GB):日本語性能が高い70Bクラス

ただしこのクラスのモデルを動かすためにMacを選ぶのはコストが見合わない場合もあります。GPUが充実したWindowsワークステーションのほうが費用対効果が高いことも多いです。

Ollamaのインストールと基本的な使い方

インストールは3ステップで完了

Ollamaのインストールは非常に簡単です。

方法1:公式サイトからダウンロード(推奨)

  1. ollama.com にアクセス
  2. 「Download」からmacOS版のインストーラーをダウンロード
  3. インストーラーを実行してアプリを起動

方法2:Homebrewでインストール

brew install ollama

インストール後、ターミナルを開いてモデルをダウンロードします:

# モデルのダウンロード(例:Qwen3 8B)
ollama pull qwen3:8b

# 起動してチャット
ollama run qwen3:8b

主要なコマンド一覧

コマンド 内容
ollama pull モデル名 モデルをダウンロード
ollama run モデル名 モデルを起動してチャット開始
ollama list ダウンロード済みモデルの一覧を表示
ollama rm モデル名 モデルを削除(ストレージを解放)
ollama serve APIサーバーとして起動(ポート11434)

OllamaはAPIサーバーとしても動くため、http://localhost:11434 に対してHTTPリクエストを送ることでOpenAI互換のAPIとして使えます。

るみな

るみな

インストールしたあと、GUIで使えるの?ターミナルだけ?

きだけん

きだけん

ターミナルでも使えますが、GUIも充実しています。OllamaはAPIサーバーとして動くので、「Open WebUI」というChatGPTライクなWebインターフェースを別途インストールして繋ぐ使い方が人気です。Dockerがあれば数コマンドで使えます。

よくある問題と対処法

動作が遅い・応答が返ってこない

動作が遅い場合の確認ポイント:

  • モデルがメモリに収まっているかollama ps コマンドで実行中のモデルを確認。モデルがRAMに収まらずスワップが発生すると極端に遅くなる
  • Intel Macを使っていないか:Intel MacはMetalアクセラレーションが効かず、CPUのみで推論するため非常に遅い
  • 他のアプリがメモリを使い切っていないか:ChromeやSlackなど重いアプリを閉じてメモリを確保してから再試行

応答速度の目安(Apple Silicon Mac、モデル別):

モデル M1 16GB M3 Pro 36GB
3B(小型) 40〜60 tok/s 80〜120 tok/s
8B(中型) 20〜35 tok/s 50〜70 tok/s
30B MoE 動作困難 25〜40 tok/s

日本語の精度が低い

モデルによって日本語の得意・不得意が大きく異なります。日本語性能が高いモデルの選び方:

  • Qwen3シリーズ(Alibaba製):中国語・日本語対応が強く、ローカルLLMの日本語タスクでは現状トップクラス
  • DeepSeek-R1シリーズ:推論タスクに特化しているが日本語も対応
  • Llama 3.1以降:英語は強いが日本語はQwenに劣る

日本語タスクが多い場合は ollama pull qwen3:8bollama pull qwen3:14b(メモリに余裕があれば)から始めるのがおすすめです。

ローカルLLMをMacで使う価値がある人・ない人

使う価値が高い人

  • 機密情報を扱う業務がある人:入力内容がクラウドに送られないため、社内文書・個人情報の処理に適している
  • インターネット接続なしで使いたい人:完全オフライン環境(飛行機内・セキュア環境)での利用
  • APIコストを削減したい開発者:自分のアプリのプロトタイプ開発時、ローカルLLMで繰り返しテストしてから本番でクラウドAPIに切り替える使い方
  • ローカルLLMの仕組みを学びたい人:エンジニアの学習・研究用途

クラウドAIのままでいい人

  • MacBook Air 8GBの人:動くモデルが小型すぎて実用に耐えない。ChatGPT無料版のほうが圧倒的に高品質
  • 精度を最優先したい人:GPT-4.1・Claude Sonnet 4.6・Gemini 2.5 Proはローカルモデルとは精度が段違い。品質が重要ならクラウドAI
  • セットアップの手間をかけたくない人:OllamaのインストールとモデルのDLは簡単だが、GUIの整備などに時間がかかる
るみな

るみな

結局MacBook Pro 16GBの人はOllama使う価値あるの?

きだけん

きだけん

十分あると思います。Qwen3 8Bなら日本語の文章校正・簡単なコーディング補助・要約などはしっかりこなせます。機密情報の処理や、ChatGPTを使えないオフライン環境での作業ならCouldAI不要で動かせるのは大きなメリットですよ。

まとめ:スペック別の判断基準

スペック おすすめ度 使えるモデル 用途
Intel Mac(任意のメモリ) ✕ 非推奨 小型のみ・非常に遅い 学習目的のみ
M1/M2 8GB △ 限定的 3Bクラスのみ 体験・学習用
M1/M2/M3 16GB ○ 実用可 8B〜12Bクラス 日常的な補助タスク
M3/M4 Pro 36GB ◎ 快適 30B MoEクラスまで 本格的なローカルLLM環境
M3/M4 Max 64GB+ ◎◎ 最強 70Bクラスも動作 ほぼクラウドAI不要の環境

まず試すなら、ollama.comからインストールして ollama run qwen3:8b を1コマンド打つだけです。16GBのApple Silicon MacユーザーならこれだけでAIがローカルで動き始めます。

ローカルLLMとクラウドAIの使い分けについては「ChatGPT・Claude・Geminiの使い分け完全ガイド」も参考にしてください。

ABOUT ME
きだけん
きだけん
生成AI講師/副業コンサルタント
AI初心者が副業で月10万円を目指すための実践ノウハウを発信しています。生成AI講師として20名以上を指導し、自身もクラウドワークスで案件受注中。教育関連企業で10年勤務、娘の学費を稼ぐため日々研鑽中です。 全ての人が何かを「継続」し、「成果を出す」ことの手伝いをライフワークにしたいと考えています。
記事URLをコピーしました