新しく購入した PC の CPU である AMD Ryzen AI 9 HX 370 には NPU を使用するために Lemonade Server を導入した時のメモです。
Lemonade Server
最近 AMD から GAIA という OSS で AMD Ryzen AI プロセッサの NPU を利用して生成 AI を動かせそうでした。
その GAIA のバックエンドの Lemonade を導入することで VS Code の拡張機能からも利用できるとのことなので、Lemonade Server をインストールします。
インストール
GitHub の Releases からインストーラーをダウンロードしてインストールするだけです。
インストール時にダウンロードするモデルも選択できました。NPU に対応した Hybrid のモデルがダウンロードできます。
現在用意されているモデルは Huggingface で確認できます。
起動
デスクトップに作成される lemonade-server をクリックするだけです。 8000
ポートで立ち上がります。
ダウンロードしたモデル一覧は下記にアクセスすると取得できました。
- http://localhost:8000/api/v0/models
追加でモデルダウンロードしたい時はどこからだろう…?
モデルの追加
lemonade-server をインストール後に ~/AppData/Local/lemonade_server/bin
に lemonade-server.bat
が追加されています。
- コマンド一覧 (v6.2.2)
$ lemonade-server.bat --help
Serve LLMs on CPU, GPU, and NPU.
options:
-h, --help show this help message and exit
-v, --version Show version number
Available Commands:
serve Start server
status Check if server is running
stop Stop the server
pull Install an LLM
Lemonade Server Models から使いたいモデルを確認して追加できます。
$ lemonade-server.bat pull Qwen-1.5-7B-Chat-Hybrid
Continueから使用する
連携アプリの例にあった Continue から今回利用してみます。 流れは GitHub の examples の通りです。
Add Chat Model から Connect ボタンの下にある config file から models を以下のように変更して保存します。
models:
- name: Lemonade
provider: openai
model: Qwen-1.5-7B-Chat-Hybrid
apiBase: http://localhost:8000/api/v0
apiKey: none
- name: Lemonade Autocomplete Model
provider: openai
model: Qwen-1.5-7B-Chat-Hybrid
apiBase: http://localhost:8000/api/v0
apiKey: none
roles:
- autocomplete
後は model 選択のプルダウンメニューから Lemonade を選べるようになっています。
タスクマネージャーを起動して Continue を使ってみると NPU と GPU が使われていることを確認できます。
あとは色々使ってみよう。有料と比べモデル性能は低いとしてもお金に気を遣わずに利用できるのはいいですね。