Lemonade Serverの導入

新しく購入した PC の CPU である AMD Ryzen AI 9 HX 370 には NPU を使用するために Lemonade Server を導入した時のメモです。

Lemonade Server

最近 AMD から GAIA という OSS で AMD Ryzen AI プロセッサの NPU を利用して生成 AI を動かせそうでした。
その GAIA のバックエンドの Lemonade を導入することで VS Code の拡張機能からも利用できるとのことなので、Lemonade Server をインストールします。

インストール

GitHub の Releases からインストーラーをダウンロードしてインストールするだけです。

インストール時にダウンロードするモデルも選択できました。NPU に対応した Hybrid のモデルがダウンロードできます。
現在用意されているモデルは Huggingface で確認できます。

起動

デスクトップに作成される lemonade-server をクリックするだけです。 8000ポートで立ち上がります。 ダウンロードしたモデル一覧は下記にアクセスすると取得できました。

  • http://localhost:8000/api/v0/models

追加でモデルダウンロードしたい時はどこからだろう…?

モデルの追加

lemonade-server をインストール後に ~/AppData/Local/lemonade_server/binlemonade-server.bat が追加されています。

  • コマンド一覧 (v6.2.2)
$ lemonade-server.bat --help
Serve LLMs on CPU, GPU, and NPU.

options:
  -h, --help     show this help message and exit
  -v, --version  Show version number

Available Commands:

    serve        Start server
    status       Check if server is running
    stop         Stop the server
    pull         Install an LLM

Lemonade Server Models から使いたいモデルを確認して追加できます。

$ lemonade-server.bat pull Qwen-1.5-7B-Chat-Hybrid

Continueから使用する

連携アプリの例にあった Continue から今回利用してみます。 流れは GitHub の examples の通りです。

Add Chat Model から Connect ボタンの下にある config file から models を以下のように変更して保存します。

models:
  - name: Lemonade
    provider: openai
    model: Qwen-1.5-7B-Chat-Hybrid 
    apiBase: http://localhost:8000/api/v0
    apiKey: none
  - name: Lemonade Autocomplete Model
    provider: openai
    model: Qwen-1.5-7B-Chat-Hybrid
    apiBase: http://localhost:8000/api/v0
    apiKey: none
    roles:
      - autocomplete

後は model 選択のプルダウンメニューから Lemonade を選べるようになっています。
タスクマネージャーを起動して Continue を使ってみると NPU と GPU が使われていることを確認できます。

あとは色々使ってみよう。有料と比べモデル性能は低いとしてもお金に気を遣わずに利用できるのはいいですね。

参考