今回は小ネタ。
ミニPCのGMKtec EVO-X1を購入。フットプリントは11センチ四方くらいで、Intel N100搭載のミニPC(写真はBeelink)とほぼ同じ。わかりやすく言うと「あみぐるみ2個分」の大きさ。
EVO-X1 は Ryzen AI 9 HX370*1と64GB のユニファイドメモリ、そこそこ以上の速度のiGPU Radeon 890Mを搭載しており、AIっぽいことがいろいろできる、はず。
LM StudioでQwen3-30B-A3Bを動かすと下のツイート内動画くらいの速度で動く。ただしBIOSでGPUの占有メモリ量(EVO-X1のBIOSの項目ではUMA Frame Buffer Size)を最大の32GBにしておくこと。
添付の動画はLM StudioでQwen3-30B-A3B(4bit GGUF)をVulkanで推論した時の様子(直前に「きのこの山」と「たけのこの里」の詳細なコンテキストを約2000トークン分与えてから、どっち派か質問しているw)。省電力設定でもこの速度で動いて、ファンも低速のまま。 pic.twitter.com/nzflMAzyWQ
— shuyo (@shuyo) 2025年7月4日
これでVulkanかつ省電力モードなので、ポテンシャルはもうちょっとある。
さて、EVO-X1 はいわゆるCopilot+ PCでもあり、50TOPSの性能を持つNPU(XDNA2)も搭載している。が、このNPUを使わせるのが難しい。「Copilot+ PC には40TOPS以上の NPU が必要(ただし使わない)」状態で、とにかくなかなか使ってくれない。*2
先ほどのLM StudioのLLM推論でも、GPUはゴリゴリ使ってくれるが、NPUはうんともすんとも言わない。タスクマネージャーのNPU使用状況も見事な無風。
AMD Ryzen AI の NPUが動いているところを見る*3にはどうすればよいか。いくつか方法はあるだろうが、ここでのお勧めは Amuse。
これはAMD が公式にスポーンサードする画像生成AIのランチャーであり、ちゃんと NPU(XDNA) を使ってくれるはず。なにしろダウンロードボタンに "with AMD XDNA™ Super Resolution" と書いてあるくらい。
これをダウンロード&インストールして実行、さらにモデルもダウンロードして画像を生成。
あらかじめ開いておいたタスクマネージャを確認すると、確かにNPUを使っていた。ちょっぴり。ささやか。
Amuze は 1024x1024 の画像生成では NPUを使わず、縦横倍の2048x2048に拡大する処理(一瞬)で NPU を使う。そういえば、ダウンロードボタンに "with AMD XDNA™ Super Resolution" (超解像) って書いてあったわー。嘘はついてない。ただ、このささやかさをダウンロードボタンに記載してまでアピールしてるのか、と思うと感慨深い。
こうして Ryzen AI の NPU を使わせることに成功して大満足……とはならんやろう、さすがに。もうちょっとちゃんと使ってほしい。
実は Amuse はモデルを選べばちゃんと NPU を使ってくれる。手順は次の通り。
- Amuseのウィンドウの左下にコッソリある "Expert" の文字をクリックして、上級者モードに切り替える
- 画面の上の Model Manager タブを開いて、Tag に NPU を選ぶと、StableDiffution XL Turboというモデルが1つだけヒットするのでこれをダウンロード
- Image Generation タブを開いて、今ダウンロードしたStableDiffution XL Turboを選び、Variant に RyzenAI を選んでから(重要!)、Loadボタンを押す
- 適当なプロンプトを入力、Generate ボタンを押して画像生成。このモデルが生成する画像は 512x512 ですぐ生成完了する。Inference Steps を増やすと、計算時間を増やせる。ただし画像の質が上がるわけではない。
この手順で実行すると画像生成にNPUが用いられて、パフォーマンスモニタで以下のようなグラフが得られる。そうそう、見たかったのはこれ!
Variant(実装の種類?)を Default のまま Load すると、同じモデルで GPU を使って生成する。ただし実装の違いからか、量子化の違いからか、同じプロンプト&シードでも微妙に生成画像が異なる。
また Inference Steps = 4 での Compute Time を比べると、GPU 1.3s に対し、NPU 1.7s と NPU のほうが遅い。
一瞬納得しそうになるが、よく考えるとおかしい。Ryzen AI 9 HX 370 のカタログスペックでは、NPU のAI計算性能は 50TOPS、チップセット全体だと 80TOPS となっている。つまり GPU はたかだか 30TOPS であり、数字通りなら NPU のほうが速いはず。これが NPU の不得意な計算とはさすがに思えないので、やはり NPU(XDNA / XDNA2) のソフトウェアの整備が進んでないせいなのだろう(それ以外の理由だったらむしろ困惑する)。
せめてワットパフォーマンスが良いことを期待したいが、手元にそれを測る機械がないので残念ながら不明。
「NPUを使わせる」が目的なら、AMDよりもQualcommのほうがやはり一日の長がありそうだ。AMDももうちょっと頑張ってほしいが、Ryzen AI Softwareを見る限り、早くてももう2年はかかりそうだなあ……。