Wan2.2の改良点解説およびモデルの種類と使い分け

WanはAlibabaのチームが開発した動画生成AIで、高画質、高速生成、そして高い表現力を兼ね備えています。Wan2.2はモーション表現やカメラワークの指定が改善され、720pのHD解像度で滑らかな動画を短時間で出力でき、さらに無料でカスタマイズも可能です。趣味で動画を作成したい方はもちろん、より高度な映像求めるクリエイターの方にとっても魅力的なツールになるかもしれません。今後は1080p対応や。高フレームレート(30fps)強化も予定されているようです。

主な改良点

Wan 2.2では、主に以下の3つの点で大幅なパワーアップが図られています。

  • 高画質化:標準解像度として720pの安定した出力が可能になりました。これにより、HD画質でも細部が潰れにくく、よりクリアな動画が生成できます。
  • モーションの滑らかさと生成速度の両立:MoE(Mixture-of-Experts)の2段階ネットワークを最適化することで、モーションの滑らかさと生成速度の両立を実現しました。RTX 3090を使用した場合、5秒の720p動画を約2分で生成できるとされています。
  • 照明や色彩の再現性向上:学習データを大幅に増やし、ラベルの充実化を図ったことで、照明や色彩の再現性がワンランク向上しました。これにより、より豊かな表現が可能になっています。

その他のポイント

  • セマンティクス(意味)の解像度の高さ:複雑なプロンプトや複数の被写体を同時に指定しても、破綻しにくい高いセマンティックな理解度を持っています。例えば、「ドローンで夜のパリをシネマティックに」といった指示にも対応可能です。
  • モーションの自然さ:フレーム間の一貫性が向上し、髪の揺れや指先の動きまで滑らかに表現されます。従来のモデルと比較して、ブレやフリッカーが大幅に低減されています。
  • シネマティックな美学制御:学習時に照明や色調のラベルが埋め込まれているため、逆光やフレアといった映画用語を直接プロンプトに含めることで、意図通りの絵作りが可能です。
  • LoRA微調整の容易さ:LoRA(Low-Rank Adaptation)による微調整が容易であり、Wan 2.1用に作成されたLoRAも比較的流用しやすいとされています。これにより、キャラクター特化などのカスタマイズがしやすくなっています。
  • 推論時のオフロード機能:ComfyUIのテンプレートがリリース時から対応しており、GPU 8GB、RAM 16GBの環境でも5Bモデルが動作可能です。これにより、より多くのユーザーがローカル環境で高品質な動画生成を試すことができます。
  • MoE (Mixture-of-Experts) アーキテクチャ:拡散モデルをベースに、高ノイズ段階と低ノイズ段階の2人3脚で生成を進めるMoE構造を採用しています。これによ り、粗いレイアウトと細部の仕上げを分担し、品質を向上させつつ計算量を抑えています。
  • 高圧縮VAEによるVRAM使用量の削減:高圧縮VAEを組み合わせることで、720p動画でもVRAM 8GBで動作可能となっています。これにより、より多くのユーザーがローカル環境でWan 2.2を利用できるようになりました。

モデルの種類と使い分け

Wan 2.2には、用途に応じて3種類のモデルが用意されています。14Bモデルは生成に時間がかかりますが品質は高いです。高速生成が可能な5Bモデルであっても、品質は十分かもしれません。

  • T2V 14B (Text-to-Video 14 Billion)
    テキスト入力専用のモデルで、高品質な動画生成に適しています。
  • I2V 14B (Image-to-Video 14 Billion)
    画像入力専用のモデルで、高品質な動画生成に適しています。
  • TI2V 5B (Text-to-Image-to-Video 5 Billion)
    テキストと画像の両方に対応する軽量版モデルです。14Bモデルと比較して生成速度が速く、消費メモリも少ないため、手軽に試したい場合やスペックが限られている環境に適しています。

ComfyUIでの利用方法

Wan 2.2は人気のノードベースUIであるComfyUIに対応しており、リリース当日から誰でも使えるワークフロー(処理の組み合わせテンプレート)が提供されていますので、すぐに試せる状態になっています。ComfyUIでのセットアップ方法は、公式ドキュメントに詳しく記載されており、ワークフローファイルもダウンロードして利用できます。
Google Colab環境でも利用可能ですが……、14BモデルのText-to-Videoだとかなり時間がかかるかもしれませんので、5Bモデルの方が使い勝手がいいと思います。

Previous Post