DINOv3とは?SSLを用いた次世代の画像基盤モデル
Meta AIが開発したDINOv3は、自己教師あり学習(SSL)を用いた次世代の画像基盤モデルです。特定のタスクに特化せず、画像分類、物体検出、セグメンテーション、深度推定など、多様な視覚タスクに対してファインチューニングなしで高い性能を発揮することを目指しています。
背景と目的
従来のコンピュータビジョンは、人間が正解ラベルを付けたデータで学習する「教師あり学習」が主流でしたが、ラベル付けには膨大なコストがかかるという課題がありました。そこで、ラベルなしのデータから画像そのものの特徴を学習する「自己教師あり学習(SSL)」が注目されるようになりました。DINOv3は、このSSLを発展させ、膨大な画像データから汎用的な特徴を学習した単一の「基盤モデル」を構築し、それを様々な応用タスクに再利用することを目的としています。
特徴
DINOv3は、セマンティックセグメンテーションや深度推定、物体検出など、幅広いベンチマークで既存のモデルを上回る最高水準(SOTA)の性能を達成しています。前身のDINOv2からモデルとデータセットの規模を大幅に拡大(70億パラメータ、17億枚の画像)し、新たな技術を導入することで性能を向上させています。
- 高解像度・高密度特徴量の実現
画像全体の意味(グローバル特徴)と、物体の境界や質感などの詳細情報(ローカル特徴)の両方を高い品質で捉えることができます。これは特にセグメンテーションのようなピクセル単位の精度が求められるタスクで強力です。 - 学習手法の組み合わせ
画像全体の特徴を捉える「DINO」と、画像の一部を隠して予測させることで局所的な特徴を学習する「iBOT」という2つのSSL手法を組み合わせ、包括的な視覚理解を可能にしています。 - Gramアンカリング (Gram Anchoring)
DINOv3における最も重要な技術革新です。大規模モデルを長時間学習させると、画像 全体の認識性能は上がる一方で、局所的な特徴の品質が劣化する問題がありました。「Gramアンカリング」は、学習途中の安定した教師モデルが持つ「パッチ間の特徴の関係性(Gram行列)」を参照し、学習中もその関係性を維持するように制約をかけます。これにより、ローカル特徴の品質劣化を防ぎ、グローバルとローカル両方の特徴を高いレベルで両立させます。 - 大規模データセットと知識蒸留
17億枚にも及ぶ大規模で多様なデータセットを構築して学習に利用しています。そして、学習させた70億パラメータの巨大モデルの知識を、より小規模で扱いやすいモデル群(DINOv3ファミリー)に圧縮(知識蒸留)することで、様々な環境で利用できるようにしています。 - ポストホック戦略
学習後にモデルの汎用性をさらに高める戦略も採用しています。学習の最終段階で高解像度画像を追加学習させる「高解像度適応」や、画像の特徴をテキストと結びつける「テキストアライメント」により、ゼロショット分類(未知のクラスをテキスト指示で分類する)などを可能にしました。

応用
GitHubやHugging Faceで事前学習済みモデルが公開されており、研究者や開発者が容易に利用できるようになっています。応用先は一般的な画像タスクにとどまらず、衛星画像データの解析など専門的なドメインにも広がっています。一方で、大規模モデルの学習に伴う環境負荷(カーボンフットプリント)といった倫理的な課題も指摘されています。