拡散モデル
拡散モデル(Diffusion Models)は、深層学習モデルの一種で、高品質な画像を生成できることで知られている。Stable DiffusionやDALL・E 2などに採用されている。しかし実際には、画像だけでなく音声・動画・3Dモデルなど、さまざまな分野の生成にも応用されている。
基本的な仕組みは、まず元のデータに少しずつノイズを加えていく「拡散過程(forward process)」を通じて、元データをガウス分布に従うランダムノイズへと変換する。その後、学習済みモデルを用いて、そのノイズから少しずつノイズを取り除く「逆拡散過程(reverse process)」を経ることで、新しいデータを生成する。この逆拡散過程では、テキストなどの条件を与えることで、純粋なノイズから直接、まったく新しい画像や映像を生成することができる。
拡散モデルには、スコアベースモデルや拡散確率モデル、特定の条件を与える条件付き拡散モデルなどがある。高品質な画像生成が可能なGAN(Generative Adversarial Networks)と比較すると、拡散モデルは段階的な生成プロセスに基づくため、訓練が比較的安定しており、モード崩壊(生成結果の多様性が失われる現象)も起きにくいという利点がある。一方で、ノイズの付与と除去を数百〜数千回繰り返す必要があるため、GANに比べて生成速度が遅く、計算コストが高いという課題も指摘されている。
この記事を社内で共有し、課題解決のヒントにお役立てください
お客様マイページの「連絡ボード」機能を使って、同じ会社のメンバーと簡単にこのページを共有できます。社内で情報を共有し、組織全体の課題解決や業務効率の向上にお役立てください。
社内のメンバーに共有する(企業で共有する)
- (注)連絡ボードを利用するには企業設定が必要です。