生成AIのしくみ <流れ>が画像・音声・動画をつくる

このサイトは「生成AIのしくみ <流れ>が画像・音声・動画をつくる」に関する情報、訂正情報などを掲載します。誤りやコメントがありましたらサポートメール宛に送っていただけたら幸いです。

書誌情報 #

流れ本書影

”水面に書いたインク文字が広がっていく過程を逆向きに再生できれば文字が浮かび上がる――〈流れ〉が生成AIの核心となるアイデアだ。高次元空間とはどんな世界なのか、拡散モデルなどの流れの数理はどのように生成AIを実現したのか。AI実装で先端を行く著者が、数式ではなく言葉で、重要な概念の意味を伝える画期的入門書!”（出版社紹介文より）

タイトル：生成AIのしくみ: 〈流れ〉が画像・音声・動画をつくる -
著者：岡野原　大輔
出版社：岩波書店
刊行日：2024/12/18
ページ数：144ページ
出版社ページ
Amazon / 楽天ブックス / honto / 紀伊国屋書店
試し読み（目次 + 序章10ページ）

お知らせ #

2024/12/19 参考文献情報を更新しました
2024/11/11 サポートページを公開しました。

誤植情報 #

（紙版中のページ番号です。版によって修正済みの場合があります。）

参考文献 #

本書で解説している技術、より深く知りたい方向けに参考文献を上げておきます。ここでは代表的な文献（例えば初出の論文）のみをあげていますので、最新を知りたい方はそこからさらに参考文献を辿ってみてください。

拡散モデル, 岩波書店, 2023 link

ディープラーニングの基本などは以下の拙著でも解説されています

ディープラーニングを支える技術1/2, 技術評論社, 2022 link
AI技術の最前線, 日経BP, 2022 link
生成AIのしくみと数理, 数理科学, 2024 link
- 専門家向けにエネルギーベースモデル, ボルツマンマシン, ホップフィールドネットワーク, 拡散モデル, また本書でとりあげなかった非平衡熱力学などとの接点も詳しく解説している。

2章の参考文献 #

“Learning Process in a Model of Associative Memory”, N. Kaoru, Pattern Recognition and Machine Learning. pp. 172–186. 1971 link
“Learning patterns and pattern sequences by self-organizing nets of threshold elements”. IEEE Transactions", S. Amari, IEEE Transactions, 1197-1206 link
- 上記２つの論文はイジングモデルの重みをヘブ則同様の更新則によって連想記憶を実現する例（後者はRNN）ホップフィールドネットワークの最初の例
“Neural networks and physical systems with emergent collective computational abilities”. J. J. Hopfield, Proceedings of the National Academy of Sciences, 79 (8): 2554–2558, 1982. link
- 連想記憶を実現したいわゆる"Hopfield Network"を提案。必ずしもイジングモデルとヘブ則に基づく学習の最初の提案ではないが、本質的なモデル化を与え、多数の物理学者が関連研究に参加するきっかけともなった。2024年のノーベル賞につながる
“Hopfield Networks is All You Need”, H. Ramsauer and et al., ICLR 2021 link
- ホップフィールドネットワークを改良。記憶に利用するエネルギー関数で非線形性を大きく記憶容量を大きくし、また連続状態を導入。現在のニューラルネットワークの枠組みで学習可能にするなど、Modern Hopfield networkの先駆け
“How to Train You Energy-Based Model”, Y. Song and D. P. Kingma, arXiv:2101.03288 link
- エネルギーベースモデルのチュートリアルおよび最近の学習手法のまとめ。手法は古いが2006年のLecunのチュートリアル linkも参考になる
“MCMC using Hamiltonian dynamics”, R. M. Neal, link
- ランジュバンダイナミクスによるサンプリングも含めたハミルトニアンダイナミクスを使ったサンプリング法の解説。
“Bayesian Learning via Stochastic Gradient Langevin Dynamics”, M. Welling, Y. W. Teh, ICML 2011 link
- ランジュバンダイナミクスを使って目標分布からのサンプリングをする手法。これ以降機械学習分野で多く使われるようになった。
“The Helmholtz Machine”, P. Dayan, G. E Hinton, R. and R. S. Zemel, Neural Computation 7, 1022-1037, 1995 link
- 潜在変数モデルにおいて、潜在変数を推定する認識モデルと、潜在変数からデータを生成する生成モデルを交互に学習するモデル。後のVAEなどにつながる
“Auto-Encoding Variational Bayes”, D. P. Kingma, M. Welling, ICLR 2014 link
- 潜在変数モデルを発展させVAE（変分自己符号化器）を提唱。変分ベイズによる学習目標を元に潜在変数モデルの認識モデルと生成モデルを同時に学習する。初めて手書き数字や正面からの顔画像などの学習に成功
“Generative Adversarial Networks”, I. J. Goodefloow and et al., NIPS 2014 link
- 生成モデルと識別モデルを競合させることによって学習を進める。初期に画像生成の成功を達成した

3章の参考文献 #

“流体力学超入門”, エリック・ラウガ, 2023 link
- 流体の重要な概念を高校数学レベルで解説してくれる。なお、現在の生成モデルで扱う流体は圧縮性があり境界面がないが非常に高次元な空間を流れるという特徴を持った流体とみなせる。
“NICE: Non-linear Independent Components Estimation”, L. Dinh, D. Krueger, Y. Bengio, arXiv:1410.8516 link
- 流れを使った生成モデルである正規化フローの最初期の論文。可逆変換によって事前分布を目標分布に変換し学習していく。
- “Iterative Gaussianization: From ICA to Random Rotations”, V. Laparra, IEEE. Transaction on Neural Networks 2011 link も最初の考えとみられる
“Neural Ordinary Differential Equations”, R. T. Q. Chen and et al., NeurIPS 2018 link
- 正規化フローの変換単位を細かくし、流れによって確率分布を変換していく連続正規化フローを提案。流れを使った生成モデルが最初に定式化された論文とされる。学習には流れ全体のシミュレーションが必要

4章の参考文献 #

“Deep Unsupervised Learning using Nonequilibrium Thermodynamics”, J. Sohl-Dickstein and et al, ICML 2015 link
- 拡散モデルの最初の論文。非平衡熱力学から導出し、拡散過程に基づく潜在変数モデルの変分下限最大化によって学習する。学習には拡散過程全体が必要
“Denoising Diffusion Probabilistic Models”, J. Ho and et al., NeurIPS 2020 link
- 拡散モデルの学習問題が、スコアベースドモデルの学習と同じであり、各時刻のスコアを推定すればよいことを示すとともに、モデルの工夫を行うことで拡散モデルでも高品質な生成が可能であることを示した
“Score-Based Generative Modeling through Stochastic Differential Equations”, Y. Song and et al., ICLR 2021 link
- 拡散モデルの拡散過程を連続化することで流れによって生成することを示した。これにより流れによる生成と拡散モデルが統一化される。
“A connection between score matching and denoising autoencoders. Neural computation”, P. Vincent , Neural Computation, 2011 link
- デノイジングスコアマッチングによってスコア（対数確率の勾配）が推定できることを示した論文
- この式自体は1956年に発見されたTweedieの公式の1種とみなすことができる近年の解説
“Flow Matching for Generative Modeling”, Y. Lipman and et al., ICLR 2023 link
- 基本単位の流れを束ねて、任意の分布から目標分布までの流れを学習することができる。基本単位として最適輸送を使った手法が広く使われる
“Optimal transport, old and new”, C´edric Villani, 2012 link
- 最適輸送について最も有名な教科書の一つであり体系的に学べるが量が多すぎるのと高度であるのでざっと知りたい場合は次の本がよい
“最適輸送の理論とアルゴリズム” 佐藤, 2023 link
- 最適輸送に関する解説および、それを求めるアルゴリズムについて詳しく丁寧にかかれている
“Flow Matching on General Geometries”, R. T. Q Chen and Y. Lipman, ICLR 2024 link
- フローマッチングを拡張し、リーマン空間など任意の多様体上のフローマッチングを実現し、その生成モデルを学習できる

5章 #

“Generalization in diffusion models arises from geometry-adaptive harmonic representations”, Z. Kadkhodaie, ICLR 2024 link
- 拡散モデルによる学習がおこす汎化の例。学習データを分割しそれぞれから学習しても、ほぼ同じ生成分布を持つぐらい強い機能バイアスを持つ。デノイジングを学習する際に幾何適応調和基底上で縮小推定しているため
“Equivariant Diffusion for Molecule Generation in 3D”, E. Hoogeboom and et al., ICML 2022, link
- 拡散モデルを使って対称性（E(3)）を持った3次元配座生成。流れを使った生成の場合、事前分布が対称変換に対し不変、流れが変換に対して同変であれば確率は対称変換に対して不変になる
“Energy Transformer”, B. Hoover and et al., NeurIPS 2024 link
- Transformerとよく似た計算式がエネルギーの最小化問題として得られる。流れを使って計算におけるデータの流れが実現される
“Diffusion Models for Black-Box Optimization”, S. Krishnamoorthy and et al., ICML 2023, link
- 拡散モデルを使って希望する最適な解からそれを実現する入力を推定する問題を解く。様々な問題で事前学習しておき、新しいブラックボックス最適化問題を解くことを目指す

目次 #

まえがき
1　生成ＡＩを作る
- 生成ＡＩとは
- 指示や条件に従って生成させる
- これまで生成が難しかったデータを生成できる
- ルールベースから機械学習へ
- 生成タスクはとりわけ難しい機械学習問題
- データ生成は広大な海の中で島を見つけるようなタスク
- 広大で奇妙な高次元空間
- 生成において正解の出力は1つだけではない
- 多様体仮説──データは低次元に埋め込まれている
- 対称性──データには変換に対する不変性がある
- 構成性──データは多くの部品の組み合わせで成り立っている
- コラム：データがもつ特性は人が与えるのか、自ら学習するのか
- まとめ
2　生成ＡＩの歴史
- 記憶のしくみ
- イジングモデルからホップフィールドネットワークへ　
- エネルギーベースモデルとは
- エネルギーベースモデルは連想記憶を自然に実現する
- エネルギーと確率との対応：ボルツマン分布
- ランジュバン・モンテカルロ法の原理
- エネルギーベースモデルの致命的な問題
- コラム：現実世界は超巨大なシミュレーター
- 空間全体の情報を支配する分配関数と状態和
- データは隠れた情報から生成されている
- 生成するためには認識が必要
- 変分自己符号化器（ＶＡＥ）
- 潜在変数モデルの問題
- コラム：敵対的生成ネットワーク（ＧＡＮ）
- コラム：自己回帰モデル
- コラ厶：ノーベル賞２０２４年
- まとめ　
3　流れをつかった生成
- 流れとは
- 連続の式──物質は急に消えたりワープしない
- 流れをつかって複雑な確率分布を作り出す
- 流れをつかったモデルは分配関数や状態和を求める必要がない
- 正規化フロー・連続正規化フロー
- 流れをたどって尤度を求め、それを最大化するよう学習する
- 流れに沿ってデータを生成する
- 流れは複雑な生成問題を簡単な部分生成問題に分解する
- 流れをモデル化する
- 流れの結果の計算
- 正規化フローの課題
- まとめ
4　拡散モデルとフローマッチング
- 拡散モデルの発見 -　一般の拡散現象
- コラム：ブラウン運動
- 拡散モデルとは
- 拡散過程が生み出す流れ＝スコア
- スコアとエネルギーとの関係
- 時間と共にスコアは変化していく
- デノイジングスコアマッチング
- シミュレーション・フリーな学習は学習の一部分を取り出す
- 拡散モデルによる学習と生成のまとめ
- 拡散モデルによって生み出される流れの特徴
- 拡散モデルと潜在変数モデルの関係
- データ生成の系統樹を自動的に学習する
- 拡散モデルはエネルギーベースモデルである
- 拡散モデルは流れをつかった生成モデルである
- フローマッチング：流れを束ねて複雑な流れを作る
- 最適輸送とは
- 最適輸送をつかった生成
- 最適輸送を直接求めるのは計算量が大きすぎる
- フローマッチングの学習
- フローマッチングの発展
- 条件付き生成は条件付き流れで実現
- 潜在拡散モデル──元データを潜在空間に変換して品質を改善
- まとめ
5　流れをつかった技術の今後
- 汎化をめぐる謎の解明
- 対称性を考慮した生成
- 注意機構と流れ
- 流れによる数値最適化
- 言語のような離散データの生成
- 脳内の計算機構との接点
- 流れによる生成の未来
付録　機械学習のキーワード
- 確率と生成モデル
- 最尤法
- 機械学習
- 機械学習のしくみ
- パラメータの調整＝学習
- ニューラルネットワーク
- 有限の学習データから無限のデータに適用可能なルールを獲得する汎化