大規模言語モデルは新たな知能か サポートページ

このサイトは「大規模言語モデルは新たな知能か」に関する情報、訂正情報などを掲載します。誤りやコメントがありましたら サポートメール宛に送っていただけたら幸いです。

書誌情報 #

大規模言語モデル 書影

”対話型サービスChatGPTは驚きをもって迎えられ、IT企業間で類似サービスをめぐる激しい開発競争が起こりつつある。それらを支える大規模言語モデルとはどのような仕組みなのか。何が可能となり、どんな影響が考えられるのか。人の言語獲得の謎も解き明かすのか。新たな知能の正負両面をみつめ、今後の付き合い方を考える。”(出版社紹介文より)

お知らせ #

  • 2023/10/14 書評を加えました。
  • 2023/6/24 参考文献を加えました
  • 2022/6/3 サポートページを公開しました。

参考資料 #

  • 統計数理シンポジウム 2023での講演 -生成モデルは世界をどのように理解しているのか
    • 資料 動画
    • 4章と6章の内容の一部を紹介しています

誤植情報 #

(紙版中のページ番号です。版によって修正済みの場合があります。)

  • P.72 MMUL -> MMLU (Multi Multitask Language Understanding)

参考文献 #

本書で大規模言語モデルの技術について述べている4~6章について、より深く知りたい方向けに参考文献を上げておきます。ここでは代表的な文献(例えば初出の論文)のみをあげていますので、最新を知りたい方はそこからさらに参考文献を辿ってみてください。

また多くの話題は以下の拙著でも解説されていますので参考にしてください

  • ディープラーニングを支える技術1/2, 技術評論社, 2022 link
  • AI技術の最前線, 日経BP, 2022 link

4章の参考文献 #

  • “A Mathematical Theory of Communication”, C. E. Shannon, The Bell Sytem Technical Journal 1948, link
    • 情報理論をうちたてた論文。情報源が英語の場合の例として言語モデルが既に登場している
  • “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”, J. Devlin and et al., NAACL 2019 link
    • Transformerを使って単語穴埋め問題を解くことで言語理解の事前学習ができるという例。自然言語処理の大規模事前言語学習の幕開けとなる。
    • 言語モデルとは違って生成することはできず、後続タスクを解ける良い特徴獲得が目標
  • “UL2: Unifying Language Learning Paradigms”, Yi Tay and et al., ICLR 2023 link
    • 自己教師あり学習という目的のためには次の単語予測だけでなく、双方向から見た時の穴埋めや段落補完の方も同時に行うのが効果的であると示す。PaLM2などにも使われている。

5章の参考文献 #

  • “Language Models are Few-Shot Learners”, T. B. Brown and et al., arXiv:2005.14165 link
    • GPT-3についての論文。最初の大規模言語モデルといってよい。ゼロショット学習能力についても言及。
  • “Scaling Laws for Neural Language Models”, J. Kaplan and et al., arXiv:2001.08361 link
    • 言語モデルのべき乗則について初めて言及
  • “Scaling Laws for Autoregressive Generative Modeling”, T. Henighan and et al., arXiv:201014701 link
    • 言語に限らず、広いモーダルについての自己回帰モデルのべき乗則についての言及
  • “Understanding deep learning requires rethinking generalization”, C. Zhang and et l., ICLR 2017 link
    • ニューラルネットワークを勾配降下法で学習した場合、大きなモデルであっても汎化性能が高く、通常の汎化理論と異なる現象がおきていることを初めて言及した論文。
    • 常識と違うため、採択後も懐疑的な意見や反対意見が多く示された(現在では認められているのが主流と著者は認識)
    • NNの汎化については「ディープラーニングを支える技術2」で詳しく解説している
  • “PaLM: Scaling Language Modeling with Pathways”, A. Chowdhery and et al, 2022 link
    • Googleの大規模言語モデルであるPaLM。これ以降GPT-4, PaLM2も技術詳細は公開されなくなったため、(300B以上のパラメータ数を持つ)大規模言語モデルの技術詳細を述べた最後の論文
  • “GPT-4 Technical Report”, OpenAI, arXiv:2303.08774 link
    • GPT-4について。技術詳細は公開されなくなったが、データ設計、実験、考察などは豊富
    • 公式発表はないが、モデルは異なるデータ/タスク毎に分割してそれぞれ学習した8 * 220B(合計1.7T)ではないかと複数の証言 link。投入計算規模は到達精度等から3e25 FLOP程度でないかとみられる。
  • “PaLM2 Technical Report”, Google, arXiv:2305.10403 link
    • PaLM2について。技術詳細は公開されなくなったが、新しいスケーリング則(チンチラ則)に基づき学習データ量の割合を増やし、モデルを前世代より小さくしている
    • 3.6Tトークン、340Bパラメータ、7.3e24 FLOPではないかとみられる link
    • 自己回帰以外の目的関数(UL2)を導入し、性能改善していることを紹介。
  • “The Bitter Lesson”, R. Sutton link
    • AIの研究は計算能力を活かした汎用的AIが勝つということについて
  • “Do we still need models of just more data and compute”, M. Welling link
    • 上記の"Bitter Lesson"に対する返答として。データから学習し尽くした先について
  • “Emergent Abilities of Large Language Models”, J. Wei and et al., TMLR 2022, link
    • 学習規模を大きくすると非連続的に後続タスクが急に解けるようになるというEmergent(創発)について初めて言及した研究
  • “The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks”, J. Frankle and et al., ICLR 2018 link
    • 宝くじ仮説について初めて言及した研究。この後、仮説を検証したり発展したり多くの後続研究があるのでこの内容をそのまま受け取らないように注意。
  • “A Theory of Emergent In-Context Learning as Implicit Structure Induction”, M. Hahn and et al., arXiv:2303.07971 link
    • 言語やプログラムのように構成性を持つデータを対象にした予測は、その背後にある文法(compositional attribution grammer等)を獲得できた時に非連続的に予測性能があがり創発を説明できるのではという研究
  • “Physics of Language Models: Part 1, Context-Free Grammar”, Z. Allen-Zhu and et al., arXiv:2305.13673 link
    • Transformerを使った言語モデルがCFGなどもほぼ正確に学習、またそれに基づき生成でき、多少壊れていても扱えるという理論的考察
  • “Distilling the Knowledge in a Neural Network”, G. Hinton and et al., 2015 link
    • モデル圧縮をする蒸留について初めて言及した研究
  • “Training language models to follow instructions with human feedback”, L. Ouyang and et al., link, NeurIPS 2022
    • RLHF: 人間フィードバックによる強化学習(本文中では目標駆動型学習)を使った言語モデルのアライメントについての研究。この後教師あり学習フィードバックなど多くの変種がある

6章の参考文献 #

  • “Neural Machine Translation by Jointly Leanring to Align and Translate”, D. Bahdanau and et al, ICLR 2015 link
    • 注意機構を初めて導入した研究。Memory Networkなどキーとクエリで情報を集めてくる仕組みは既にあったがそれを系列に導入した。
  • “Attention is All You Need”, A. Vaswani and et al, NeurIPS 2017 link
    • Transformerを初めて導入した研究。当初は遠く離れた位置にある情報を1ステップで収集できる部分に注目していたが、汎用性、重みを仮想的に適応できる能力、ハードウェアとの相性など多くの利点があり、今は言語だけでなく画像、動画、音声など広い処理に標準的に使われている。
    • またこの論文の ver2だけのAppendixにMLPブロックが記憶に対応することが書かれている。(これ自体は、その後多くの論文で再発見されている)
    • 余談だが、この論文で有名になった著者8人中7人は会社を去り、新しい会社を立ち上げたりしている link
  • “What Can Transformers Learn In-Context? A Case Study of Simple Function Classes”, S. Garg and et al., NeurIPS 2022 link
    • 本文中学習がTransformerによってどのように発生しているかについて、簡単な関数の場合での考察
  • “Transformers learn in-context by gradient descent”, J. Oswald and et al., arXiv:2212.07677 link
    • 本文中学習は自己注意機構による重みの仮想的な適応によって実現されていることを言及した論文
  • “Trained Transformers Learn Linear Models In-Context”, R. Zhang and et al., arXiv:2306.09927 link
    • 事前学習時の勾配降下法によって本文中学習ができるような最適解をみつけられることを理論的に証明

書評 #

本書の書評を以下でいただきました(把握している範囲のみです)

  • 日本経済新聞 2023年8月26日付(今井むつみ氏評)
  • 信濃毎日新聞 2023年9月2日付
  • 読売新聞 2023年9月3日付(西成活裕氏評)
  • 朝日新聞 2023年9月9日付(石原安野氏)
  • アエラ 2023年10月16日号(福岡伸一氏評)
  • 週刊ダイヤモンド 2023年10月7・14日号(瀬名秀明氏評)

目次 #

  • 序章 チャットGPTがもたらした衝撃
    • 登場から二カ月で月間一億人が利用するサービスに
    • 大規模言語モデルはこれまでにない汎用サービスを実現する
    • 生活や社会を変えうる
    • 社会への脅威となりうる
    • 言語獲得の謎は解けるのか
    • 新しい知能との付き合い方
  • 1章 大規模言語モデルはどんなことを可能にするだろうか
    • 文書の校正・要約・翻訳
    • プログラミングのサポート
    • ウェブ検索エンジンの上位互換
    • 言語を使った作品を作る
    • 言語以外を使った作品を作る
    • カウンセリング、コーチング
    • 学習のサポート
    • 高度な専門性が必要な仕事のサポート
    • 人にやさしいインターフェース
    • 科学研究の加速
    • 演繹的なアプローチと帰納的なアプローチの融合
  • 2章 巨大なリスクと課題
    • 情報の信憑性――幻覚
    • 幻覚の解決は簡単ではない
    • 誤った情報の拡散
    • プライベートな領域に入り込む
    • 価値観や偏見の扱い方
    • 本人であることの証明が難しくなる
    • 変わる仕事、残る仕事
    • AIの補助で仕事の構造が変わっていく
    • 大規模言語モデルの開発が一部に独占される
  • 3章 機械はなぜ人のように話せないのか
    • 人は言語をどのように獲得し、運用しているのか
    • 私たちは言語をいつのまにか獲得している
    • 自然言語処理と機械学習
    • これまでの機械学習では言語獲得・運用は難しかった
  • 4章 シャノンの情報理論から大規模言語モデル登場前夜まで
    • 意味をなくし確率を使って情報を表わす――革命的だったシャノンの情報理論
    • どの文がもっともらしいか――言語モデル
    • 言語モデルは言語を生成することができる
    • 消された単語を予測することで言語理解の能力を獲得する
    • 多様な訓練データをタダでいくらでも入手できる自己教師あり学習
    • 問題の背後にある法則やルールを理解できるか――汎化
    • 実験結果は言語モデルが意味や構造を理解していることを示唆する
    • 言語モデルは文の意味を理解し、かつ文も生成できる
    • 《コラム》圧縮器としての言語モデル
    • データを生成できるモデルの発展
    • 《コラム》人も言語モデルから学習しているのか
  • 5章 大規模言語モデルの登場
    • 限界への挑戦
    • 言語モデルの「べき乗則」の発見
    • データと計算力があれば知能が獲得できる
    • モデルを大きくすると問題が急に解けるようになる
    • 《コラム》普遍文法と現在の大規模言語モデル
    • 大規模化はどこまで進むのか
    • 《コラム》人の脳とAI
    • プロンプトで変わるAIの使い方
    • AIを使った開発は誰でもできるようになる
    • 人によるフィードバックを与える
  • 6章 大規模言語モデルはどのように動いているのか
    • ニューラルネットワークの進化
    • ニューラルネットワークの学習――誤差逆伝播法
    • 汎化――未知のデータの予測へ
    • ディープラーニングの登場
    • 《コラム》アレックスネット開発の裏側
    • なぜディープラーニングはここまで成功したのか
    • 《コラム》モデルサイズと汎化の謎
    • データの流れ方を学習し、短期記憶を実現する注意機構
    • 大規模言語モデルを実現したトランスフォーマー
    • 指示を受け、その場で適応していく本文中学習
    • 人間に寄り添う生成のための目標駆動学習
    • チャットGPTでの矯正法
  • 終章 人は人以外の知能とどのように付き合うのか
    • 道具としての大規模言語モデル
    • 間違いもするし、自分と考え方も違う人のように付き合う
    • 人はこうしたツールを飼いならせるのか
    • コンピュータ将棋、囲碁のケース
    • 人間自身の理解へ
  • あとがき