生成型AIの時代において、OpenAI、Google、Anthropicなどの大手企業のモデルはほぼ全ての公開データを使い尽くしています。しかし、オックスフォード大学と複数の機関による研究によれば、2026年から2028年までに人間がAIに提供できる高品質な公開データは尽きる見込みです。ネットがAI生成コンテンツに溢れかえった時、新しいモデルは必然的にAIによって生成されたデータで自らを訓練しなければなりません。この自己参照のプロセスは、まるでAIの近親交配のようです。
2026年に人類が生成したデータは、AIによって学習され尽くされる。
オックスフォード大学、ケンブリッジ大学および多くの研究機関が2024年4月に発表した論文〈再帰の呪い: 生成データでのトレーニングはモデルを忘れさせる〉がこの現象を明らかにしています。
彼らは次のことを発見しました:生成モデルが自ら生成したデータを繰り返し使用してトレーニングを行うと、理想的な条件下でも、モデルは現実を徐々に忘れ、最終的には劣化に陥ることがあると。研究チームは、言語モデル、変分オートエンコーダー(VAE)、ガウス混合モデル(GMM)など、さまざまなアーキテクチャで実験した結果、再トレーニングするたびにコピー機がコピーを再印刷するようなものであると指摘しました:細部は徐々に消失し、珍しいイベントが最初に忘れられます。数世代後、モデルは平均値と主流の姿しか残らず、最終的には平凡で単一、さらには間違ったものになる。
このプロセスは、モデル自身が引き起こすデータ中毒(自己中毒)のようなものです。最終的な結果は、モデルが言語と現実を理解できなくなり、出力が繰り返しの無意味な言葉になってしまうことです。
スタンフォード論文:リアルデータの継続的な参加があれば、AIは崩壊しない
しかし、2024年4月にスタンフォード大学とコンステレーションチームが発表した論文〈モデル崩壊は避けられないのか?リアルデータと合成データを蓄積することで再帰の呪いを打破する〉は、より楽観的な回答をもたらしました。彼らはオックスフォードチームの実験を再現しましたが、新しいトレーニング戦略を提案しました:データを置き換えるのではなく蓄積させるということです。言い換えれば、新世代のAIは古い人間データを捨てるのではなく、人間とAI生成のコンテンツを継続的に重ねて融合させるのです。
結果は、毎回の訓練で新しい合成データが古いデータに置き換えられると、モデルのパフォーマンスが線形に悪化することを示しています。しかし、元のデータを保持し続けると、モデルの誤差は徐々に安定し、さらには悪化が止まることがあります。彼らは言語モデル(GPT-2、Llama 2)、画像生成(VAE)、そして分子生成(Diffusion model)において繰り返し検証し、一致した結論を得ました:実データが引き続き参加している限り、AIは崩壊しないのです。
研究者は理論的に証明しました:データが蓄積されると、モデル誤差の上限は有限であり、無限に膨張することはありません。これは、AIの「近親交配」が運命づけられているわけではなく、私たちが人間の実際のデータとのつながりを切らなければ良いことを意味します。
AIにもハプスブルク現象があり、自己言及のループは近親婚のようです。
かつてGoogleのソフトウェアエンジニアであったiKalaの創設者、程世嘉は、人類の歴史の中で有名なハプスブルク家をこの現象の例えに用いました。ヨーロッパの歴史において知られるハプスブルク王朝は、血統の純粋性を維持するために近親婚を通じて富と権力を家族内に閉じ込めました。その結果、有名な「ハプスブルク顎」が現れましたが、これは遺伝的問題の氷山の一角に過ぎません。様々な遺伝病、癲癇、知的障害、さらには高い早死率がハプスブルク家の呪いであり、最後の国王カルロス2世は多くの病気に苦しみ、一生子孫を残さないままでした。
程世嘉は、より具体的な例を用いて説明します。もともとは細部に富んだ、さらには小さな欠陥のある風景画でした。画家のスタイル、細部、筆致、欠陥などは、実際には遺伝子の多様性を表しています。初めて印刷されたとき、AIは影本(合成データ)を生成しました。この時点で影本は99.9%原版に近いものでした。しかし、AIはモデルであり、そこから平均値を取って、欠陥(はまれな知識)を示し、最も一般的な特徴(主流の見解)をわずかに強化します。次の世代はそこから学び、再び平均値を取ります。これが自己参照ループです。
この記事は、ケンブリッジの研究:2026年に人間のデータがLLMによって学習され尽くし、AIが「ハプスブルク現象」によって崩壊する可能性があることを示しています。最初に出現したのは、チェーンニュースABMediaです。
24.94K 人気度
10.42K 人気度
21.85K 人気度
6.67K 人気度
89.1K 人気度
ケンブリッジの研究:2026年には人間のデータがLLMによってほぼ学習され、AIは「ハプスブルク現象」により崩壊する恐れがある
生成型AIの時代において、OpenAI、Google、Anthropicなどの大手企業のモデルはほぼ全ての公開データを使い尽くしています。しかし、オックスフォード大学と複数の機関による研究によれば、2026年から2028年までに人間がAIに提供できる高品質な公開データは尽きる見込みです。ネットがAI生成コンテンツに溢れかえった時、新しいモデルは必然的にAIによって生成されたデータで自らを訓練しなければなりません。この自己参照のプロセスは、まるでAIの近親交配のようです。
2026年に人類が生成したデータは、AIによって学習され尽くされる。
オックスフォード大学、ケンブリッジ大学および多くの研究機関が2024年4月に発表した論文〈再帰の呪い: 生成データでのトレーニングはモデルを忘れさせる〉がこの現象を明らかにしています。
彼らは次のことを発見しました:生成モデルが自ら生成したデータを繰り返し使用してトレーニングを行うと、理想的な条件下でも、モデルは現実を徐々に忘れ、最終的には劣化に陥ることがあると。研究チームは、言語モデル、変分オートエンコーダー(VAE)、ガウス混合モデル(GMM)など、さまざまなアーキテクチャで実験した結果、再トレーニングするたびにコピー機がコピーを再印刷するようなものであると指摘しました:細部は徐々に消失し、珍しいイベントが最初に忘れられます。数世代後、モデルは平均値と主流の姿しか残らず、最終的には平凡で単一、さらには間違ったものになる。
このプロセスは、モデル自身が引き起こすデータ中毒(自己中毒)のようなものです。最終的な結果は、モデルが言語と現実を理解できなくなり、出力が繰り返しの無意味な言葉になってしまうことです。
スタンフォード論文:リアルデータの継続的な参加があれば、AIは崩壊しない
しかし、2024年4月にスタンフォード大学とコンステレーションチームが発表した論文〈モデル崩壊は避けられないのか?リアルデータと合成データを蓄積することで再帰の呪いを打破する〉は、より楽観的な回答をもたらしました。彼らはオックスフォードチームの実験を再現しましたが、新しいトレーニング戦略を提案しました:データを置き換えるのではなく蓄積させるということです。言い換えれば、新世代のAIは古い人間データを捨てるのではなく、人間とAI生成のコンテンツを継続的に重ねて融合させるのです。
結果は、毎回の訓練で新しい合成データが古いデータに置き換えられると、モデルのパフォーマンスが線形に悪化することを示しています。しかし、元のデータを保持し続けると、モデルの誤差は徐々に安定し、さらには悪化が止まることがあります。彼らは言語モデル(GPT-2、Llama 2)、画像生成(VAE)、そして分子生成(Diffusion model)において繰り返し検証し、一致した結論を得ました:実データが引き続き参加している限り、AIは崩壊しないのです。
研究者は理論的に証明しました:データが蓄積されると、モデル誤差の上限は有限であり、無限に膨張することはありません。これは、AIの「近親交配」が運命づけられているわけではなく、私たちが人間の実際のデータとのつながりを切らなければ良いことを意味します。
AIにもハプスブルク現象があり、自己言及のループは近親婚のようです。
かつてGoogleのソフトウェアエンジニアであったiKalaの創設者、程世嘉は、人類の歴史の中で有名なハプスブルク家をこの現象の例えに用いました。ヨーロッパの歴史において知られるハプスブルク王朝は、血統の純粋性を維持するために近親婚を通じて富と権力を家族内に閉じ込めました。その結果、有名な「ハプスブルク顎」が現れましたが、これは遺伝的問題の氷山の一角に過ぎません。様々な遺伝病、癲癇、知的障害、さらには高い早死率がハプスブルク家の呪いであり、最後の国王カルロス2世は多くの病気に苦しみ、一生子孫を残さないままでした。
程世嘉は、より具体的な例を用いて説明します。もともとは細部に富んだ、さらには小さな欠陥のある風景画でした。画家のスタイル、細部、筆致、欠陥などは、実際には遺伝子の多様性を表しています。初めて印刷されたとき、AIは影本(合成データ)を生成しました。この時点で影本は99.9%原版に近いものでした。しかし、AIはモデルであり、そこから平均値を取って、欠陥(はまれな知識)を示し、最も一般的な特徴(主流の見解)をわずかに強化します。次の世代はそこから学び、再び平均値を取ります。これが自己参照ループです。
この記事は、ケンブリッジの研究:2026年に人間のデータがLLMによって学習され尽くし、AIが「ハプスブルク現象」によって崩壊する可能性があることを示しています。最初に出現したのは、チェーンニュースABMediaです。