julien-tromeur-6UDansS-rPI-unsplash (1)
1: 2024/12/16(月) 17:26:31.60
AIモデルの開発には学習資料となるデータセットが必要不可欠ですが、すでに大規模なモデルはアクセスできるデータのほとんどを食い尽くしており、2028年までにデータを使い果たしてしまう可能性が指摘されています。AIとデータセットの現状について、学術雑誌のNatureがまとめています。

過去10年間でAIは爆発的な成長を遂げており、特に人間の文章を解析してもっともらしい文章を返す能力には目を見張るものがありますが、こうした能力はすべて、インターネット上に存在する既存の文章などさまざまなデータを学習した上で構築されたものです。

インターネット上には膨大な量のデータが存在することは間違いないのですが、研究機関のEpoch AIによると、AIはインターネット上のデータを驚くべきスピードで学習し続けており、そのほとんどを食い尽くしてしまう可能性があるとのことです。

Epoch AIは「2028年頃までに、AIモデルの学習に使用されるデータセットのサイズは、インターネット上に存在する文章の総ストックと同じサイズに達する」と予測。これはつまり、2028年頃までにAIは学習データを使い果たしてしまう可能性が高いということを意味します。データセットが不足することに加え、新聞社などのデータ所有者がコンテンツの利用を取り締まり始め、アクセスをさらに厳しくしているのもAI研究者にとってのハードルとなっています。

こうした問題はAI研究者の間でも認知されており、従来のデータセットを使い果たすことで学習のスケーリングが限界に近づくという法則が語られることがあります。データセットの不足を補うため、AI研究者は学習の方法を変更するなどしてAIの性能向上を模索しています。

*記事全文は以下ソースにて
2024年12月16日 17時00分 GIGAZINE
https://gigazine.net/news/20241216-ai-data-running-out/


続きを読む
Source: 理系にゅーす