28447814_s
1: 2023/12/07(木) 11:15:00.58
「専門家を超えるAI」 グーグルの次世代生成AIモデル「Gemini」登場 – Impress Watch
https://www.watch.impress.co.jp/docs/news/1552601.html

西田 宗千佳 2023年12月7日 00:07

https://asset.watch.impress.co.jp/img/ipw/docs/1552/601/ge01_s.jpg

12月6日(米国時間)、Googleはかねてより開発意向を表明していた次世代生成AIモデル「Gemini」を発表した。現状は英語ながら、一部サービスは本日より利用開始。提供地域には日本も含まれる。

また、Pixel 8 Pro向けには、OSに組み込まれた「AICore」のアップデートとして、Gemini由来の「オンデバイスAI」が搭載される。

▼目次

・5月発表の「次世代」AIを年内に投入
・文字以外も正確に把握しつつ「論理的」に判断
・3つのモデルを用途で使い分け
・スマホ向けの「オンデバイスAI」で差別化するGoogle

5月発表の「次世代」AIを年内に投入
Geminiは、今年5月に開催されたGoogleの開発者向けイベント「Google I/O 2023」の中で「現在開発中である」とだけ公開されていたもの。

https://asset.watch.impress.co.jp/img/ipw/docs/1552/601/m15_s.jpg
Gemini自体は5月に発表されていた

当時はチャットAIサービスである「Bard」も提供が開始されたばかりで、基盤となる新AIとして「PaLM 2」も発表されたところだった。「GeminiはPaLM 2のスーパーセットになる」とGoogle側も説明していたし、一部では「開発遅延説」も出ていたくらいなので、まさかここまで急に発表になると予想していた人は少ないのではないだろうか。

Geminiの特徴は、「マルチモーダルかつ論理的な判断に優れている」という点にある。

マルチモーダルとは、画像だけ・テキストだけといった形ではなく、人間と同じように「画像」「文字」「音声」「動画」といった複数の要素を同時に扱う能力のこと。最近の生成AIでは大きなテーマとなっているが、Geminiは「ゼロから、マルチモーダルであることを前提に学習した」ことが特徴だ。

https://asset.watch.impress.co.jp/img/ipw/docs/1552/601/ge02.jpg
https://asset.watch.impress.co.jp/img/ipw/docs/1552/601/ge03.jpg
Geminiは「画像」「文字」「音声」「動画」などを並列に扱う「マルチモーダル」が特徴

Googleはもちろん自社のサーバー群を使って学習を行なっている。

同社は「Cloud TPU」というAIに特化した半導体を開発して活用している。最新のものは、高性能で汎用性の高い「Cloud TPU v5e」と、AIモデルのトレーニングに最適な「同 TPU v4」だ。

Googleは今回、AI学習に向けた「Cloud TPU v5p」を開発した。Cloud TPU v5pはAI、特に生成AIで使う大規模言語モデル(LLM)において、TPU v4の2.8倍の速度が出るという。今回はこれをGeminiの学習に全面展開したという。

学習には新たなデータセンター向け半導体の「Cloud TPU v5p」が使われたという

文字以外も正確に把握しつつ「論理的」に判断

(略)

もちろん、どこまでハルシネーション(間違い)などの影響が出ないのかは、ちゃんと検証しないといけない。だがビデオを見る限り、これはまさに「マルチモーダル」で「論理的な思考」を得意とするAI、と言えるだろう。

Googleは、最上位モデルの「Gemini Ultra」を使った場合、生成AIのモデルを評価するために使われているベンチマーク32種類のうち「30で既存の最高水準の結果を上回っている」(ニュースリリースより抜粋)とする。

また、MMLU(大規模マルチタスク言語理解)と呼ばれる、数学・物理学・歴史・法律・医学・倫理など57科目の組み合わせで知識や問題解決能力を測るテストでは「90.00%」のスコアを出している。そのため「人間の専門家を上回るパフォーマンスを示した初のモデル」(同じくニュースリリースより)とも主張する。

(略)

※省略していますので全文はソース元を参照して下さい。


続きを読む
Source: 理系にゅーす