Gemini Pro はコンテンツの要約、ブレインストーミング、執筆などのタスクにおいてより有能であり、小学校の算数推論を測定するベンチマーク ( GSM8K)を含む 6 つのベンチマークにおいて、GPT-4の前身であるOpenAI のGPT-3.5を上回っています。
しかし、GPT-3.5 は1 年以上前に開発されたものであり、現時点では超えるのが難しいマイルストーンではありません。
Gemini Ultra は「ネイティブ マルチモーダル」になるようにトレーニングされています。
つまり、大規模なコードベース、さまざまな言語のテキスト、オーディオ、画像、ビデオのセットで事前にトレーニングされ、微調整されています。
Gemini Ultra はテキスト、画像、音声、コードの「微妙な」情報を理解し、「複雑な」トピック、特に数学や物理学に関する質問に答えることができる。
この点で、Gemini Ultra は、単語と画像という 2 つのモダリティのコンテキストしか理解できない、競合する OpenAI 独自のマルチモーダル モデルであるVision を備えた GPT-4よりも優れた機能をいくつか備えています。
Gemini Ultra は、音声を文字に起こし、アートや写真に加えて、オーディオやビデオに関する質問 (例: 「このクリップで何が起こっていますか?」) に答えることができます。