ChatGPT Images 2.0リリース:「ウォーリーを探せ」テストでGeminiを上回る性能を実証

要約
OpenAIが新しい画像生成モデル「ChatGPT Images 2.0」をリリースし、Sam AltmanはGPT-3からGPT-5への進歩に匹敵する飛躍的な改良だと発表した。筆者はハムラジオを持ったアライグマを探す「ウォーリーを探せ」スタイルの複雑な画像生成で各モデルを比較テストした。従来のgpt-image-1では目標のアライグマを見つけるのが困難だったが、Google Nano Banana 2では比較的明確にアライグマが描かれた。新しいgpt-image-2では、高品質設定(3840x2160解像度)で17MBの詳細な画像を生成でき、約40セントのコストで左下に見つけやすいアライグマとハムラジオが配置された。筆者は現時点でChatGPTの新画像生成モデルがGeminiを上回る性能を持つと結論付けた。ただし、生成した画像の解答をAIモデル自身に求めるのは信頼性に欠けることも判明した。
洞察・気づき
この記事は画像生成AIの急速な進歩と競争激化を示している。OpenAIが「GPT-3からGPT-5レベル」と表現する改良は、単なる画質向上ではなく、複雑な指示理解と詳細な描写能力の飛躍的向上を意味する。「ウォーリーを探せ」という複雑なタスクでの比較は、AIが単純な画像生成を超えて、人間が設計したような複雑な構図や隠し要素を含む画像を作成できるレベルに達していることを示す。Google、OpenAI間の競争が激化する中、画像生成分野でも急速な技術革新が続いており、クリエイティブ業界やマーケティング分野への影響は計り知れない。また、高解像度画像生成のコスト(40セント程度)が実用的な範囲にあることは、商用利用の可能性を大きく広げる。一方で、AIが自身の生成物を正確に解析できない限界も明らかになり、AI出力の検証には依然として人間の判断が必要であることを示している。