ローカルで動作するQwen3.6がClaude Opus 4.7をペリカンイラスト生成で上回る

要約
Simon Willison氏が独自の「ペリカンベンチマーク」テストで、AlibabaのQwen3.6-35B-A3BとAnthropicのClaude Opus 4.7を比較した結果、意外な結果が明らかになった。このテストは「自転車に乗るペリカンのSVG」を生成するもので、20.9GBの量子化されたQwenモデルをMacBook Pro M5上でローカル実行したところ、クラウドベースのOpus 4.7よりも優秀な結果を出した。OpusはSVG生成で自転車のフレーム部分を間違えていたのに対し、Qwenは正確な描画を実現した。さらに「フラミンゴがユニサイクルに乗る」という追加テストでも同様にQwenが勝利し、SVGコメントまで含めた細かい配慮も見られた。Willison氏は、この結果について、ペリカンベンチマークは元々ジョークとして始めたものの、過去には一般的な模型の有用性と相関があったと指摘している。しかし今回は、21GBの量子化ローカルモデルがAnthropicの最新プロプライエタリモデルより全体的に優秀とは考えにくく、特定のタスクにおける性能の逆転現象として興味深い事例だと分析している。
洞察・気づき
この結果は、AIモデルの評価における複雑さと、ローカル実行モデルの可能性を示している。従来、クラウドベースの大規模プロプライエタリモデルが全般的に優秀とされてきたが、特定のタスクにおいてはローカルで動作する量子化されたオープンソースモデルが優れた結果を示すことがある。これは、モデルの真の性能評価が単純な規模やパラメータ数だけでは測れないことを意味している。また、ベンチマークテスト自体の限界も浮き彫りになっており、特定のタスクでの優劣が必ずしも汎用性能を反映しないという教訓も得られる。開発者やビジネスパーソンにとっては、用途に応じてローカルモデルとクラウドモデルを使い分ける重要性、そしてコスト効率やプライバシーを考慮した際のローカル実行の価値を再認識させる事例となっている。