Microsoft、約束に反してライセンスなしのウェブデータでAIモデルを訓練していたことが判明

要約
Microsoftは自社の大規模言語モデル(LLM)の訓練アプローチが他のAI企業とは異なり、「エンタープライズグレードのクリーンで商用ライセンス済みデータ」のみを使用していると宣伝していた。しかし実際には、新しいMAIモデルの訓練において、Common Crawlなどのライセンスなしのウェブデータを部分的に使用していたことが明らかになった。これは同社の公式な主張と矛盾する行為である。結果として、Microsoftも他のAIラボと同様に、フェアユースの法理に依存し、ウェブサイトの所有者に対してクローラーをブロックする責任を転嫁している状況が露呈した。
洞察・気づき
この問題は、AI企業の透明性とマーケティング戦略の乖離を浮き彫りにしている。Microsoftはエンタープライズ市場において信頼性と法的コンプライアンスを重視する姿勢を打ち出していたが、実際の開発プロセスでは業界標準的な手法を採用していた。これは、AI業界全体でのデータソーシングに関する透明性の欠如と、企業が競争優位性を主張するために使用する差別化戦略の信頼性に疑問を投げかける。今後、エンタープライズ顧客は各AI企業のデータソーシング手法についてより厳しく検証する必要があり、業界全体でのデータ使用に関する透明性向上が求められる可能性がある。