OpenAIが大規模AIトレーニング向け新ネットワーキングプロトコル「MRC」を発表

要約
OpenAIは、AMD、Broadcom、Intel、Microsoft、NVIDIAとの共同開発により、MRC(Multipath Reliable Connection)という新しいオープンネットワーキングプロトコルを発表した。このプロトコルは、大規模AIトレーニングクラスターにおけるGPUネットワーキング性能と回復力を大幅に向上させることを目的としている。MRCの主要な特徴として、パケットを数百のパスに同時に分散させることで通信の冗長性を確保し、ネットワーク障害が発生した際にマイクロ秒単位での迅速な回復を実現する。さらに、このプロトコルにより、10万GPU以上を搭載するスーパーコンピューターを、従来よりもシンプルな2層のEthernetスイッチ構成のみで構築することが可能になるという。
洞察・気づき
この発表は、AI業界における大規模インフラストラクチャの技術革新を示している。特に注目すべきは、OpenAIが主要なハードウェア企業との業界横断的な協力により、オープンスタンダードとしてこのプロトコルを開発した点である。これにより、AIトレーニングに必要な大規模クラスターの構築コストが削減され、より多くの組織が高性能なAIシステムにアクセスできる可能性がある。また、マイクロ秒単位での障害回復機能は、長時間にわたるAIモデルトレーニングの安定性を大幅に向上させ、計算資源の無駄を削減することにつながる。この技術革新は、今後のAGI開発競争において重要な基盤技術となる可能性が高い。