1930年のヴィンテージ言語モデル「talkie」:著作権フリーデータのみで学習された13Bパラメータモデル

要約
GPTやWhisperで知られるAlec Radfordらの研究チームが、1931年以前の歴史的英語テキスト260Bトークンのみで学習した13Bパラメータの言語モデル「talkie」を発表した。このプロジェクトには2つのバージョンがある:53.1GBの基本モデル「talkie-1930-13b-base」と、歴史的参考文献から抽出された指示応答ペアで微調整された26.6GBのチャットモデル「talkie-1930-13b-it」だ。両モデルはApache 2.0ライセンスで公開されており、学習データが米国の著作権期限(1931年1月1日)以前のものなので完全に著作権フリーとなっている。研究チームは、このモデルを使って「1931年以前の知識で未来の出来事をどの程度予測できるか」「1911年までの知識でアインシュタインの一般相対性理論を独立して発見できるか」「過去のテキストで学習したモデルがプログラミングを学べるか」などの興味深い実験を行っている。ただし、チャットモデルの微調整では現代のClaude Sonnet 4.6やOpus 4.6を判定モデルとして使用したため、完全にヴィンテージとは言えない状況となっている。
洞察・気づき
このプロジェクトは、AI開発における著作権問題への革新的なアプローチを示している。多くの現代LLMが著作権上グレーゾーンのデータで学習されている中、完全に著作権フリーのデータのみを使用する「ヴィーガンモデル」の概念は極めて重要だ。また、歴史的な知識カットオフを持つモデルを使った研究は、AI の予測能力や創造性の本質を理解する上で貴重な洞察を提供する。特に「過去の知識だけで未来を予測できるか」「既知の情報から新しい発見ができるか」という問いは、AIの真の理解力や創造性を測る指標となり得る。一方で、現代のLLMに依存した微調整手法は、時代の純粋性を保つことの技術的困難さを示している。将来的にヴィンテージモデル自体を判定に使う完全な時代適合型パイプラインの実現は、AI開発の新たな方向性を示唆しており、著作権問題の解決と歴史的AI研究の両面で意義深い取り組みとなるだろう。