F/OSSの唯物史観——LLMを拒絶するのではなく、取り戻すべきだ

数日前、「自由・オープンソースソフトウェアとLLM訓練について」︵On FLOSS and training LLMs︶という記事を読んだ。自由・オープンソースソフトウェアコミュニティの挫折感をよく表現した文章だった。AI企業はF/OSS開発者を全く尊重していない。オープンソースライセンシングの理想主義的原則を悪用している。法律は我々の成果物がプロプライエタリな言語モデルの学習データとして使われることを防いでくれない。記事を読みながら何度も頷いた。

しかし、結論には同意しない。

著者が提案する解決策は拒絶と孤立だ。クローラーを遮断し、GitHubのような中央集権的なforgeから離れ、AIスクレイパーが我々のコードにアクセスできないようにしようというものだ。そして、こうした「非倫理的なツール」を使う人々をコミュニティから排斥しようと言う。断絶と孤立の戦略だ。怒りは理解できる。しかし、このアプローチは重要な機会を見逃しており、F/OSSを作り上げてきた歴史的パターンを誤読している。

我々が同意する点

分岐点を論じる前に、著者が正しい部分から確認しよう。現在の状況は本当に深刻だ。AI企業は訓練データの出所を完全に無視している。「法的に可能だからやる」という言葉が、彼らが個々の開発者とコミュニティに対する態度を正確に示している。攻撃的なクローリングは事実上、分散型サービス妨害︵DDoS︶攻撃に他ならない。コンテンツ制作者の明示的な意思は無視される。まともに機能するオプトアウトメカニズムすら提供しない。

法的闘争も勝ち目が薄いという点で著者の言う通りだ。F/OSSライセンスは本質的に用途を差別しない。オープンソースの定義の第六原則は特定分野に対する制限を明示的に禁じている。GPLのような主要ライセンスは著作者表示を要求し、派生著作物に関する条項を設けているが、著者が指摘する通り、有能な弁護士ならLLM訓練は従来の意味での派生著作物の生成ではないと主張できる。統計的パターン抽出はコード再利用のように著作者表示を要求しないと。

現在の法律は不十分だ。この法律は別の時代のために作られた。その時代に「使用」とはソフトウェアを実行するか、修正するか、再配布することであって、ニューラルネットワークに入れてパターンを抽出することではなかった。法律は権力に奉仕する。この場合、権力は法務チームを動員してこうした曖昧さを探索し悪用できる企業にある。

我々が分岐する点

しかし、ここで道が分かれる。答えは拒絶ではなく再専有だ。

著者は現在の状況を開発者の尊重とAI訓練の許容の間の闘いとしてフレーミングする。しかし、第三の道がある。F/OSSの歴史とより整合的で、我々が実際に望む未来を作る可能性が高い道だ。我々のコードでLLMを訓練させないようにするのではなく、モデル自体を解放するよう要求すべきだ。

私の立場はこうだ。私は自分のコードがLLM訓練に使われることを望んでいる。望んでいないのは、その訓練によってAI企業の私有財産となるプロプライエタリなモデルが作られることだ。問題は技術自体や訓練プロセスではない。コモンズの私有化、集団知識の独占、価値が多数から少数へと一方向に流れることが問題だ。

これは全く新しい問題ではない。F/OSSがずっと闘ってきたその問題だ。服を着替えただけだ。

現実認識について

さらに進む前に、根本的な話をしよう。LLMをめぐる様々な見解は、大抵、現実そのものをどう認識するかで分かれる。

少し前、Redis作者のSalvatore Sanfilippo︵antirez︶がAIコーディングツールの体験談を書いた。彼は我々の多くと同様、手作りのコードとソフトウェアの人間的タッチを深く重視する人物だ。しかし、こう言う。「今起きている現実から目を背けることは不可能だ。コードを書くことはもはや大部分不要だ…プログラミングは永遠に変わった」

彼の結論はこうだ。適応せよ。新しいツールを学べ。「反AI」ハイプに陥るな。彼はLLMを九十年代のオープンソースのような民主化技術と見ている。小さなチームが大企業と競争できるようにするものだと。

私もantirezの現実認識には概ね同意する。LLMはプログラミングを根本的に変えた、そして元には戻せない。一方、〈自由・オープンソースソフトウェアとLLM訓練について〉の著者は現実を異なって認識しているように見える。抵抗が依然として意味があり、撤退が効果的でありうり、LLMの訓練データへのアクセスを有意義に減らせるという認識だ。私は懐疑的だ。OpenAIとAnthropicは既に必要なものを全て収集した。GitHubも全てのコードを持っている。訓練データは既に存在する。

しかし、ここで私はantirezの楽観論と分かれる。彼は中央集権化を懸念しながらも、中国産オープンモデルなどを通じた市場競争が解決してくれると信じているようだ。そして、開発者がどのように適応しこのツールを活用できるかに集中する。重要な話だが、より深い問いを避けている。この変革はどのような条件で起きるのか?

問いはLLMを使うか適応するかではない。その船は既に出た。問いは誰がモデルを所有するかだ。モデルを訓練したコモンズから誰が利益を得るのかだ。数百万のF/OSS開発者が自分のコードを公共に寄与したなら、結果として生まれるモデルがプロプライエタリであるべきなのか?これは単に中央集権化や市場力学の問題ではない。集団労働の果実が集団に残るか、私有財産になるかの問題だ。

唯物論的読解

自由・オープンソースソフトウェアの歴史を唯物論的レンズで見ると、明確なパターンが見える。技術変化が新しい形態の搾取を生み出し、その搾取はコモンズを保護するための新しい形態のライセンシングを要求する。

軌跡を見てみよう。

GPLv2︵一九九一︶はバイナリ配布問題を扱った。企業はGPLコードを取得してコンパイルし、バイナリのみを配布した。自由なコードから事実上プロプライエタリなソフトウェアを作ったのだ。解決策はコピーレフトだった。ソフトウェアを配布するならソースコードも提供しなければならない。

GPLv3︵二〇〇七︶はTivoizationを扱った。TiVoのような企業は技術的にはソースコードを提供したが、ハードウェアロックで修正版の実行を防いだ。解決策はソースコードだけでなくインストール情報まで要求することだった。ユーザーが修正する自由を維持できるように。

AGPL︵二〇〇七︶はSaaSの抜け穴を扱った。企業はソフトウェアを配布する必要がないことに気づいた。サービスとして実行するだけでGPLの配布要件が作動しなかった。解決策はネットワーク相互作用を配布と同等に扱うことだった。

毎回同じパターンが繰り返された。新技術が既存ライセンスの抜け穴を露呈させると、企業がその抜け穴を悪用した。するとコミュニティが抜け穴を埋める進化したライセンシングで対応した。これは理想主義が現実に出会って失敗したのではない。弁証法的発展だ。変化する物質的条件に合わせて我々の道具を精製する持続的過程だ。

今、また新しい間隙が見える。訓練の抜け穴だ。企業はF/OSSコードをプロプライエタリモデルの訓練データとして使える。モデルを公開したり訓練の出所を明らかにする義務もない。典型的な搾取だ。互恵性のない価値抽出だ。

唯物論的対応は新技術を拒絶することではない。ライセンスを進化させて包摂することだ。

訓練コピーレフトがどのような姿になりうるか

私はGPLv4やTGPL︵Training GPL︶のようなものを構想する。次のような条項を含むべきだろう。

訓練は明示的に許可される。コードは機械学習モデルの訓練データとして使用できる。F/OSSの自由の原則と整合的で、分野差別を避ける。

しかし、その結果物であるモデルは解放されなければならない。該当コードで訓練された全てのモデルは互換可能なコピーレフトライセンスで重み︵weights︶を公開しなければならない。GPLv3がバイナリにソースコードを要求するように、訓練コピーレフトは訓練されたシステムにモデル重みを要求する。

訓練データは文書化されなければならない。依存性を文書化することを期待するように、どのようなデータで訓練したかを明確にしなければならない。

ファインチューニングされたモデルも義務を継承する。コピーレフトモデルをファインチューニングすれば派生モデルも公開しなければならない。「少し修正して新しいものだと主張する」回避を防ぐ。

ネットワーク使用も義務を賦課する。AGPLのようにAPIでモデルを提供することも配布と見なして重み公開を要求する。

技術的挑戦と先例

これは技術的に可能なのか?執行できるのか?妥当な問いだが、新しい問いではない。以前の全てのGPL進化で同じように提起された問いだ。

バイナリがあなたのソースコードでコンパイルされたことをどう証明するのか?ハードウェアロックが修正を妨げることをどう証明するのか?サービスがあなたのコードを実行していることをどう証明するのか?毎回、答えは技術的証拠、コミュニティの監視、時には法的措置の組み合わせだった。完璧な執行は不可能だ。しかし、ライセンスが無価値だという意味ではない。GPL違反は起きるが、GPLは機能する。巨大なコモンズを作り保護してきた。

特定のコードが訓練に使われたことの証明は、ソースコードがバイナリに使われたことの証明より確かに難しいだろう。しかし、乗り越えられないものではない。訓練データセットは文書化できる。モデル系譜は追跡できる。統計分析が訓練の出所を特定できるかもしれない。より重要なのは、ライセンスの存在自体が遵守に向けた社会的・法的圧力を生み出すことだ。

混合訓練セットの問題もある。TGPLと非TGPLコードで共に訓練したら?これもGPLと非GPLコードをリンクする問題と類似している。数年間のコミュニティ実践と時折の法廷事例で解決されてきた。詳細は別の問題だが、大きな方向性は正しい。

なぜこれが撤退より重要なのか

著者の撤退戦略には感情的な訴求力がある。アクセスを拒否し、「あなたは我々を尊重しないから我々の成果物を持てない」と言うことには爽快感がある。しかし、いくつかの面でより大きな絵を見逃している。

まず、この戦略は戦場を大きく譲歩する。F/OSS開発者がコードを公開状態から撤退させれば、AI訓練を止めるのではなく、オープンソースAI訓練だけを止める。OpenAIとAnthropicは既に必要なものは全て収集し、巨大なデータセットを持っている。撤退が止めるのはLlamaやMistralのようなプロジェクトとより広いオープンソースLLMエコシステムが良質な訓練データにアクセスすることだ。

より根本的には、問題を誤って捉えている。技術自体ではなく、それを誰がどう使うかが問題なのに。LLMはコンパイラやWebサーバーが本質的に搾取的でないのと同様、本質的に搾取的ではない。単なる道具だ。資本主義下の全ての道具のように、権力を集中させるか分散させるかに使われうる。使用条件ではなく拒絶に集中すれば、病気ではなく症状だけを治療する危険がある。

コミュニティ分裂の危険もある。著者は「非倫理的ツール」の使用者を排斥し、歓迎されないようにし、孤立させようと言う。しかし、どこまでが使用なのか?誰かがF/OSSプロジェクトのパッチを作成するのにGitHub Copilotを使ったら?デバッグにChatGPTを使ったら?正確にどこが線で、それを誰が決めるのか?こうした純粋性テストは歴史的に目標達成より運動分裂により効果的だった。

しかし、最も致命的なのは、実際に機能してきたF/OSSの戦略を放棄することだ。アクセスを止めるのではなく、ライセンスで自由を守る戦略を。GPLの天才性は誰にもコード使用を止めなかったことだ。代わりに、受け取った自由を他者にも与えるよう要求して全員の自由を保障した。撤退は正反対の哲学だ。

我々が作るべき未来

私は強力なAIモデルが存在し、訓練する余力のある民間企業だけでなく全員がそのようなモデルにアクセスできる未来に住みたい。数百万のF/OSSプロジェクトにエンコードされた知識がプロプライエタリモデルに私有化される代わりにコモンズの一部となる世界を望む。私のコードがモデル訓練を助けるなら、そのモデルを私と他の全員が使用し研究し修正し共有できる世界を望む。

この未来は撤退からは来ない。参加から、我々のライセンシングツールの進化から、我々が見たいオープンソースAIエコシステムを構築することから来る。GNU/Linuxを作り、我々が知るWebを作り、我々が毎日使うツールを与えたのと同じ戦略から来る。

著者は尊重は与えられるものではなく得るものであり、我々を無視する者には同様に対処すべきだと書く。私もこの原則には同意するが、異なって適用したい。無礼なのは訓練行為自体ではなく、その結果物を私有化し共同体に返さないことだ。適切な対応は我々も共有を拒絶することではない。それは底辺への競争だ。互恵性を要求し、我々が常に主張してきたまさにその自由を主張することだ。

Linus TorvaldsがLinuxをプロプライエタリとして維持する代わりにGPLで公開したとき、「企業はこれを使えない」とは言わなかった。「誰でも使えるが改善したら共有しなければならない」と言った。その条件、その互恵性の要求が、ボランティア開発者と巨大企業を共に含むエコシステムを作った。スマートフォンからスーパーコンピューターまで全てを動かし、共に作る方式が実際に機能することを証明したエコシステムを。

AI時代にも同じ原則を適用すべきだ。「我々のコードで訓練禁止」ではなく、「我々のコードで訓練するならモデルを解放せよ」と。撤退ではなく、参加条件だ。拒絶ではなく、再専有だ。

歴史的機会

唯物史観は必然性に関するものではないと思う。パターンを認識しそれに従って行動することだ。F/OSSライセンシングの全ての主要な転換は、問題認識、コミュニティ議論、法的革新、漸進的採用のパターンに従った。LLMに関しては現在、そのサイクルの始点にいるようだ。

機会だ。現在、AI訓練とモデル公開を支配する規範についての対話が起きている。コミュニティではこれらの問題についての議論が熱い。オープンソースAIモデルが増えている今、どのライセンスが適用されるかはまだ定まっていない。

F/OSS開発者がこの対話から撤退し、戦場を譲歩し、拒絶だけに集中すれば、五年後には企業と企業寄りの裁判所によって全ての規範が設定されているのを見ることになるだろう。訓練の抜け穴が確固として確立され、オープンソースAIはプロプライエタリモデルと比べて永久に不利になるだろう。

しかし、我々が参加し、訓練コピーレフトを推し進め、モデル解放を要求するライセンスでコードを公開し始めれば、我々がその未来を作れる。簡単ではないだろう。法的作業、コミュニティ組織化、恐らく法廷事例も必要だろう。GPLがテストされ検証されるのに数年かかった。しかし、結局機能した。訓練コピーレフトが機能しない理由はない。

結論

自由・オープンソースソフトウェアとLLM訓練について」に表現された怒りと挫折を尊重する。現在のAI企業が悪く行動しており、我々の成果物を搾取しており、法律が不十分だという点で、著者は正しい。私の異論は、我々の対応が拒絶ではなく進化であるべきであり、撤退ではなく参加であるべきであり、アクセス禁止ではなくライセンシング革新であるべきだと信じる点だ。

問いはF/OSSコードに対するLLM訓練がある抽象的意味で倫理的かではない。どのような条件で倫理的かだ。答えはF/OSSがこれまで示してきた答えと同じだと信じる。我々が付与する自由が保存され伝達されるとき、改善がコモンズに戻るとき、知識が自由に留まるとき、倫理的なのだ。

クローラーを遮断するのではなく、彼らがクロールする規則を変えるべきだ。GitHubから撤退するのではなく、GitHub訓練がコピーレフトを尊重するよう要求すべきだ。AIツール使用者を排斥するのではなく、我々の自由を尊重するより良いAIツールを作るべきだ。

唯物史観は教える。新しい生産力は新しい生産関係を要求すると。LLMは新しい生産力だ。訓練コピーレフトはLLMをF/OSSの価値と整合させる新しい生産関係となるだろう。

私が書くコードは自由であるために書く。ニューラルネットワークを通過してモデル重みとして現れても、自由に留まることを望む。純真な理想主義ではない。数十年間F/OSSを導いてきたまさにその原則だ。我々は複数の技術転換を経てソフトウェアの自由を保護してきた、今回もできる。

LLMを拒絶するのではなく、取り戻すべきだ。我々のコモンズが彼らの私有地になるのを傍観するのか?私はコードが全員のものであるように、それで訓練したAIモデルも全員のものとなる未来のために闘いたい。