前のエピソード――第2章大規模言語モデル（LLM）の動作原理：パターン学習の検証

ユーザーの「パターン学習＝盗用・侵害なし」という認識が法的に破綻する最大の要因は、LLMの技術的な限界として知られる「暗記（Memorization）」の存在です。

3.1 訓練データからの逐語的再現（暗記）の発生メカニズム

暗記とは、LLMが訓練データセット内の一部のデータ（特に、訓練セット内で極端に重複している、または非常にユニークで特異なデータ）を過学習（Overfit）し、その内容をモデルのパラメータ内に忠実に保存してしまう現象を指します 7。

研究により、テキストモデルや画像モデルが、特定のプロンプトを入力された際に、訓練データに含まれる内容を、逐語的または画素単位で正確に再現（抽出）する可能性があることが示されています 3。この現象は、もともとプライバシーとセキュリティ（個人識別情報（PII）や医療情報の漏洩）の観点から研究されていましたが、弁護士らは、この暗記による再現が、著作権保護の対象となる「表現豊かな著作物」（アートや文学）の違法なコピーとして法廷で引用できる証拠となり得ると指摘しています 3。

LLM開発者が「盗用の意図はない」と主張し、モデルが統計的なパターン学習に基づいているとしても、暗記による逐語的出力は、結果として既存の著作物に対する極めて高い「類似性」を持つ生成物を生み出すことになります。これは、著作権者側が侵害の結果を立証可能にする、技術的な脆弱性であり、法的な責任を追及するための強力な根拠となります。

3.2 暗記発生と著作権侵害リスクの相関関係

暗記された出力が市場で利用された場合、その生成物は訓練ソースと極めて高い「類似性」を有するため、著作権侵害の二要件のうち「類似性」を容易に満たします。さらに、その出力が訓練データに依存して生成されているという事実は、「依拠性」（既存著作物に基づく創作であること）を推認させる要因となります 5。

この暗記リスクは、日本の著作権法第30条の4の適用外となる「享受目的」とも関連してきます。開発者が、暗記の可能性を認識しながらも、特定の著作物の「創作的表現」の出力を目的として、少数の特定クリエイターの作品群のみを追加学習に用いる（例：LoRA調整）といった行為を行った場合、それは非享受目的とはみなされず、学習段階から第30条の4の適用外となり、違法な複製行為となるリスクが発生します 5。