第3章 パターン学習の技術的限界と法的論点:「暗記(Memorization)」の問題
ユーザーの「パターン学習=盗用・侵害なし」という認識が法的に破綻する最大の要因は、LLMの技術的な限界として知られる「暗記(Memorization)」の存在です。
3.1 訓練データからの逐語的再現(暗記)の発生メカニズム
暗記とは、LLMが訓練データセット内の一部のデータ(特に、訓練セット内で極端に重複している、または非常にユニークで特異なデータ)を過学習(Overfit)し、その内容をモデルのパラメータ内に忠実に保存してしまう現象を指します 7。
研究により、テキストモデルや画像モデルが、特定のプロンプトを入力された際に、訓練データに含まれる内容を、逐語的または画素単位で正確に再現(抽出)する可能性があることが示されています 3。この現象は、もともとプライバシーとセキュリティ(個人識別情報(PII)や医療情報の漏洩)の観点から研究されていましたが、弁護士らは、この暗記による再現が、著作権保護の対象となる「表現豊かな著作物」(アートや文学)の違法なコピーとして法廷で引用できる証拠となり得ると指摘しています 3。
LLM開発者が「盗用の意図はない」と主張し、モデルが統計的なパターン学習に基づいているとしても、暗記による逐語的出力は、結果として既存の著作物に対する極めて高い「類似性」を持つ生成物を生み出すことになります。これは、著作権者側が侵害の結果を立証可能にする、技術的な脆弱性であり、法的な責任を追及するための強力な根拠となります。
3.2 暗記発生と著作権侵害リスクの相関関係
暗記された出力が市場で利用された場合、その生成物は訓練ソースと極めて高い「類似性」を有するため、著作権侵害の二要件のうち「類似性」を容易に満たします。さらに、その出力が訓練データに依存して生成されているという事実は、「依拠性」(既存著作物に基づく創作であること)を推認させる要因となります 5。
この暗記リスクは、日本の著作権法第30条の4の適用外となる「享受目的」とも関連してきます。開発者が、暗記の可能性を認識しながらも、特定の著作物の「創作的表現」の出力を目的として、少数の特定クリエイターの作品群のみを追加学習に用いる(例:LoRA調整)といった行為を行った場合、それは非享受目的とはみなされず、学習段階から第30条の4の適用外となり、違法な複製行為となるリスクが発生します 5。
新規登録で充実の読書を
- マイページ
- 読書の状況から作品を自動で分類して簡単に管理できる
- 小説の未読話数がひと目でわかり前回の続きから読める
- フォローしたユーザーの活動を追える
- 通知
- 小説の更新や作者の新作の情報を受け取れる
- 閲覧履歴
- 以前読んだ小説が一覧で見つけやすい
アカウントをお持ちの方はログイン
ビューワー設定
文字サイズ
背景色
フォント
組み方向
機能をオンにすると、画面の下部をタップする度に自動的にスクロールして読み進められます。
応援すると応援コメントも書けます