第3章 パターン学習の技術的限界と法的論点:「暗記(Memorization)」の問題

ユーザーの「パターン学習=盗用・侵害なし」という認識が法的に破綻する最大の要因は、LLMの技術的な限界として知られる「暗記(Memorization)」の存在です。


3.1 訓練データからの逐語的再現(暗記)の発生メカニズム


暗記とは、LLMが訓練データセット内の一部のデータ(特に、訓練セット内で極端に重複している、または非常にユニークで特異なデータ)を過学習(Overfit)し、その内容をモデルのパラメータ内に忠実に保存してしまう現象を指します 7。

研究により、テキストモデルや画像モデルが、特定のプロンプトを入力された際に、訓練データに含まれる内容を、逐語的または画素単位で正確に再現(抽出)する可能性があることが示されています 3。この現象は、もともとプライバシーとセキュリティ(個人識別情報(PII)や医療情報の漏洩)の観点から研究されていましたが、弁護士らは、この暗記による再現が、著作権保護の対象となる「表現豊かな著作物」(アートや文学)の違法なコピーとして法廷で引用できる証拠となり得ると指摘しています 3。

LLM開発者が「盗用の意図はない」と主張し、モデルが統計的なパターン学習に基づいているとしても、暗記による逐語的出力は、結果として既存の著作物に対する極めて高い「類似性」を持つ生成物を生み出すことになります。これは、著作権者側が侵害の結果を立証可能にする、技術的な脆弱性であり、法的な責任を追及するための強力な根拠となります。


3.2 暗記発生と著作権侵害リスクの相関関係


暗記された出力が市場で利用された場合、その生成物は訓練ソースと極めて高い「類似性」を有するため、著作権侵害の二要件のうち「類似性」を容易に満たします。さらに、その出力が訓練データに依存して生成されているという事実は、「依拠性」(既存著作物に基づく創作であること)を推認させる要因となります 5。

この暗記リスクは、日本の著作権法第30条の4の適用外となる「享受目的」とも関連してきます。開発者が、暗記の可能性を認識しながらも、特定の著作物の「創作的表現」の出力を目的として、少数の特定クリエイターの作品群のみを追加学習に用いる(例:LoRA調整)といった行為を行った場合、それは非享受目的とはみなされず、学習段階から第30条の4の適用外となり、違法な複製行為となるリスクが発生します 5。

  • Xで共有
  • Facebookで共有
  • はてなブックマークでブックマーク

作者を応援しよう!

ハートをクリックで、簡単に応援の気持ちを伝えられます。(ログインが必要です)

応援したユーザー

応援すると応援コメントも書けます

新規登録で充実の読書を

マイページ
読書の状況から作品を自動で分類して簡単に管理できる
小説の未読話数がひと目でわかり前回の続きから読める
フォローしたユーザーの活動を追える
通知
小説の更新や作者の新作の情報を受け取れる
閲覧履歴
以前読んだ小説が一覧で見つけやすい
新規ユーザー登録無料

アカウントをお持ちの方はログイン

カクヨムで可能な読書体験をくわしく知る