ほとんどすべてのテック企業と同様に、Adobeもここ数年でAIに大きく傾倒しています。このソフトウェア企業は2023年以降、Fireflyを含む複数のAIサービスをリリースしてきました。FireflyはAIによるメディア生成スイートです。しかし現在、同社がこの技術を全面的に受け入れたことが問題を引き起こした可能性があります。新たな訴訟によれば、Adobeは自社のAIモデルのトレーニングに海賊版書籍を使用したとされています。
オレゴン州の作家Elizabeth Lyonを代表とする集団訴訟が提起され、Adobeが彼女自身の著作を含む多数の書籍の海賊版を使って、同社のSlimLMプログラムをトレーニングしたと主張しています。
AdobeはSlimLMを「モバイルデバイス上でのドキュメント支援タスクに最適化可能な小型言語モデルシリーズ」と説明しています。SlimLMは、Cerebrasが2023年6月にリリースした「重複排除された複数コーパスのオープンソースデータセット」であるSlimPajama-627Bで事前学習されたとされています。ノンフィクション執筆のガイドブックを多数執筆しているLyonは、自身の著作の一部がAdobeが使用した事前学習データセットに含まれていたと述べています。
Reutersが最初に報じたLyonの訴訟によれば、彼女の著作はAdobeのプログラムの基礎となった加工済みサブセットのデータセットに含まれていたとされています。「SlimPajamaデータセットは、RedPajamaデータセット(Books3のコピーを含む)をコピー・加工することで作成された」と訴訟は述べています。「したがって、RedPajamaデータセットの派生コピーであるため、SlimPajamaはBooks3データセットを含み、原告およびクラスメンバーの著作権作品も含まれているのです。」
「Books3」は、genAIシステムのトレーニングに使われてきた191,000冊もの書籍の巨大なコレクションであり、テック業界にとって継続的な法的問題の源となっています。RedPajamaも複数の訴訟で言及されています。9月にはAppleに対する訴訟で、同社がApple Intelligenceモデルのトレーニングに著作権保護された資料を使用したと主張されました。この訴訟ではデータセットが言及され、テック企業が「同意もなく、クレジットや報酬もなく」保護作品をコピーしたと非難されました。10月にはSalesforceに対する同様の訴訟でも、同社がトレーニング目的でRedPajamaを使用したと主張されています。
テック業界にとって不幸なことに、このような訴訟は今や珍しいものではなくなっています。AIアルゴリズムは巨大なデータセットでトレーニングされており、場合によってはそれらのデータセットに海賊版資料が含まれているとされています。9月にはAnthropicが、著作物の海賊版を使って自社のチャットボットClaudeをトレーニングしたと訴えた複数の作家に対し、15億ドルの支払いに同意しました。このケースは、AIトレーニングデータにおける著作権資料を巡る継続的な法的闘争の中で、転換点となる可能性があると見なされました。


