Як і майже кожна інша технологічна компанія, Adobe за останні кілька років активно впроваджує штучний інтелект. З 2023 року ця компанія запустила низку різних AI-сервісів, включаючи Firefly — свій набір інструментів для генерації медіа на основі AI. Однак тепер повне прийняття цієї технології компанією могло призвести до проблем, оскільки новий судовий позов стверджує, що Adobe використовувала піратські книги для навчання однієї зі своїх AI-моделей.
У запропонованому колективному позові, поданому від імені Елізабет Лайон, авторки з Орегону, стверджується, що Adobe використовувала піратські версії численних книг, включаючи її власні, для навчання програми компанії SlimLM.
Adobe описує SlimLM як серію невеликих мовних моделей, які можуть бути «оптимізовані для завдань допомоги з документами на мобільних пристроях». Компанія заявляє, що SlimLM була попередньо навчена на SlimPajama-627B, «дедуплікованому, мульти-корпусному, відкритому датасеті», випущеному Cerebras у червні 2023 року. Лайон, яка написала низку посібників з написання нон-фікшн, стверджує, що деякі з її робіт були включені до датасету для попереднього навчання, який використовувала Adobe.
Позов Лайон, про який вперше повідомило Reuters, стверджує, що її твори були включені до обробленої підмножини зміненого датасету, який став основою програми Adobe: «Датасет SlimPajama був створений шляхом копіювання та маніпулювання датасетом RedPajama (включаючи копіювання Books3)», йдеться у позові. «Таким чином, оскільки це похідна копія датасету RedPajama, SlimPajama містить датасет Books3, включаючи твори, захищені авторським правом Позивачки та членів Класу».
«Books3» — величезна колекція з 191 000 книг, які використовувалися для навчання систем generative AI — вже давно є джерелом юридичних проблем для технологічної спільноти. RedPajama також згадувалася у низці судових справ. У вересні позов проти Apple стверджував, що компанія використовувала захищені авторським правом матеріали для навчання своєї моделі Apple Intelligence. У позові згадувався цей датасет і компанію звинувачували у копіюванні захищених творів «без згоди, без визнання авторства та без компенсації». У жовтні подібний позов проти Salesforce також стверджував, що компанія використовувала RedPajama для навчання.
На жаль для технологічної індустрії, такі позови вже стали досить звичними. Алгоритми AI навчаються на величезних датасетах, і в деяких випадках ці датасети, як стверджується, містять піратські матеріали. У вересні Anthropic погодилася виплатити 1,5 мільярда доларів низці авторів, які подали на неї позов і звинуватили у використанні піратських версій їхніх творів для навчання чат-бота Claude. Ця справа вважалася потенційним поворотним моментом у триваючих юридичних баталіях щодо захищених авторським правом матеріалів у навчальних даних AI, яких існує чимало.


