В основе революции искусственного интеллекта лежат данные. Огромные массивы информации используются для обучения моделей машинного обучения, которые затем применяются в различных сферах — от распознавания речи до генерации контента и медицинской диагностики. Однако вопрос о правомерности использования данных для обучения ИИ находится на сложном перекрестке двух областей права: интеллектуальной собственности и защиты персональных данных.
Дилемма обучающих данных: интеллектуальная собственность и fair use
Для обучения современных моделей искусственного интеллекта, особенно крупных языковых моделей (LLM) и генеративных моделей изображений, используются миллиарды текстов, изображений и других произведений. Значительная часть этих материалов защищена авторским правом, что создает фундаментальный вопрос: является ли использование защищенных произведений для обучения ИИ нарушением авторских прав?
В разных юрисдикциях этот вопрос решается по-разному:
- В США часто применяется доктрина "добросовестного использования" (fair use), которая может разрешать использование защищенных произведений без лицензии при определенных условиях, включая трансформативное использование. Ряд судов рассматривал машинное обучение как потенциально трансформативное использование, но единообразной практики пока не сложилось.
- В Европейском Союзе Директива об авторском праве на едином цифровом рынке (2019) вводит исключение для "интеллектуального анализа текста и данных" (text and data mining) в научных исследованиях, но с определенными ограничениями для коммерческого использования.
- В Японии законодательство прямо разрешает интеллектуальный анализ данных, включая обучение моделей ИИ, без необходимости получения разрешения правообладателей.
Ситуация осложняется тем, что многие компании, разрабатывающие системы ИИ, не раскрывают полный список источников, использованных для обучения своих моделей, что затрудняет правовую оценку.
Судебные споры о данных для обучения ИИ
В последние годы появился ряд знаковых судебных дел, связанных с использованием данных для обучения моделей ИИ:
- New York Times против OpenAI и Microsoft: Издание подало иск, утверждая, что модели GPT были обучены на статьях NYT без разрешения, и что эти модели могут воспроизводить защищенный контент.
- Getty Images против Stability AI: Фотобанк обвинил разработчика Stable Diffusion в использовании миллионов изображений для обучения без лицензии.
- Дело группы авторов против OpenAI: Несколько известных писателей подали коллективный иск, утверждая, что их книги были использованы для обучения ChatGPT без разрешения и компенсации.
Исходы этих дел могут существенно повлиять на будущее развитие ИИ и сформировать прецеденты для аналогичных споров.
Персональные данные в обучающих наборах: проблема конфиденциальности
Помимо вопросов интеллектуальной собственности, использование данных для обучения ИИ затрагивает сферу защиты персональных данных. Многие наборы данных содержат информацию, которая может идентифицировать конкретных людей:
- Фотографии и видеозаписи с изображениями людей
- Тексты, содержащие персональные истории, мнения, медицинскую информацию
- Данные о поведении, предпочтениях, привычках пользователей
- Голосовые записи и другие биометрические данные
В Европейском Союзе Общий регламент по защите данных (GDPR) устанавливает строгие требования к обработке персональных данных, включая необходимость правовых оснований, таких как согласие субъекта или законный интерес. Это создает значительные ограничения для компаний, разрабатывающих ИИ:
- Необходимость получения согласия или обеспечение другого правового основания для обработки
- Обязанность информировать субъектов данных об использовании их информации
- Необходимость обеспечения прав субъектов, включая право на доступ и удаление данных
- Проведение оценки воздействия на защиту данных для рискованной обработки
В США регулирование более фрагментировано, но такие законы, как Калифорнийский закон о защите конфиденциальности потребителей (CCPA), также вводят ограничения на использование персональных данных.
Баланс между инновациями и защитой прав
Поиск баланса между поощрением инноваций в области ИИ и защитой интеллектуальной собственности и персональных данных остается сложной задачей. Среди возможных подходов к этой проблеме:
- Лицензирование данных для ИИ. Развитие рынков лицензирования контента специально для обучения моделей ИИ, где правообладатели получают компенсацию за использование их работ. Уже появляются платформы, специализирующиеся на предоставлении лицензионных данных для ИИ.
- Технические решения. Разработка технологий, которые позволяют обучать модели ИИ с минимальным риском нарушения прав:
- Федеративное обучение, при котором модель обучается на устройствах пользователей, не централизуя данные
- Дифференциальная приватность, обеспечивающая математические гарантии конфиденциальности
- Синтетические данные, которые имитируют реальные, но не содержат личной информации
- Правовые реформы. Адаптация законодательства к реалиям ИИ через создание специальных исключений или режимов для интеллектуального анализа данных и машинного обучения, с учетом интересов всех заинтересованных сторон.
- Саморегулирование отрасли. Разработка индустриальных стандартов и лучших практик для этичного и законного сбора и использования данных для обучения ИИ.
Собственные данные компаний: стратегический актив
Для многих компаний собственные данные становятся критически важным стратегическим активом, который может обеспечить конкурентное преимущество в разработке ИИ-решений. В этом контексте возникает ряд правовых вопросов:
- Защита коммерческой тайны. Наборы данных, собранные компаниями, могут рассматриваться как коммерческая тайна, если они обеспечивают конкурентное преимущество и компания принимает разумные меры для сохранения их секретности.
- Договорные отношения. В договорах с сотрудниками, подрядчиками и пользователями важно четко определить права на данные и возможность их использования для обучения ИИ.
- Ответственность за данные третьих лиц. Если компания использует данные, полученные от третьих лиц, важно обеспечить, что такое использование соответствует лицензионным условиям и применимому законодательству.
Компании разрабатывают различные стратегии управления данными для ИИ, включая:
- Создание специализированных "чистых комнат" (clean rooms) для работы с данными
- Внедрение политик управления данными с учетом требований к ИИ
- Разработка процессов аудита и документирования наборов данных
- Внедрение технических мер для минимизации рисков нарушения прав
Ответственность за результаты обучения ИИ на проблемных данных
Отдельная проблема связана с ответственностью за результаты работы систем ИИ, обученных на данных с дефектами, предвзятостью или нарушениями прав:
- Дискриминация и предвзятость. Если система ИИ обучена на данных, содержащих социальные предубеждения, она может воспроизводить или даже усиливать дискриминацию. Это может привести к юридической ответственности по антидискриминационному законодательству.
- Нарушения авторских прав в результатах. Если модель ИИ, обученная на защищенных произведениях, генерирует результаты, существенно сходные с оригинальными работами, это может рассматриваться как нарушение авторских прав.
- Распространение дезинформации. Модели, обученные на недостоверных данных, могут генерировать ложную информацию, что создает риски репутационного ущерба и потенциальной юридической ответственности.
В ответ на эти вызовы разрабатываются новые подходы к обеспечению качества и соответствия данных:
- Методологии курирования и очистки наборов данных
- Системы документирования и метаданных для обучающих наборов (datasheet for datasets)
- Инструменты для выявления и устранения предвзятости в данных
- Прозрачные процессы оценки и аудита моделей ИИ
Международные аспекты защиты данных для ИИ
Глобальный характер разработки ИИ создает дополнительные сложности из-за различий в правовых системах разных стран. Компании, работающие в сфере ИИ, должны учитывать:
- Трансграничную передачу данных. Ограничения на передачу персональных данных между юрисдикциями (например, механизмы передачи данных из ЕС в США после отмены Privacy Shield).
- Различия в режимах интеллектуальной собственности. То, что является добросовестным использованием в одной стране, может быть нарушением в другой.
- Локализацию данных. Требования некоторых стран хранить данные граждан на серверах, расположенных на их территории.
- Экспортный контроль. Ограничения на передачу технологий ИИ и связанных с ними данных в определенные страны.
Практические рекомендации для компаний и разработчиков
На основе текущего состояния законодательства и практики можно сформулировать следующие рекомендации для компаний, работающих с данными для обучения ИИ:
- Провести аудит данных. Тщательно проверить источники данных для обучения, их правовой статус и наличие необходимых прав на использование.
- Разработать стратегию управления данными, включающую процессы документирования, оценки рисков и обеспечения соответствия требованиям.
- Внедрить технические меры для защиты конфиденциальности и минимизации рисков нарушения прав, такие как анонимизация, федеративное обучение или дифференциальная приватность.
- Обеспечить прозрачность в отношении использования данных, включая публикацию информации о типах используемых данных и мерах по защите прав.
- Рассмотреть лицензионные модели для получения данных от правообладателей с явным разрешением на использование для обучения ИИ.
- Следить за развитием законодательства и судебной практики в разных юрисдикциях и адаптировать стратегию по мере необходимости.
Будущее регулирования данных для ИИ
В ближайшие годы мы, вероятно, увидим значительное развитие правового регулирования в области использования данных для ИИ:
- Формирование судебной практики по ключевым делам о правомерности использования данных для обучения ИИ
- Принятие специализированных законов и норм, адаптированных к реалиям ИИ, таких как Акт об ИИ в Европейском Союзе
- Разработка международных стандартов и руководств по ответственному использованию данных для ИИ
- Появление новых бизнес-моделей и рынков для лицензирования данных, специально предназначенных для обучения ИИ
Компании и разработчики ИИ, которые уже сейчас уделяют внимание правовым аспектам использования данных, будут лучше подготовлены к этим изменениям и смогут минимизировать риски, связанные с потенциальными нарушениями интеллектуальной собственности и конфиденциальности данных.
В конечном счете, устойчивое развитие технологий искусственного интеллекта возможно только при балансе между инновациями и защитой фундаментальных прав на интеллектуальную собственность и конфиденциальность данных. Поиск этого баланса — одна из ключевых задач для правовых систем и индустрии ИИ в целом на ближайшие годы.