Image
истории

Чат-бот ChatGPT «воспитали» сотрудники из Кении, которым платили меньше двух долларов в час. Они изучали тексты об убийствах и изнасилованиях — и поплатились здоровьем Главное из расследования Time

Источник: Meduza
Фото: Gabby Jones / Bloomberg / Getty Images.

Мы говорим как есть не только про политику. Скачайте приложение.

ChatGPT американской компании OpenAI, как и другие чат-боты с искусственным интеллектом, обучался на текстах из открытых источников — практически бесконечной базы с примерами того, как общается человек. Проблема в том, что интернет изобилует расистским, токсичным и в целом жестоким контентом — и его, очевидно, нужно фильтровать для этичной и эффективной работы нейробота. Для такой психологически тяжелой задачи, выяснил журнал Time, создатели ChatGPT наняли рабочих на аутсорсе за оклад от 1,32 доллара в час. «Медуза» пересказывает ключевые факты из расследования.

ChatGPT — это, пожалуй, самый известный чат-бот с искусственным интеллектом в мире. И это крайне успешный проект OpenAI, набравший первый миллион пользователей уже в первую неделю. Венчурные фонды оценивают компанию в 29 миллиардов долларов; руководство Microsoft, которое и так частично ею владеет, намерено вложить еще 10 миллиардов.

Чтобы ChatGPT убедительно и правдоподобно общался с пользователем, через него пропустили огромную коллекцию текстов. Однако чат-бот на текущей стадии допускает множество ошибок — энтузиасты неоднократно обращали внимание на примеры дезинформации, бессмыслицы или потенциально вредоносного контента, вплоть до токсичности, разжигания ненависти и советов по совершению преступлений. И хотя ChatGPT не запрограммирована советовать, как нарушить закон, пользователи постоянно находят лазейки.

Чтобы нелегального или попросту жестокого контента, который может навредить, было существенно меньше, авторам ChatGPT необходимо было предварительно отсеять данные из интернета. Сделать такое вручную нереально. Самый очевидный выход — это создать дополнительную нейросеть для фильтрации в автоматическом режиме: аналогичным инструментом пользуется, например, Facebook при модерации. Подразумевается, что встроенный в ChatGPT «детектор» поможет удалить неэтичный текст до того, как его увидит конечный пользователь.

В материале Time говорится, что OpenAI для тренировки этой нейросети-«детектора» привлекла низкооплачиваемых сотрудников из-за пределов США — а подобная работа негативным образом повлияла на их физическое или психологическое здоровье.

Для разметки текстовых описаний OpenAI обратилась в компанию Sama: ее штаб-квартира находится в Сан-Франциско, но для работы с клиентами из Кремниевой долины — например, Google, Meta и Microsoft — она нанимает людей из Индии, Кении и Уганды. В списке беднейших стран мира по версии финансового издания Global Finance Уганда занимает 25-е место, Кения — 52-е, Индия — 66-е. Sama называет себя сторонником этического использования ИИ и утверждает, что помогла более чем 50 тысячам человек выбраться из бедности.

Для расследования журналисты поговорили с четырьмя сотрудниками Sama, работавшими над проектом для ChatGPT, а также изучили внутренние документы OpenAI и Sama, включая платежные ведомости. Все собеседники из Sama попросили сохранить анонимность из опасения, что их уволят.

Time выяснил, что с ноября 2021 года OpenAI при посредничестве Sama отправила аутсорсинговой фирме в Кении десятки тысяч текстовых фрагментов «из самых темных уголков интернета»: «Некоторые из них подробно описывали сексуальное насилие над детьми, зоофилию, убийства, суициды, пытки, членовредительство и инцесты». Задача сотрудников была в том, чтобы находить и помечать такие текстовые фрагменты соответствующим образом. Один из сотрудников Sama рассказал Time, что по работе прочитал графическое описание секса между мужчиной и собакой в присутствии ребенка — а затем испытывал страдания от «повторяющихся сновидений». В разговоре с изданием он назвал это «пыткой».

По данным расследователей, «маркировщики данных» получали от 1,32 до 2 долларов в час; уровень оклада зависел от стажа работа и уровня производительности. Сотрудники на аутсорсе должны были за девятичасовую смену прочитать 150–250 текстовых фрагментов и проставить им разметку. В каждом фрагменте было от 100 до более чем 1000 слов.

Сотрудники Sama могли посещать индивидуальные консультации и некие «оздоровительные программы для снятия стресса» (компания это подтверждает). Правда, все четыре собеседника Time сказали, что работа «морально их травмировала», а занятия оказались «редкими и бесполезными». Двое из них подчеркнули, что им предлагали лишь групповые занятия, а один и вовсе заявил, что его просьбы об индивидуальных встречах со специалистами неоднократно отклонялись руководством.

В феврале 2022 года OpenAI и Sama досрочно — на восемь месяцев раньше, чем обговаривалось в контрактах, — прекратили сотрудничество. По данным Time, перед этим OpenAI начала работать над проектом, не относящимся к ChatGPT, и попросила обработать 1400 изображений с потенциально незаконным содержанием, например с изнасилованиями, секс-рабством, насилием по отношению к детям и изображением смерти. OpenAI якобы объяснила, что это «необходимо» для повышения безопасности ее ИИ-проектов.

Как только руководство Sama узнало о таком запросе, оно объявило о завершении совместных проектов с OpenAI. В разговоре с Time представитель Sama объяснил: «Те, кто работал с клиентом, не проверили запрос по нужным каналам. После рассмотрения ситуации отдельные люди были уволены, были введены новые правила и ограничения». OpenAI подтверждает факт подобного запроса, но отмечает, что никогда не планировала собирать данные о секс-насилии над детьми: «Такой контент не используется в наших фильтрах, и мы просим сотрудников избегать его. Как только Sama сообщила, что пытается обрабатывать контент этой категории, мы пояснили, что произошло недопонимание и что нам это не нужно».

По словам собеседников Time, еще одной причиной, по которой Sama прекратила работу с OpenAI, стало февральское расследование издания о модераторах контента Facebook в Африке, которым приходилось за 1,5 доллара в час просматривать фото и видео изнасилований, казней и других жестоких вещей. Тех модераторов тоже наняла Sama.

Как выяснил Time, Open AI заключила с Sama три контракта на общую сумму 200 тысяч долларов — все в конце 2021 года. OpenAI заявила, что к моменту досрочного разрыва соглашений услуги были выполнены на 150 тысяч долларов. Последнюю партию данных Sama отдала OpenAI в марте 2022 года.

Один из модераторов Sama рассказал Time о встрече с отделом кадров в феврале 2022 года: «Нам сказали, что они [руководство] не хотят снова подвергать подчиненных просмотру столь [опасного] контента. Мы ответили, что так мы обеспечиваем свои семьи». По данным издания, большинство из трех десятков сотрудников перевели на другие низкооплачиваемые проекты; остальные потеряли работу совсем.

  • (1) На каких текстах?

    Вся Википедия, база проекта Common Crawl с данными о вебе за 12 лет и дата-сеты с книгами.

  • (2) Почему так?

    Потому что ChatGPT училась на базах данных до 2021 года и с тех пор не обновляет эти знания в постоянном режиме.

  • (3) Facebook

    Социальная сеть принадлежит компании Meta, которая объявлена в России «экстремистской организацией», деятельность компании в РФ запрещена. Мы вынуждены указывать это по требованию российских властей.
  • (4) Разметка данных

    Обязательный процесс при машинном обучении. Речь идет о выявлении объектов в сыром тексте, изображении или видео, а также проставлении к ним меток. Это помогает искусственному интеллекту обрабатывать контент и выдавать результат точнее и эффективнее.

  • (5) Meta

    Компания Meta объявлена «экстремистской организацией», ее деятельность на территории России запрещена. Мы вынуждены указывать это по требованию российских властей.
  • (6) А что еще делает OpenAI?

    Например, проект DALL-E 2 — прорывной проект в сфере генерации изображений с помощью ИИ на основе заданного пользователем текста.