истории

Журналист «Медузы» запросил у «Яндекса» полный архив своих данных. Он получил десятки файлов из разных сервисов — но там не оказалось почты

Источник: Meduza

Мы говорим как есть не только про политику. Скачайте приложение.

Хотя «Яндекс» остается преимущественно российской компанией, он все же подчиняется Общему регламенту по защите данных (GDPR) — документу, который обязывает интернет-компании ответственно относиться к данным жителей Евросоюза. В частности, GDPR обязывает компании выдавать по запросу пользователя полную копию данных о нем (в противном случае ей грозит штраф до 20 миллионов евро). Журналист «Медузы» Султан Сулейманов, живущий в Латвии, воспользовался GDPR, чтобы запросить у «Яндекса» данные о себе. Вот что из этого получилось.

Процедура

У «Яндекса» нет отдельной формы или страницы, позволяющей скачать архив с данными о себе — поэтому я просто написал письмо на общую почту службы поддержки [email protected], где сослался на GDPR и указал фамилию, имя и место жительства. В моем профиле (это называется «Яндекс.Паспорт») при этом не было указано полное имя, а в качестве страны проживания была указана Россия.

Комментарий пресс-службы «Яндекса»: «В данном случае пользователь — это аккаунт, а не конкретный человек. Если нам поступил запрос от аккаунта с привязанной к нему Почты, то мы выгружаем данные на Диск этого же аккаунта. Третьи лица доступа к этим данным не получат. Дополнительных проверок не требуется».

Несмотря на это расхождение, в службе поддержки не стали ничего уточнять и не попросили прислать документы, подтверждающие личность. 4 декабря — почти через месяц после того, как был отправлен запрос — «Яндекс» ответил, что не успевает собрать все данные, и попросил подождать еще (GDPR позволяет продлить время на ответ со стандартного одного месяца до трех).

Окончательный ответ пришел 21 января — через два с половиной месяца после запроса. В письме оказалась ссылка на мой «Яндекс.Диск», в который загрузили архив с копией данных, а также ссылки на две инструкции: как выгрузить письма из «Яндекс.Почты» и все файлы с «Яндекс.Диска» (поэтому рекурсии с копией «Диска» на «Диске» не вышло).

Что нашлось в архиве

Размер файла gdpr.zip, который загрузили на «Яндекс.Диск», — всего полмегабайта. В распакованном виде он занимает 8 мегабайт: внутри были исключительно текстовые документы в машиночитаемом виде (для сравнения, Telegram присылает пользователю аккуратно сверстанные HTML-страницы).

Документы разложены по папкам, примерно соответствующим сервисам «Яндекса»: есть, например, «Карты», «Такси», «Кинопоиск» и «Поиск». Никаких пояснений к данным нет: чаще всего о том, что значит то или иное поле, можно понять по контексту, но иногда сделать это непросто.

Image
Содержимое архива, присланного «Яндексом»

Вот что содержится в каждой папке:

«Афиша». Логично предположить, что файлы относятся к сервису «Яндекс.Афиша». Но точно установить, что за данные они содержат, у меня не получилось. В одном файле приводился короткий список мероприятий, которые я, видимо, когда-то просматривал (их названия зашифрованы — прочитать можно только теги, которые к ним относятся). Во втором — список музыкантов и групп, чьи песни, по всей видимости, я слушал в «Яндекс.Музыке». Вероятно, он нужен, чтобы предлагать подходящие события: в списке нет конкретных треков, но указано, сколько раз я слушал песни того или иного исполнителя.

«Беру и Маркет». Еще два файла, очевидно, связанных с «Яндекс.Маркетом»: в одном оказался отзыв 2014 года, который я оставлял интернет-магазину знакомого, во втором — наушники, которые я в 2018-м добавил в «отложенные». И то, и другое можно посмотреть и через стандартный интерфейс «Маркета». Списка товаров, которые я искал в сервисе, в отчете «Яндекса» нет — то ли компания не хранит эту информацию, то ли забыла ее включить в архив.

«Дзен». Здесь оказался огромный файл почти на 50 тысяч строк (или примерно на 10 тысяч записей) с историей страниц и сайтов, которые я просматривал через «Яндекс.Дзен» с июля 2018 года. Причем в документ, судя по всему, попали не только материалы, которые я читал, но и страницы, которые просто попадались в ленте рекомендаций: параметр event где-то принимал значения click и visit, а где-то — show.

«Диалоги». Несколько небольших файлов, связанных с навыками для голосового помощника «Алиса», которые я начинал разрабатывать. В одном из них перечислены пользователи, установившие эти навыки — но так как они непубличные, в списке оказался только я сам.

«Карты». Один из документов в этой папке содержал описание точек и маршрутов, созданных через сервис «Мои карты» (в нем можно пометить определенные места на карте мира и поделиться результатом с другими). Второй — даты (с точностью до секунды), когда я заходил на сайт «Яндекс.Карт» с компьютера за последний год. Третий — с историей запуска приложения «Карт» на айфоне с точными координатами, где это происходило. Значение еще одного файла я так и не понял: в нем перечислены названия и координаты 77 мест, которые я, вероятно, искал (хотя вспомнить, зачем мне понадобилось бы вбивать в поиск по карте «РЖД Южно-Уральская железная дорога Моторвагонное депо Курган», я не смог). Все места в этом списке приведены один раз и не совпадают с историей моего поиска в «Яндекс.Картах».

«Кинопоиск». В октябре 2018 года сервис «Кинопоиск» начал переход на авторизацию через аккаунты в «Яндексе». Поэтому у «Яндекса» оказалась часть информации обо мне: судя по присланному архиву, это список моих друзей и общие сведения об аккаунте. Но и то, и другое пришло в странном виде: в списке друзей в файле «Яндекса» указано три пользователя, хотя сайт «Кинопоиска» сообщает, что друзей у меня вообще нет. Один из указанных пользователей добавлял меня в друзья, но откуда взялись двое других — загадка. В файл с информацией об аккаунте попали также фрагменты двух из трех личных сообщений, присланных мне в «Кинопоиске» — судя по их виду, это случилось по ошибке.

Image
Как это выглядит

«Метрика». В эту папку вошла одна таблица со списком счетчиков «Яндекс.Метрики», которые я устанавливал на разных сайтах — в том числе на страничке, созданной в 2011 году на «Народе». Никакой статистики в таблице нет, только идентификаторы счетчиков и контактный адрес электронной почты.

«Музыка». Самый большой файл в архиве — более пяти мегабайт. Внутри — история прослушивания шести тысяч треков из «Яндекс.Музыки» с уточнением, какую песню, когда и на какой платформе я слушал. Значительный вклад в этот список внесла «Яндекс.Станция», на которой последние полгода постоянно играет музыка. В тот же файл вошли лайки, которые я поставил песням (список, присланный «Яндексом», почему-то не совпадает со списком в профиле «Яндекс.Музыки»), и плейлисты, которые я составлял в сервисе. Еще несколько полей оказались пустыми: настройки, трансляции, совместные плейлисты и некий «волшебник» (wizard).

«Паспорт». Документы в этой папке связаны с самим аккаунтом в «Яндексе». В первом приведены неполные данные о том, на каких устройствах я авторизован (с указанием IP-адресов входа), во втором — данные профиля, которые я заполнял сам: имя, фамилия, дата рождения, номер телефона, резервный почтовый ящик и ссылки на аккаунты в соцсетях и «Кинопоиске».

«Поиск». При подготовке этого материала я выяснил, что в «Яндексе» больше нельзя посмотреть историю своих поисковых запросов — функция «Мои находки», существовавшая с 2007 года, исчезла в 2017-м. В отчете компании таблица с поисковыми запросами есть: в ней указаны записи с 2015 года с датой и временем поиска. В таблицу попали не только запросы, которые я вводил непосредственно в «Яндексе», но и то, что по моей просьбе искала в интернете голосовая помощница «Алиса» на телефоне. Еще две таблицы в этой папке содержат историю поиска картинок и видео в поисковике.

«Такси». Здесь оказалось сразу 12 файлов, в которых приведены:

  • банковские карты, привязанные к аккаунту (номера карт приводятся без части цифр, CVV-кода в документе нет);
  • адреса, которые, судя по названиям файлов, приложение «Яндекс.Такси» должно предлагать установить в виде начальной и финальной точки поездки;
  • список трех десятков моих поездок на такси с указанием, на какой машине я ездил, какой картой и какую сумму заплатил, какую оценку поставил и какие промежуточные точки проехал. В файле также даны ссылки на сами маршруты, нарисованные на карте. Вся эта информация также доступна в меню «История поездок» в приложении «Яндекс.Такси»;
  • еще один список с историей поездок, уже на 64 записи; здесь приведены, в частности, рассчитанная и фактическая длина пути, год производства автомобиля и размер чаевых;
  • несколько ссылок на чеки, оформленные по итогам поездок;
  • жалоба, которую я подал на одного из водителей;
  • мой email, номер телефона и сохраненные в «Яндекс.Такси» адреса.
Image

«Datasync». Наконец, в этой папке лежал файл с набором баз данных, содержащих разрозненную информацию обо мне. В этом наборе оказались, в частности:

  • адреса, на которые я заказывал доставку каких-то товаров;
  • закладки в «Яндекс.Картах»;
  • история точек, которые я ставил на тех же картах;
  • история поисковых запросов в «Картах»;
  • какая-то информация, связанная с моими фотографиями на «Яндекс.Диске» (в документе есть ссылки на их превью) — вероятно, она используется, чтобы присылать уведомления в духе «Посмотрите фото, сделанное ровно три года назад»;
  • мой рабочий адрес, который, по всей видимости, «Яндекс» вычислил самостоятельно: он указан в блоке extracted_addresses («извлеченные адреса») и не совпадает с фактическим адресом — вместо улицы Кришьяна Валдемара указана соседняя Сколас.

Кроме того. В отчете, присланном «Яндексом», нашлись поисковые запросы, введенные в строку поиска в «Яндекс.Телефоне»; данные об использовании платформы «Яндекс.Коннект»; сообщение о баге, которое я отправил в службу поддержки «Яндекс.Такси» (оно приводится в двух разных документах); информация о профиле и выполненных заданиях в сервисе «Яндекс.Толока».

Чего в архиве не оказалось

Запрашивая у «Яндекса» всю информацию о себе, я в первую очередь думал о почте и облачном хранилище: остались ли на серверах компании удаленные письма и файлы? И сохраняется ли история изменения файлов? К сожалению, узнать ответы на эти вопросы не получилось: компания не стала включать содержимое этих двух сервисов в отчет, вместо этого предложив скачать письма и документы через стандартную процедуру.

Данные из «Почты» «Яндекс» предлагает скачать с помощью одного из почтовых клиентов для компьютера (вроде Outlook или The Bat). Очевидно, что они получат только те письма, которые доступны пользователю в веб-интерфейсе — и узнать, не осталось ли на серверах «Яндекса» следов удаленных сообщений, так не выйдет.

Похожая ситуация с «Диском»: компания советует просто выделить все файлы и нажать «Скачать». В таком случае можно восстановить только документы, лежащие в «Корзине» (оттуда все удаляется через 30 дней).

Кроме писем и содержимого «Диска», в отчете «Яндекса» не нашлось:

  • данных из календаря;
  • задач из сервиса «Дела», встроенного в почту;
  • списка контактов;
  • черновиков публикаций в «Дзене»;
  • отзывов об объектах на «Яндекс.Картах»;
  • истории событий на сервисах «Яндекса» (в «Паспорте» можно посмотреть, когда и с какого браузера я заходил);
  • привязанной к аккаунту в «Яндексе» (не «Такси») банковской карты;
  • «Яндекс.Денег» целиком (хотя можно предположить, что это отдельная компания, и у «Яндекса» нет никаких данных оттуда);
  • товаров, купленных через «Яндекс.Маркет» (хотя в профиле пользователя они видны);
  • информации об использовании «Яндекс.Погоды» (например, городов, для которых я проверял информацию);
  • истории использования «Яндекс.Станции» — например, опробованных навыков (если эти сведения хранятся в «Яндексе»);
  • данных, которые собрал обо мне «Яндекс.Браузер» в процессе использования — например, истории посещенных страниц, если она хранится не локально.

Собственные данные изучал Султан Сулейманов

  • (1) Машиночитаемость

    Формат, который легко анализировать компьютеру, но может быть трудно считывать человеку. В случае с архивом «Яндекса» это были преимущественно файлы форматов JSON и CSV. Вероятно, их просто скачали с серверов и никак не обрабатывали.

  • (2) «Народ»

    Бесплатный конструктор и хостинг сайтов, который до 2013 года принадлежал «Яндексу»

  • (3) Почему неполные?

    В «Яндекс.Паспорте» тоже можно посмотреть, с каких устройств и в каких сервисах я авторизован с помощью своего аккаунта. Некоторых устройств, указанных на сайте, не было в отчете, присланном в ответ на запрос по GDPR.