Разделы

Интернет Веб-сервисы

«Яндекс» опубликовал первый русскоязычный видеоучебник по краудсорсингу

«Яндекс» опубликовал первый русскоязычный туториал по краудсорсингу. Это серия видео о том, как с помощью передачи простых заданий большому числу исполнителей можно эффективно собрать и разметить данные. Исполнителям можно поручить разные задания: найти что угодно в интернете, оценить дизайн, проверить или создать контент, поучаствовать в опросе, добраться до точки на карте и сфотографировать там что-нибудь. Тысячи людей будут одновременно выполнять перечисленные действия, формируя необходимый набор данных. Выпуск туториала — повод вновь поговорить о том, как краудсорсинг радикально меняет процессы в компаниях.

Первая версия краудсорсинговой платформы «Яндекс.толока» вышла в 2014 г. Изначально платформу строили для нужд «Яндекс.поиска» (хотя идея приносить пользу другим сервисам и внешним заказчикам возникла сразу же). Алгоритмы учились ранжировать результаты поиска по степени полезности, обучаясь на данных, которые размечались вручную: люди оценивали, релевантен ли найденный ответ поисковому запросу. Тем самым тысячи толокеров (так называют исполнителей) вносили и по-прежнему вносят вклад в качество поиска.

Применение краудсорсинга в поиске стало развитием идей, которые использовались и ранее, просто в менее автоматическом режиме. А вот дальнейшие задачи для исполнителей, придуманные командами «Яндекса», уже полностью опирались на возможности «Толоки». Сегодня десятки тысяч толокеров регулярно проверяют информацию об организациях на «Яндекс.картах», улучшают рекомендации «Яндекс.музыки» и поиск похожих изображений в «Картинках». Беспилотный автомобиль учится определять разные типы объектов вокруг, ориентируясь на фотографии, размеченные исполнителями вручную. Целые блоки важных сервисов и отдельные сайты и приложения работают благодаря «Толоке».

В 2016 г. заказчики из-за пределов компании тоже получили возможность создавать задания в «Толоке». Rambler Group поручил исполнителям модерацию на всех своих ресурсах, интернет-магазину Ozon и сервису «Авито» толокеры помогают улучшать поиск по товарам, стартап Dbrain распознает с помощью платформы текстовые документы (это ключевая часть продукта Dbrain). Суммарно над проектами «Яндекса» и других компаний ежедневно трудятся 30 тыс. исполнителей — они выполняют более двенадцати миллионов заданий в день. Со временем «Толока» превратилась из инфраструктуры для поиска сначала в инфраструктуру для всего «Яндекса», а затем — в инфраструктурную платформу для развития машинного обучения во всем русскоязычном интернете.

Итак, «Толока» помогает делать масштабные проекты через выдачу однотипных заданий многим людям. Умение заказчика превращать крупную задачу в набор очень мелких как раз и служит главным фактором его успеха на платформе. Экономика «Толоки» строится на простоте и дешевизне каждого отдельного задания: инструкции должны быть сразу же понятны исполнителю, он должен потратить минимум времени (в идеальном случае — пару секунд) на выполнение и поскорее перейти к следующему заданию: чем больше он сделает, тем выше вознаграждение получит.

Ответ, данный так быстро, может быть неточным, но это далеко не всегда повод усложнять условие. Пусть один и тот же объект разметят для вас несколько исполнителей: кто-то из них ошибется, но у системы будет несколько альтернативных мнений, которыми можно оперировать для получения финального (уже наверняка корректного) ответа. Кроме того, полезно предлагать короткие вводные к заданиям, тестировать толокеров, выдавать им разные навыки по результатам тестов, подключать к заданиям только тех, кто обладает нужным навыком, выполнять контроль качества и т.п.

Именно о таких механиках и рассказывают сотрудники «Яндекса» в туториале по краудсорсингу. В записи видео поучаствовали специалисты из команды «Толоки»: руководитель отдела эффективности и развития Алексей Друца, руководитель группы анализа данных и исследований Евфросиния Зерминова и аналитик-исследователь Валентина Федорова. Чтобы разобраться в туториале, а затем придумать и реализовать свою систему задач, не нужны знания разработчика или аналитика: в «Яндексе» этим часто занимаются менеджеры сервисов. Главное — научиться формулировать инструкции и разбивать задания на все более простые.

Стандартный рабочий процесс инженера по машинному обучению состоит из двух частей: подготовки данных и проверки разных ML-моделей. Первая часть считается гораздо более долгой и рутинной, потому что сложно собрать действительно ценный датасет сразу в том виде, который хорошо подходит для машинного обучения. Обычно в датасетах много аномалий, плохо размеченных фрагментов, ошибок и «шума». Все это дополнительно усугубляется, если данные собирает сторонняя компания, которая хуже понимает нужды ML-инженеров либо просто не обладает средствами для улучшения ситуации. Качественные наборы данных — ценность в индустрии, «новая нефть в эпоху искусственного интеллекта», как говорит один из авторов туториала Алексей Друца. Компании не очень часто делятся датасетами, а те из них, которые использует академическое сообщество для сравнения моделей, редко подходят для реальных задач.

Методы краудсорсинга из туториала дают возможность инженерам и участникам их команд самим настраивать процесс сбора данных. Рутинная часть сокращается — можно быстрее перейти к проверке гипотез, тестированию библиотек для обучения и настройке моделей. Часть датасетов, собранных толокерами для «Яндекса», доступна в открытом виде. Команда «Толоки» поддерживает исследования в области ML и продолжит публиковать уникальные наборы данных.