Yandex Crowd — это крупный инфраструктурный сервис Яндекса. Мы внедряем краудсорсинг для масштабирования бизнес-процессов (разметка данных, модерация контента, полевые исследования, тестирование) и строим внутренние продуктовые функции (клиентский сервис, телемаркетинг, локализация и документирование). Мы запустили краудсорсинговую платформу Яндекс Задания, участвовали в запуске YandeхGPT, выходе Поиска в Казахстан, обучении Алисы арабскому языку и даже шёпоту — и во многих других проектах Яндекса. Crowd Solutions Architect отвечает за техническую и организационную сторону разметки данных: от сбора требований до анализа качества. Мы создаём решения, которые лежат в основе ML-моделей и автоматизации для сервисов с миллионами пользователей. Сейчас мы расширяем команду и ищем специалиста, который будет продумывать алгоритмы сбора и анализа данных, взаимодействовать с заказчиками, проектировать процессы разметки и улучшать качество данных. Работа сочетает технические, аналитические и управленческие задачи — примерно как 50/30/20 (распределение может динамически меняться в зависимости от задач).

Обязанности:

Проектирование и запуск проектов разметки данных
Вы будете работать с заказчиками — командами Яндекса, которым нужны размеченные данные. Ваша цель — понять их потребности, декомпозировать задачу, спроектировать процесс сбора и разметки данных, запустить стабильное техническое решение. Это может быть как простая текстовая или картиночная разметка, так и сложные, многоэтапные сценарии разметки, проверки и валидации. Пайплайны сбора и обработки данных
Вам нужно будет продумывать архитектуру хранения и обработки данных, создавать и совершенствовать дашборды и витрины данных. Анализ и контроль качества
Качество данных — ключевой показатель успеха. Вам предстоит определять метрики, строить дашборды, проводить эксперименты и анализировать результаты. Например, оценивать скорость разметки, точность исполнителей, влияние изменений в инструкциях и обучении на итоговый результат. Взаимодействие с командами и исполнителями
Вам предстоит координировать работу с командами-заказчиками, смежными инженерными группами и исполнителями заданий. Это включает в себя управление ожиданиями, согласование сроков, проведение встреч и обратную связь.

Ключевые навыки:

  • Уверенно владеете Python и можете писать скрипты для обработки данных
  • Умеете работать с большими файлами (JSON, TSV, CSV) и эффективно их обрабатывать
  • Свободно пишете и применяете SQL-запросы для анализа и трансформации данных
  • Понимаете основы инфографики и визуализации данных
  • Имеете опыт взаимодействия с заказчиками (сбор требований, управление ожиданиями, фиксация результатов)
  • Готовы работать в условиях быстро меняющихся требований и высокой неопределённости

Дополнительные требования:

  • Работали с API и настраивали интеграции между сервисами
  • Применяли методы математической статистики для анализа данных
  • Знакомы с веб-разработкой, понимаете принцип построения архитектуры веб-сервисов (имеете опыт в коммерческих или пет-проектах)
  • Знаете Groovy
  • Имеете опыт проектного управления
  • Знакомы с промпт-инжинирингом для автоматизации процессов
  • Имеете опыт в машинном обучении: создавали или обучали модели в рабочих или академических проектах