О команде: Команда автомодерации (Trust & Safety) отвечает за то, чтобы пользователи Авито не сталкивались с нежелательным контентом, а платформа оставалась надёжной и безопасной.Мы разрабатываем и поддерживаем ML-систему проверки объявлений по тексту, фото и параметрам — она уже автоматизирует большую часть проверок и снижает нагрузку на ручную модерацию.Сейчас мы ищем фулстек-специалиста Data Science на стыке двух направлений: бизнес-задач вертикали Авито Услуги и платформенной задачи дедупликации. Предстоит вести ML-решения end-to-end: от данных и обучения моделей до инференса и мониторинга в продакшене.
Примеры будущих задач: — повышать качество автомодерации на уровне продукта (фокус — вертикаль Авито Услуги; например, проверка соответствия категории объявления);— развивать платформенную систему поиска дублей и почти дубликатов, а также смежные задачи: подмена контента, искусственные рефреши объявлений;— выбирать оптимальный подход под задачу и риск: от правил и регулярных выражений и классических моделей до трансформеров и LLM (в зависимости от тяжести нарушения, бизнес-эффекта и стоимости решения);— готовить данные и датасеты: сбор, разметка и правила, генерация обучающих выборок, контроль качества данных;— разрабатывать модели модерации текста (≈ 80%) и изображений (≈ 20%), комбинировать сигналы из текста, фото и параметров объявления;— встраивать модели в пайплайны автомодерации и обеспечивать стабильную работу в продакшене;— настраивать мониторинг качества и деградаций во времени, алерты и регулярные итерации улучшений;— оценивать влияние решений на продукт и бизнес-метрики.
Будет здорово, если вы: — умеете проводить полный цикл ML-разработки: данные → модель → прод → мониторинг → проверка влияния (AB-тест или эквивалентные подходы);— имеете опыт в NLP или опыт вывода и сопровождения моделей в продакшене;— уверенно владеете Python и DS-стеком: NumPy / pandas, scikit-learn, CatBoost (или аналоги), и умеете работать с DL-фреймворками (например, PyTorch);— понимаете, как выбирать методы под задачу и аргументированно объяснять компромиссы между качеством, стоимостью, скоростью и рисками;— умеете оценивать качество моделей при запуске и отслеживать его изменение во времени (дрейф, деградации, проблемы данных);— пишете SQL-запросы на уровне, достаточном для анализа данных и диагностики качества;— читаете англоязычную техническую литературу.