12 hours ago

Data Scientist в команду автомодерации

Full time

Москва, гибрид

Data ScienceData ScientistMachine LearningCatBoostPandasPyTorchTrust & Safetyscikit-learnКонтроль качестваМониторингsql-запросыМетрикиend-to-endFull-StackУслуги

Job description

О команде: Команда автомодерации (Trust & Safety) отвечает за то, чтобы пользователи Авито не сталкивались с нежелательным контентом, а платформа оставалась надёжной и безопасной.Мы разрабатываем и поддерживаем ML-систему проверки объявлений по тексту, фото и параметрам — она уже автоматизирует большую часть проверок и снижает нагрузку на ручную модерацию.Сейчас мы ищем фулстек-специалиста Data Science на стыке двух направлений: бизнес-задач вертикали Авито Услуги и платформенной задачи дедупликации. Предстоит вести ML-решения end-to-end: от данных и обучения моделей до инференса и мониторинга в продакшене.

Примеры будущих задач: — повышать качество автомодерации на уровне продукта (фокус — вертикаль Авито Услуги; например, проверка соответствия категории объявления);— развивать платформенную систему поиска дублей и почти дубликатов, а также смежные задачи: подмена контента, искусственные рефреши объявлений;— выбирать оптимальный подход под задачу и риск: от правил и регулярных выражений и классических моделей до трансформеров и LLM (в зависимости от тяжести нарушения, бизнес-эффекта и стоимости решения);— готовить данные и датасеты: сбор, разметка и правила, генерация обучающих выборок, контроль качества данных;— разрабатывать модели модерации текста (≈ 80%) и изображений (≈ 20%), комбинировать сигналы из текста, фото и параметров объявления;— встраивать модели в пайплайны автомодерации и обеспечивать стабильную работу в продакшене;— настраивать мониторинг качества и деградаций во времени, алерты и регулярные итерации улучшений;— оценивать влияние решений на продукт и бизнес-метрики.

Будет здорово, если вы: — умеете проводить полный цикл ML-разработки: данные → модель → прод → мониторинг → проверка влияния (AB-тест или эквивалентные подходы);— имеете опыт в NLP или опыт вывода и сопровождения моделей в продакшене;— уверенно владеете Python и DS-стеком: NumPy / pandas, scikit-learn, CatBoost (или аналоги), и умеете работать с DL-фреймворками (например, PyTorch);— понимаете, как выбирать методы под задачу и аргументированно объяснять компромиссы между качеством, стоимостью, скоростью и рисками;— умеете оценивать качество моделей при запуске и отслеживать его изменение во времени (дрейф, деградации, проблемы данных);— пишете SQL-запросы на уровне, достаточном для анализа данных и диагностики качества;— читаете англоязычную техническую литературу.

Good match

We match every vacancy against your profile and show a fit score — so you instantly know which ones are worth applying to. Sign up and create a resume — it's free.

Not enough data to estimate a salary range for this role in this region yet.