Bilim Group - это продуктовая EdTech-компания в Казахстане. Мы работаем с огромным масштабом изменений - со всей системой образования страны.

В нашей экосистеме сегодня более 20 цифровых продуктов и платформ, а также проекты, направленные на развитие казахского языка и цифровых образовательных решений.

В рамках OpenAI - Kazakh Language Data Program мы работаем с речевыми данными на казахском языке для обучения и оценки ASR и мультимодальных моделей.
Мы ищем Speech / ASR Data Manager, который будет отвечать за полный цикл работы с аудиоданными: от сбора и транскрибации до подготовки benchmark-наборов и анализа качества.

Что тебе предстоит делать:

  • Проектировать и поддерживать пайплайны сбора и обработки аудиоданных на казахском языке

  • Организовывать и контролировать процессы транскрибации: нормализация текстов, контроль качества (QA/QC), проверка соответствия аудио и транскриптов

  • Выявлять и удалять: низкокачественные аудиозаписи, шумные, обрезанные или некорректно выровненные данные, ошибочные транскрипты

  • Обеспечивать разнообразие спикеров: пол, возраст, регионы, диалектные особенности

  • Готовить и поддерживать JSON / JSONL-манифесты: аудиофайлы, транскрипты, метаданные, версии датасетов

  • Формировать и поддерживать ASR benchmark-наборы (dev / test splits)

  • Анализировать результаты оценки моделей: WER / CER, качество по доменам и группам спикеров, Участвовать в итерациях улучшения данных совместно с ML-командой

Мы ищем человека, у которого есть:

  • Свободное владение казахским языком (обязательно) и английским языком (рабочий уровень)

  • Понимание принципов: ASR-систем, машинного обучения, требований к данным для обучения и оценки моделей

  • Обязательный практический опыт работы с: речевыми датасетами, процессами транскрибации и QA, лингвистическими или speech-проектами

  • Знание аудиоформатов и структур датасетов

  • Опыт работы с JSON / JSONL: подготовка манифестов, валидация и очистка данных, проверка alignment между аудио и текстом

  • Опыт подготовки benchmark-ready ASR датасетов

Будет плюсом:

  • Python для обработки аудио и метаданных

  • Опыт работы с ASR-инструментами и библиотеками

  • Понимание пайплайнов обучения speech-моделей

  • Опыт анализа ошибок ASR

Что ты получаешь, присоединившись к нам:

  • Достойная зарплата — обсудим на встрече, индивидуально и честно.

  • Работу над значимым проектом по развитию казахского языка и технологий

  • Профессиональное развитие в сфере данных и языковых технологий

  • Прокачка знаний — доступ к курсам Kitap.kz, Bilimland.com, Coursera и другим образовательным платформам.

  • Языки — легко: изучай иностранные на Qlang.kz в удобном тебе ритме.

  • Уютный офис с зонами отдыха — кофе, чай, Xbox, настольный футбол и пространство для перезагрузки.

  • Ивенты, квизы, meet-up’ы и Тәтті күн — традиция вкусных угощений и веселых встреч.

Как мы работаем:

  • В офисе в Астане (Expo, Мангилик ел 55/13)

  • Полный рабочий день, 5/2 с 9:00 до 18:00

  • Официальный найм с первого дня, испытательный срок — 3 месяца.