Bilim Group - это продуктовая EdTech-компания в Казахстане. Мы работаем с огромным масштабом изменений - со всей системой образования страны.
В нашей экосистеме сегодня более 20 цифровых продуктов и платформ, а также проекты, направленные на развитие казахского языка и цифровых образовательных решений.
В рамках OpenAI - Kazakh Language Data Program мы работаем с речевыми данными на казахском языке для обучения и оценки ASR и мультимодальных моделей.
Мы ищем Speech / ASR Data Manager, который будет отвечать за полный цикл работы с аудиоданными: от сбора и транскрибации до подготовки benchmark-наборов и анализа качества.
Что тебе предстоит делать:
-
Проектировать и поддерживать пайплайны сбора и обработки аудиоданных на казахском языке
-
Организовывать и контролировать процессы транскрибации: нормализация текстов, контроль качества (QA/QC), проверка соответствия аудио и транскриптов
-
Выявлять и удалять: низкокачественные аудиозаписи, шумные, обрезанные или некорректно выровненные данные, ошибочные транскрипты
-
Обеспечивать разнообразие спикеров: пол, возраст, регионы, диалектные особенности
-
Готовить и поддерживать JSON / JSONL-манифесты: аудиофайлы, транскрипты, метаданные, версии датасетов
-
Формировать и поддерживать ASR benchmark-наборы (dev / test splits)
-
Анализировать результаты оценки моделей: WER / CER, качество по доменам и группам спикеров, Участвовать в итерациях улучшения данных совместно с ML-командой
Мы ищем человека, у которого есть:
-
Свободное владение казахским языком (обязательно) и английским языком (рабочий уровень)
-
Понимание принципов: ASR-систем, машинного обучения, требований к данным для обучения и оценки моделей
-
Обязательный практический опыт работы с: речевыми датасетами, процессами транскрибации и QA, лингвистическими или speech-проектами
-
Знание аудиоформатов и структур датасетов
-
Опыт работы с JSON / JSONL: подготовка манифестов, валидация и очистка данных, проверка alignment между аудио и текстом
-
Опыт подготовки benchmark-ready ASR датасетов
Будет плюсом:
-
Python для обработки аудио и метаданных
-
Опыт работы с ASR-инструментами и библиотеками
-
Понимание пайплайнов обучения speech-моделей
-
Опыт анализа ошибок ASR
Что ты получаешь, присоединившись к нам:
-
Достойная зарплата — обсудим на встрече, индивидуально и честно.
-
Работу над значимым проектом по развитию казахского языка и технологий
-
Профессиональное развитие в сфере данных и языковых технологий
-
Прокачка знаний — доступ к курсам Kitap.kz, Bilimland.com, Coursera и другим образовательным платформам.
-
Языки — легко: изучай иностранные на Qlang.kz в удобном тебе ритме.
-
Уютный офис с зонами отдыха — кофе, чай, Xbox, настольный футбол и пространство для перезагрузки.
-
Ивенты, квизы, meet-up’ы и Тәтті күн — традиция вкусных угощений и веселых встреч.
Как мы работаем:
-
В офисе в Астане (Expo, Мангилик ел 55/13)
-
Полный рабочий день, 5/2 с 9:00 до 18:00
-
Официальный найм с первого дня, испытательный срок — 3 месяца.