ТОО CROCOS — казахстанская IT-компания, специализирующаяся на AI-решениях для бизнеса. Мы реализуем проект по внедрению AI-диспетчера (голосовой + чат-бот) в контакт-центр крупнейшей дорожной компании. Проект рассчитан на 4 месяца; после сдачи переходит на гарантийное сопровождение 24 месяца.
Обязанности:Развёртывание open-source LLM (Mixture-of-Experts, ≥20B параметров) на on-premise GPU-сервере заказчика
Настройка RAG-пайплайна: подключение базы знаний КЦ, настройка векторного поиска, chunking, retrieval-стратегии
Конфигурация системных промптов, тональности ответов, фильтрации персональных данных
Настройка function calling, генерации структурированного вывода (JSON/XML) для интеграций
Оптимизация инференса: параллельная обработка, управление GPU-памятью
Интеграция LLM с low-code платформой через REST API
Настройка мониторинга, логирования запросов, метрик качества ответов
Подготовка технической документации по LLM-компоненту
- Опыт развёртывания open-source LLM (Qwen, Mistral, DeepSeek, LLaMA и подобных) — от 1 года
- Понимание архитектур MoE, трансформеров, механизмов внимания
Опыт построения RAG-систем: LangChain / LlamaIndex / аналоги, векторные БД (Qdrant, Chroma, FAISS)
Практика работы с GPU-серверами (CUDA, vLLM, llama.cpp, Ollama или аналоги)
Знание Python на уровне уверенного пользователя
Понимание REST API, базовое знание Docker/Linux
Умение писать техническую документацию
Будет плюсом:
Опыт работы с ASR/TTS системами
Опыт с казахским языком в NLP-задачах
Опыт оптимизации моделей (quantization, GGUF, AWQ)
Kaggle достижение или участие в соревнованиях
Условия:
Занятость: Проектная (4 месяца) с возможностью перехода в штат
Формат: Гибрид / удалённо по согласованию
Стек: Python, LLM (MoE ≥20B), vLLM / llama.cpp, RAG, GPU Linux
Старт: Июнь 2026 (подписание контракта 18.06.2026)