Halyk Банк – это мощная экосистема, где технологии сочетаются с ценностями.
Мы гордимся более чем 14 000 работниками, которые делают нас лучшим местом работы. Мы предоставляем услуги во всех сегментах финансового рынка: банковском, страховом, лизинговом и т.д.
Мы стремимся стать ведущим цифровым банком, внедряя инновации и предоставляя возможности для роста и развития.
Мы ищем талантливых специалистов, готовых развиваться вместе с нами!

Требования:
Python & Основы разработки Python 3.10+ (async/await, type hints, dataclasses, protocols) Архитектурные паттерны (SOLID, DI, Clean Architecture) Тестирование (pytest, unittest, mock, integration tests) Линтинг и форматирование (ruff, black, mypy) Управление зависимостями (poetry, uv, pip-tools) Git & GitHub (branching strategies, CI/CD, code review)

LLM / VLM Глубокое понимание архитектуры Transformer: attention, positional encoding, KV-cache LLM: опыт работы с GPT-4, Claude, LLaMA 3, Mistral, Gemma, Qwen VLM: LLaVA, InternVL, Qwen-VL, GPT-4V/4o, Pixtral Fine-tuning: LoRA, QLoRA, PEFT, Full fine-tuning, RLHF, DPO Prompt Engineering: Few-shot, Chain-of-Thought, ReAct, System prompts Evaluation: BLEU, ROUGE, perplexity, human eval, LLM-as-judge Tokenization: BPE, SentencePiece, tiktoken

LangChain & LangGraph LangChain: Chains, Agents, Tools, Memory, Callbacks, LCEL LangGraph: Stateful multi-agent graphs, nodes, edges, conditional routing LangSmith: Tracing, evaluation, monitoring, datasets RAG: Retrieval-Augmented Generation pipelines (indexing, retrieval, generation) Vector Stores: FAISS, Chroma, Pinecone, Qdrant, Weaviate, pgvector Embeddings: OpenAI, Cohere, BGE, E5, Instructor Document Loaders: PDF, HTML, Markdown, Unstructured Text Splitters: Recursive, Semantic, Token-based chunking

vLLM & Инференс vLLM: PagedAttention, continuous batching, tensor parallelism Оптимизация инференса: Quantization (GPTQ, AWQ, GGUF, bitsandbytes), KV-cache оптимизация Serving frameworks: vLLM, TGI, TensorRT-LLM, Triton Batching стратегии: Dynamic batching, continuous batching API совместимость: OpenAI-compatible API endpoints Бенчмаркинг: Throughput, latency (TTFT, TPS), memory profiling

PyTorch & Deep Learning PyTorch: Tensors, autograd, custom modules, DataLoader, Dataset Distributed Training: DDP, FSDP, DeepSpeed (ZeRO Stage 1/2/3), Megatron-LM Mixed Precision: FP16, BF16, AMP Hugging Face: Transformers, Datasets, Accelerate, PEFT, TRL Training: Learning rate scheduling, gradient accumulation/clipping Модельные форматы: SafeTensors, ONNX, TorchScript

GPU & Инфраструктура NVIDIA GPUs: A100, H100, L40S, RTX 4090 — понимание архитектуры CUDA: базовое понимание CUDA cores, Tensor cores, memory hierarchy GPU Memory: управление VRAM, offloading, gradient checkpointing Multi-GPU: tensor parallelism, pipeline parallelism, data parallelism Мониторинг: nvidia-smi, nvitop, GPU utilization profiling Cloud GPU: AWS (p4d/p5), GCP (A3), Azure (ND), RunPod, Lambda

FastAPI & Backend FastAPI: Routers, dependencies, middleware, background tasks Async: asyncio, aiohttp, httpx, async DB drivers Pydantic v2: Models, validators, serialization, settings WebSockets: Streaming LLM responses SSE: Server-Sent Events для стриминга Authentication: JWT, OAuth2, API keys Rate Limiting: Throttling, token bucket Documentation: OpenAPI/Swagger auto-docs

Docker & DevOps Docker: Multi-stage builds, layer caching, .dockerignore Docker Compose: Multi-service orchestration, GPU passthrough NVIDIA Container Toolkit: GPU support в контейнерах Kubernetes: базовое — Pods, Services, Deployments, GPU scheduling CI/CD: GitHub Actions, GitLab CI IaC: Terraform / Pulumi (желательно) Monitoring: Prometheus, Grafana, ELK/Loki

Базы данных & Хранилища PostgreSQL: SQL, pgvector для embeddings Redis: Caching, session management, queues Vector DBs: Qdrant, Pinecone, Weaviate, Chroma Object Storage: S3, MinIO (модели, датасеты) Message Queues: RabbitMQ, Kafka, Celery (желательно)

Дополнительные технологии (Nice to have) CrewAI / AutoGen — multi-agent frameworks Haystack — alternative RAG framework MLflow / W&B — experiment tracking, model registry Label Studio — data annotation Airflow / Prefect — ML pipeline orchestration Streamlit / Gradio — rapid prototyping UI OpenTelemetry — observability для LLM apps

Уровни опыта Junior AI Engineer (0-1 год): Python, базовый PyTorch, LangChain basics, Docker Middle AI Engineer (1-3 года): Fine-tuning, RAG pipelines, vLLM, FastAPI, LangGraph Senior AI Engineer (3-5+ лет): Архитектура систем, distributed training, multi-agent, production MLOps Lead AI Engineer (5+ лет): Стратегия, менторинг, cost optimization, cross-team leadership

Soft Skills Аналитическое мышление и умение декомпозировать задачи Навыки технической коммуникации (документация, ADR) Способность быстро осваивать новые модели и фреймворки Опыт работы в Agile/Scrum командах Английский язык — B2+ (чтение документации, коммуникация)

Обязанности:
Разработка и внедрение LLM/VLM-решений для бизнес-задач компании Проектирование и построение RAG-пайплайнов для работы с корпоративными данными Разработка и оптимизация мульти-агентных систем на базе LangGraph и LangChain Настройка и обслуживание инференс-серверов (vLLM, TGI, TensorRT-LLM) Fine-tuning моделей (LoRA, QLoRA, RLHF, DPO) под специфические задачи Разработка REST API на FastAPI для интеграции ML-сервисов в продукт Контейнеризация и деплой ML-сервисов с помощью Docker и Kubernetes Оптимизация производительности моделей: квантизация, батчинг, управление GPU-памятью Проектирование и поддержка векторных баз данных для хранения эмбеддингов Написание и поддержка автоматических тестов для ML-пайплайнов Мониторинг качества моделей в продакшене (LangSmith, OpenTelemetry) Проведение бенчмарков и A/B-тестов для сравнения моделей и подходов Работа с GPU-инфраструктурой: настройка multi-GPU, распределённое обучение Подготовка и очистка данных для обучения и оценки моделей Исследование и внедрение новых моделей, техник и фреймворков Написание технической документации и ADR (Architecture Decision Records) Участие в код-ревью и менторинг младших специалистов Взаимодействие с продуктовой командой для определения требований и приоритетов Оптимизация стоимости облачной GPU-инфраструктуры Обеспечение безопасности и надёжности ML-сервисов в продакшене

Условия:
•Заработная плата и бонусы: конкурентоспособная оплата труда благодаря системе грейдирования, премии ко Дню Независимости и годовой бонус.
•Социальный пакет: ДМС и страхование жизни, мобильная связь и скидки от партнеров.
•Отпуск и отдых: 26 дней отпуска с возможностью взять дополнительные дни при наступлении важных событий.
•Бонусы за рекомендации.
•Рабочие условия: льготные условия на паркинг, свободный стиль одежды (smart casual).
•Обучение и развитие: тренинги, вебинары и доступ к корпоративной библиотеке, четкая система карьерного роста.
•Корпоративная культура: открытая и дружеская рабочая атмосфера, спортивные турниры и активная корпоративная жизнь.
•Инициативы и проекты: возможность участия в социальных проектах, реализация идей в новых проектах группы «Halyk» с использованием современных digital-инструментов.
•Команда: творческая и поддерживающая команда для реализации ваших идей.
Присоединяйтесь к нам и становитесь частью команды «Halyk»!

ИИ Инженер

Описание вакансии