Большинство команд просто покупают модель подороже и надеются, что она решит проблему. Мы идём другим путём: разрабатываем платформу, на которой даже средняя модель начинает стабильно решать реальные инженерные задачи.

Мы ищем инженера-исследователя, который будет собирать и тестировать такие системы для Bos.pro: разбирать, почему агент ошибается, что усиливает результат и какие паттерны можно перенести в продакшн.

О ПРОДУКТЕ

Bos.pro — операционная система для бизнеса (Business Operating System). Платформа, где предприниматель собирает компанию из готовых модулей (CRM, HR, Tasks, Support, Events) и встраивает AI-агентов в ежедневную работу бизнеса. Продукт в стадии бета с активными пользователями.

ЧТО ДЕЛАТЬ

— Исследовать и улучшать harness для AI-разработки бизнес-приложений Bos.pro: контекстные паки, промпты, агентные сценарии, вызовы тулзов, скиллы, проверки.

— Находить, создавать и адаптировать скиллы — наборы инструкций, примеров и ограничений, которые усиливают модель на конкретных типах задач: генерация модулей, правка логики, работа с данными.

— Тестировать, какие модели и настройки лучше решают задачи конкретных модулей: CRM, HR, Tasks и других.

— Строить оценки (evals), регрессионные тесты и контрольные точки качества для кода, сгенерированного AI.

— Разбирать ошибки агентов: где потерян контекст, где сломана логика, где нужна дополнительная валидация.

— Описывать удачные паттерны и переносить их в продакшн-пайплайны Bos.pro.

ТЫ НАМ ПОДХОДИШЬ, ЕСЛИ:

— Просыпаешься ночью запустить агентов

— Готов к полному коммитменту

— Понимаешь, что качество результата зависит не от модели, а от системы вокруг неё: контекст, скиллы, тулзы, оценки, обратная связь. Или пока интуитивно чувствуешь это — и готов разобраться на практике.

— Следишь за тем, что происходит в AI-разработке: читаешь X Карпатого, следишь за обновлениями Claude Code, Cursor, Codex, OpenCode.

— Мониторишь GitHub в поисках новых скиллов, harness-паттернов, eval-фреймворков и идей — или хочешь начать это делать и понимаешь зачем.

— Читаешь arxiv, блоги и ченджлоги инструментов. Пример того, что мы исследуем: https://arxiv.org/abs/2604.14228v1

— Работаешь исследовательски: формулируешь гипотезу, ставишь эксперимент, измеряешь результат, делаешь вывод. Не «попробовал и вроде работает», а «замерил на 50 задачах и вот данные». Или пока не замерял — но понимаешь, почему это правильный подход.

— И самое главное: берешь ответственность, растешь от боли признанных ошибок

ИНСТРУМЕНТЫ И СТЕК

— AI-dev пайплайн как рабочий инструмент: Claude Code, Cursor, Codex, Windsurf, OpenCode или аналоги — настроены под твой процесс.

— Опыт или понимание работы с LLM API, function calling, MCP, агентными фреймворками.

— Знакомство с оценками (evals), бенчмарк-сценариями, тестовыми стендами (lm-eval-harness, SWE-bench или собственные) — на уровне использования или готовности разобраться.

— Supabase / PostgreSQL.

— TypeScript / JavaScript / React — умеешь читать, дебажить и улучшать код, даже если основная работа — не писать его руками.

— Docker, CI/CD, изолированные среды выполнения.

— Понимание бэкенд-логики, REST API, SQL.

— Хакатоны, опенсорс, свои AI-автоматизации — всё, что показывает, что ты строишь, а не просто читаешь.

НАЙМ:

— Покажи, как устроен твой рабочий пайплайн и агентский харнессинг на хакатоне

— На следующий день cделай рывок с нами — выполни задачку по теме, удиви нас

— После — обсуждение деталей и оффер

Harness-инженер

Job description