Большинство команд просто покупают модель подороже и надеются, что она решит проблему. Мы идём другим путём: разрабатываем платформу, на которой даже средняя модель начинает стабильно решать реальные инженерные задачи.
Мы ищем инженера-исследователя, который будет собирать и тестировать такие системы для Bos.pro: разбирать, почему агент ошибается, что усиливает результат и какие паттерны можно перенести в продакшн.
О ПРОДУКТЕ
Bos.pro — операционная система для бизнеса (Business Operating System). Платформа, где предприниматель собирает компанию из готовых модулей (CRM, HR, Tasks, Support, Events) и встраивает AI-агентов в ежедневную работу бизнеса. Продукт в стадии бета с активными пользователями.
ЧТО ДЕЛАТЬ
— Исследовать и улучшать harness для AI-разработки бизнес-приложений Bos.pro: контекстные паки, промпты, агентные сценарии, вызовы тулзов, скиллы, проверки.
— Находить, создавать и адаптировать скиллы — наборы инструкций, примеров и ограничений, которые усиливают модель на конкретных типах задач: генерация модулей, правка логики, работа с данными.
— Тестировать, какие модели и настройки лучше решают задачи конкретных модулей: CRM, HR, Tasks и других.
— Строить оценки (evals), регрессионные тесты и контрольные точки качества для кода, сгенерированного AI.
— Разбирать ошибки агентов: где потерян контекст, где сломана логика, где нужна дополнительная валидация.
— Описывать удачные паттерны и переносить их в продакшн-пайплайны Bos.pro.
ТЫ НАМ ПОДХОДИШЬ, ЕСЛИ:
— Просыпаешься ночью запустить агентов
— Готов к полному коммитменту
— Понимаешь, что качество результата зависит не от модели, а от системы вокруг неё: контекст, скиллы, тулзы, оценки, обратная связь. Или пока интуитивно чувствуешь это — и готов разобраться на практике.
— Следишь за тем, что происходит в AI-разработке: читаешь X Карпатого, следишь за обновлениями Claude Code, Cursor, Codex, OpenCode.
— Мониторишь GitHub в поисках новых скиллов, harness-паттернов, eval-фреймворков и идей — или хочешь начать это делать и понимаешь зачем.
— Читаешь arxiv, блоги и ченджлоги инструментов. Пример того, что мы исследуем: https://arxiv.org/abs/2604.14228v1
— Работаешь исследовательски: формулируешь гипотезу, ставишь эксперимент, измеряешь результат, делаешь вывод. Не «попробовал и вроде работает», а «замерил на 50 задачах и вот данные». Или пока не замерял — но понимаешь, почему это правильный подход.
— И самое главное: берешь ответственность, растешь от боли признанных ошибок
ИНСТРУМЕНТЫ И СТЕК
— AI-dev пайплайн как рабочий инструмент: Claude Code, Cursor, Codex, Windsurf, OpenCode или аналоги — настроены под твой процесс.
— Опыт или понимание работы с LLM API, function calling, MCP, агентными фреймворками.
— Знакомство с оценками (evals), бенчмарк-сценариями, тестовыми стендами (lm-eval-harness, SWE-bench или собственные) — на уровне использования или готовности разобраться.
— Supabase / PostgreSQL.
— TypeScript / JavaScript / React — умеешь читать, дебажить и улучшать код, даже если основная работа — не писать его руками.
— Docker, CI/CD, изолированные среды выполнения.
— Понимание бэкенд-логики, REST API, SQL.
— Хакатоны, опенсорс, свои AI-автоматизации — всё, что показывает, что ты строишь, а не просто читаешь.
НАЙМ:
— Покажи, как устроен твой рабочий пайплайн и агентский харнессинг на хакатоне
— На следующий день cделай рывок с нами — выполни задачку по теме, удиви нас
— После — обсуждение деталей и оффер