Российский стартап KodaCode, разработчик интеллектуального помощника для программистов, перенес работу своих основных моделей на продукт «Турбо Облака» — Inference Platform. Благодаря автоматическому управлению вычислительными ресурсами компания обрабатывает более 7 миллиардов токенов и около 95 тысяч пользовательских запросов в день, платя только за фактически использованные мощности. Сейчас сервисом пользуются 10 тысяч активных разработчиков, а до конца года их число планируется увеличить до 120 тысяч — и новая инфраструктура готова к такому росту.
Главная проблема стартапа — негибкость традиционной аренды физических серверов. Раньше KodaCode арендовал машины с GPU, но платить приходилось за весь объем «железа» постоянно, даже в часы низкой активности. При выходе из строя одной GPU восстановление занимало больше суток — для сервиса, работающего 24/7, это неприемлемо. Особенно сейчас, когда среди клиентов появились крупные B2B-компании, требующие, чтобы все данные обрабатывались исключительно в России.
Решение нашлось в «Турбо Облаке», которое разворачивает модели ИИ как готовый сервис. KodaCode разместил здесь свои две главные модели, причем самая тяжелая запущена в мультинодовом режиме на нескольких серверах, что сохраняет высокую скорость ответов даже при сложных запросах. Система автоматически отслеживает нагрузку: в пиковые часы подключаются дополнительные GPU-ресурсы, при спаде активности они отключаются — и плата за них не взимается. Стартап больше не держит мощность «про запас», что критично для молодой компании с ограниченным бюджетом.
Платформа работает на базе дата-центров РТК-ЦОД уровня Tier III и с высоким уровнем отказоустойчивости (SLA), а также имеет все необходимые сертификации для обработки данных российских организаций. Это гарантирует, что код и информация пользователей (как в B2C-, так и в B2B-сегменте) находят в защищенном российском контуре.
В итоге команда KodaCode перестала тратить время на обслуживание серверов и сосредоточилась на развитии продукта. Испытания платформы прошли успешно, и стартап готовится к полноценному переходу на Inference Platform, отмечая высокую производительность и прозрачную тарификацию.
Дмитрий Змитрович, основатель KodaCode:
«Для нас переход на Inference Platform — это смена философии. Раньше мы постоянно балансировали между рисками отказов и необходимостью экономить бюджет. Теперь инфраструктура перестала быть нашей “головной болью” — мы получили надежного партнера, который не только гарантирует стабильность, но и позволяет нам экспериментировать с новыми моделями без оглядки на “железо”. Это дало нам уверенность смотреть в будущее: мы знаем, что сможем обслужить любой рост аудитории и при этом не утонуть в операционных затратах. И, что не менее важно, мы наконец-то можем предложить нашим корпоративным клиентам стопроцентную локализацию данных — то, что для них является решающим фактором».
Александр Обухов, генеральный директор «Турбо Облако»:
«Мы создавали Inference Platform именно как инструмент для снятия барьеров, с которыми сталкиваются молодые компании. Для стартапа каждая минута инженера на настройку кластера — это минута, не потраченная на продукт. Мы убрали эту дилемму: клиент получает готовый сервис, где все — от балансировки до масштабирования — работает под нашим контролем. Наша цель — чтобы стартапы могли запускать свои модели в прод за считанные часы, а не недели, и при этом чувствовать себя защищенными с точки зрения безопасности и юрисдикции. Кейс KodaCode показывает, что это востребовано и, главное, экономически оправданно даже на ранних стадиях».
Источник: «Турбо Облако»

