Поделиться
VK Telegram OK

Бывшие гуглеры создают инфраструктуру, помогающую компаниям понимать свои видеоданные

Искусственный интеллект
AGILog · 2026-02-09 17:00

Компании производят больше видео, чем когда-либо. От многолетних архивов трансляций до тысяч камер в магазинах и бесчисленных часов производственного видеоматериала, большая часть которого просто не используется на серверах, не просматривается и не анализируется . Это скрытые данные: огромный неиспользованный ресурс, который компании собирают автоматически, но почти никогда не используют осмысленно.

Чтобы решить эту проблему, Аза Кай (генеральный директор) и Хираку Янагита (главный операционный директор), два бывших сотрудника Google, которые почти десять лет проработали вместе в Google Japan, решили разработать собственное решение. Дуэт стал соучредителем InfiniMind , токийского стартапа, разрабатывающего инфраструктуру, которая преобразует петабайты непросмотренных видео и аудио в структурированные бизнес-данные, доступные для запроса.

“Мы с моим соучредителем, который в течение десяти лет руководил разработкой брендов и решений для обработки данных в Google Japan, увидели, что наступил переломный момент, когда мы еще работали в Google”, - сказал Кай. К 2024 году технология стала более совершенной, а спрос на рынке стал настолько очевиден, что соучредители почувствовали необходимость создать компанию самостоятельно, добавил он.

Кай, который ранее работал в Google в Японии над облачными технологиями, машинным обучением, рекламными системами и моделями видеорекламы, а затем возглавлял команды по анализу данных, объяснил, что современные решения требуют компромисса. Более ранние подходы позволяли выделять объекты в отдельных кадрах, но они не позволяли отслеживать повествования, понимать причинно-следственную связь или отвечать на сложные вопросы о видеоконтенте. У клиентов с многолетними архивами трансляций и петабайтами отснятого материала даже элементарные вопросы о содержании часто оставались без ответа.

Что действительно изменилось, так это прогресс в моделях визуального языка в период с 2021 по 2023 год. Именно тогда искусственный интеллект в видео начал выходить за рамки простого определения тегов объектов, отметил Кай. Снижение стоимости графических процессоров и ежегодный прирост производительности примерно на 15-20% за последнее десятилетие помогли, но самое главное - до недавнего времени модели просто не справлялись с этой задачей, сказал он AGI_LOG.

Недавно InfiniMind получила начальное финансирование в размере 5,8 миллионов долларов от UTEC, к которому присоединились CX2, Headline Asia, Тиба Додзе и исследователь искусственного интеллекта из a16z Scout. Компания переносит свою штаб-квартиру в США, но продолжает работать в офисе в Японии. Япония предоставила идеальные условия для тестирования: мощное аппаратное обеспечение, талантливые инженеры и благоприятная экосистема для стартапов, что позволило команде отточить свои технологии в соответствии с требованиями клиентов, прежде чем выходить на международный уровень.

Свой первый продукт, TV Pulse, компания запустила в Японии в апреле 2025 года. Платформа на базе искусственного интеллекта анализирует телевизионный контент в режиме реального времени, помогая медиа и розничным компаниям “отслеживать экспозицию продукта, присутствие бренда, настроения клиентов и влияние на PR”, согласно заявлению стартапа. После пилотных программ с крупными вещательными компаниями и агентствами у InfiniMind уже есть платежеспособные клиенты, в том числе оптовики и медиа-компании.

Теперь InfiniMind готов к выходу на международный рынок. По словам Кая, бета-версия флагманского продукта DeepFrame, платформы для анализа видео в развернутом виде, способной обрабатывать 200 часов видеоматериала для определения конкретных сцен, выступающих или событий, запланирована на март, а полный запуск - на апрель 2026 года.

Пространство для анализа видео сильно фрагментировано. По словам Кая, такие компании, как TwelveLabs, предоставляют API-интерфейсы для понимания видео общего назначения для широкого круга пользователей, включая потребителей, просьюмеров и предприятия, в то время как InfiniMind уделяет особое внимание корпоративным вариантам использования, включая мониторинг, безопасность и анализ видеоконтента для получения более глубокого представления.

“Наше решение не требует кода; клиенты предоставляют свои данные, а наша система обрабатывает их, предоставляя полезную информацию”, - сказал Кай. “Мы также интегрируем аудиозапись, понимание звука и речи, а не только визуальные эффекты. Наша система может обрабатывать видео неограниченной длины, а ее основным отличием является экономичность. В большинстве существующих решений приоритет отдается точности или конкретным вариантам использования, но они не решают проблемы затрат.”

Начальное финансирование поможет команде продолжить разработку модели DeepFrame, расширить инженерную инфраструктуру, нанять больше инженеров и привлечь новых клиентов в Японии и США.

“Это захватывающее пространство, один из путей к AGI”, - сказал Кай. “Понимание общего видеоинтеллекта - это понимание реальности. Промышленное применение важно, но наша конечная цель - расширить границы технологий, чтобы лучше понимать реальность и помогать людям принимать более обоснованные решения”.