Международная научная группа с участием специалистов МФТИ разработала технологию стереозрения Un-ViTAStereo, которая определяет расстояние до объектов без применения дорогостоящих лидаров и ручной разметки данных. Исследование опубликовано в IEEE Transactions on Circuits and Systems for Video Technology.
Новая система обеспечивает точность даже в сложных условиях, где традиционные алгоритмы испытывают трудности: перед гладкими поверхностями, в густой листве или в условиях тумана. Технология может применяться для повышения безопасности беспилотных автомобилей и автономных роботов.
Принцип работы технологии
Стереосистемы роботов и беспилотников функционируют по аналогии с человеческим зрением: две камеры фиксируют изображения, а алгоритмы сопоставляют их для построения трехмерной карты окружения. Однако в зонах с минимальным визуальным контрастом — например, перед белой стеной или на участках с повторяющимися узорами — традиционные системы теряют точность.
Разработанный фреймворк преодолевает это ограничение за счет использования модели Depth Anything V2 в качестве «наставника». Эта модель способна оценивать относительную глубину сцены по одному изображению, распознавая тени, перспективу и перекрытия объектов. Она не измеряет расстояние в метрах, но безошибочно определяет, какие объекты находятся ближе или дальше.
«Модель Depth Anything V2 постоянно передает различные подсказки стереосистеме. Например,