8 февраля 2023 | стратегия развития нижегородской области

Как нижегородцы научили компьютеры видеть. Встреча с архитектором библиотеки компьютерного зрения

Около 60 тысяч представителей ИТ-сообщества, учащихся и студентов со всего Приволжского федерального округа следили за ходом первого в 2023 году НЕЙМАРК.Лектория. Это мероприятие - часть цикла встреч, куда приглашают нижегородских «айтишников», достигших общепризнанных высот в своей сфере и готовых делиться своим опытом со всеми интересующимися.
Образовательная экосистема НЕЙМАРК, куда входит и НЕЙМАРК.Лекторий, призвана помочь нашим юным нижегородцам понять, какие есть направления для развития, кому можно рассказать о своих идеях, как получить поддержку,
— поясняет Дмитрий Колесников, руководитель научно-образовательных проектов АНО «Проектный офис Стратегии развития Нижегородской области».
На этот раз центром внимания стал Вадим Писаревский – эксперт по компьютерному зрению компании Huawei, один из создателей библиотеки OpenCV.

Как тебе такое, Илон Маск?

Для людей из сферы ИТ объяснять, насколько это значимый и популярный проект, нет необходимости. Библиотекой сегодня пользуются такие мировые гиганты, как Microsoft, Google, Nvidia. Есть все основания полагать, что ее коды были востребованы и при создании прототипов «умных» автомобилей Tesla.

Начинался проект OpenCV 25 лет назад. Фирма Intel решила, что многие компьютерные разработки, которые ведут отдельные команды, могли бы создаваться быстрее, если бы их не приходилось каждый раз делать с нуля. Точкой приложения усилий была выбрана область компьютерного зрения.
Это набор технологий для извлечения информации из изображений. Они могут быть разной природы: фото и видео, записи с камеры наблюдения, рентгеновский снимок, спутниковая съемка. Таких изображений становится больше, вручную анализировать их уже невозможно, в этом помогают компьютеры. Хотя еще 10-12 лет назад это было для них супертяжелой задачей. Они не могли отличить кошку от собаки,
объясняет Вадим Писаревский.
Компания решила собрать команду для решения этой задачи, причем основные «интеллектуальные мощности» появились именно в нашем регионе: в Нижнем Новгороде и Сарове. В число этих специалистов в 1998 году вошел и Вадим Писаревский. Сначала как инженер, потом – как руководитель проекта и архитектор.

Благодаря стараниям специалистов, уже в 2000 году состоялся первый публичный релиз библиотеки инструментов для исследований, создания прототипов и готовых приложений в области компьютерного зрения. Причем команде удалось убедить руководство не засекречивать исходный код проекта, чтобы им могли пользоваться все желающие.

И таковых оказалось множество – OpenCV скачали более 23 миллионов раз, и сегодня пользователи еженедельно сохраняют на свои компьютеры свыше 10 тыс. копий библиотеки. По этому показателю она входит в пятерку лидеров среди проектов на языке C++ на GitHub - крупнейшего веб-сервисе для размещения ИТ-проектов.

А столица Приволжья и по сей день остается местом, где трудится наибольшее число разработчиков проекта. Практически половина всех патчей (обновлений с элементами исправления кода) и преимущественная часть экспериментальных функция – их заслуга.

«Я тебя вижу»

Что же такое библиотека OpenCV и зачем она нужна? Дело в том, что компьютер способен «видеть» мир. Но воспринимает его как последовательности нулей и единиц. Его нужно научить «по-человечески» понимать увиденное.

OpenCV содержит в себе готовые функции и классы для чтения видео и картинок, базовой обработки изображений, запуска нейронных сетей. По-сути, библиотека может научить компьютер, анализирующий, скажем, фотографию, на которой котенок играет с мячиком, трем принципиально важным вещам. Первое – распознавать, что на изображении есть животное и игрушка. Второе – находить их на изображении. Это называется «детектирование». И третье – определять, на какой части изображения есть кот, а на какой есть что угодно, кроме него. С мячом – аналогично. Это уже семантическая сегментация. Но просто только на словах – схема очень сложна в программировании.

Благодаря тому, что это берет на себя OpenCV, разработчикам продуктов можно пропускать «процесс базового обучения» искусственного интеллекта, и сразу приступать к решению конкретных задач: например, дав роботу-пылесосу умение распознавать, детектировать и сегментировать элементы окружающего пространства, запрограммировать его так, чтобы он не забивался в угол. Или обучить цифровую систему отбраковки на предприятии искать определенные дефекты на изделиях.
Одна из аналогий, которую можно провести - это магазин инструментов и стройматериалов. Да, мы не выковываем топоры, не срубаем и не распиливаем на доски деревья в лесу, не вылепляем из особой глины раковины для ванной. Хотя и этим можно заниматься при наличии желания, навыков и большого количества свободного времени, мы берем готовое. И это сильно сокращает время на постройку дома или ремонт существующего,
— говорит Вадим Писаревский.
Особенно пользователи ценят то, что библиотека модульная. То есть при использовании ее отдельных элементов нет необходимости включать в свой проект весь миллион страниц ее кода, что сильно «утяжелило» бы финальную версию приложения или сервиса.

По статистике, чаще всего востребованными оказываются такие алгоритмы компьютерного зрения, как захват видео, базовая предобработка - например, изменение размеров или шумоподавление, - выделение и обнаружение определенных признаков, вычисление положения объектов или камеры в пространстве, их траекторий и скоростей.

Если на секунду задуматься, точно можно вспомнить, что мы все много раз сталкивались с системами и программами, которые используют эти возможности: от камер видеонаблюдения до сервисов обработки фотографий.

Заглянуть в будущее

В настоящее время проект с нижегородскими корнями, несмотря на непростую обстановку во всем мире, продолжает жить и развиваться. Удалось сохранить команду, которая занимается OpenCV. Есть спонсоры, есть перспективные направления: от использования библиотеки при создании новых стандартов системы команд и архитектуры микропроцессоров до утилитарных мобильных приложений.
Возможно вы видели в анонсах новых айфонов описания приложений, которые помогают людям тренироваться - правильно выполнять асаны в йоге, правильно принимать мяч ракеткой, правильно бросать мяч в баскетболе. Все это вычисление позы. Детектирование и распознавание текста что называется в природе, не на бумаге. Если вы хоть раз были в стране где надписи на улицах довольно сложно прочитать, вы сразу скажете, что это суперполезная вещь,
— перечисляет ниши Вадим Писаревский.
OpenCV также остается базой для обучения начинающих ИТ-специалистов. Ведется работа по применению элементов компьютерного зрения на маломощных устройствах, рассматриваются возможности поддержки работы с аудио, развивается направление более широкого использования библиотеки в 3D и робототехнике за счет поддержки специальных сенсоров и алгоритмов.

На вопрос одного из самых молодых зрителей в зале: «Как может развиться OpenCV в ближайшие 10 лет», - Вадим Писаревский не задумываясь ответил: «Это в том числе зависит от тебя!». При этом эксперт подчеркнул, что полученное ИТ-образование – очень важный, но не определяющий фактор для человека, который интересуется современными технологиями. Потому что сегодня получить необходимые навыки можно практически в любом возрасте. В Нижегородской области их дает множество площадок: от школьных центров до высших учебных заведений и онлайн-платформ.

Что касается профильной подготовки специалистов цифровой сферы, то она выйдет на совершенно новый уровень уже в ближайшие годы благодаря созданию ИТ-кампуса НЕЙМАРК.
Важно, что в Нижегородской области строится кампус не одного конкретного вуза, а именно межвузовский. Таким образом, мы создаем не просто уникальную образовательную траекторию для студентов, но и делаем все возможное, чтобы преподаватели всех нижегородских ВУЗов с профильными дисциплинами могли там обучать новое поколение айтишников, разработчиков, стартаперов,
— говорит министр образования и науки Нижегородской области Ольга Петрова.
ИТ-кампус будет построен в 2025 году и рассчитан на одновременное обучение 7000 студентов. Он позволит студентам, педагогам и специалистам ИТ-компаний учиться, преподавать, исследовать, работать, не покидая Квартала «12-21», которым в дальнейшем должен обрасти НЕЙМАРК.