Введение в машинное обучение и компьютерное зрение

Введение в машинное обучение и компьютерное зрение

Определение компьютерного зрения

Компьютерное зрение (Computer Vision, CV) — это область машинного обучения и компьютерных наук, помогающая вычислительным машинам понимать мир путем распознавания визуальных образов и обнаружения объектов, как это делают люди.

Технология является одним из подразделов искусственного интеллекта.

Определение искусственного интеллекта

Для создания алгоритмов компьютерного зрения используются как классические методы машинного обучения , так и глубокие нейронные сети, включая сверточные (CNN).

История компьютерного зрения

В конце 1960-х годов пионеры в области искусственного интеллекта начали интенсивнее обсуждать вопросы распознавания образов с помощью компьютерных алгоритмов. Тогда ученые считали, что имитация зрительной системы человека поможет наделить роботов разумным поведением.

В 1966 году они предложили подключить камеру к компьютеру и заставить машину «описывать увиденное», однако технологии того времени не позволили реализовать задуманное.

Исследования 1970-х годов заложили ранние основы для многих алгоритмов компьютерного зрения, существующих сегодня, включая выделение границ на изображениях, маркировку линий, оценку движения и прочее.

В следующем десятилетии ученые работали над более строгим математическим анализом и количественными аспектами технологии.
К концу 1990 годов произошли значительные изменения с усилением взаимодействия между областями компьютерной графики и компьютерного зрения. Это включало рендеринг на основе изображения, интерполяцию вида, сшивание панорамных кадров и прочее.
Это десятилетие также ознаменовалось первым использованием методов статистического обучения на практике для распознавания лиц на фотографиях.
В начале XXI века наблюдалось возрождение основанных на функциях методов, которые начали использовать в сочетании с машинным обучением и сложными структурами оптимизации. Однако настоящая революция произошла лишь с развитием области глубокого обучения, точность которого превзошла все существующие на тот момент подходы.
В 2012 году на конкурсе ImageNet сверточная нейронная сеть AlexNet вошла в топ-5 алгоритмов с уровнем ошибок 15,3%. В 2015 году нейросеть победила в конкурсе. Именно это событие считается отправной точкой в современной истории компьютерного зрения.

Как работает компьютерное зрение?

Миссия компьютерного зрения — научить вычислительную машину видеть и понимать окружение с помощью цифровых фотографий и видеозаписей. Для достижения этой цели используются три компонента:

  • получение изображений;
  • обработка информации;
  • анализ данных.

Получение изображений — это процесс превращения аналогового мира в цифровой вид. Для этого используются веб-камеры, цифровые и зеркальные фотоаппараты, а также профессиональные 3D-камеры и лазерные дальномеры. Полученные такими способами данные необходимо в дальнейшем обработать и проанализировать для извлечения максимальной выгоды.

Следующий этап компьютерного зрения — это низкоуровневая обработка данных. Она необходима для определения краев, точек и сегментов изображения, являющихся простыми геометрическими фигурами.

Как правило, обработка данных осуществляется с помощью сложных математических алгоритмов. Популярными методами низкоуровневого анализа являются:

  • выделение границ, или edge detection;
  • сегментация;
  • классификация и обнаружение объектов.

Выделение границ предполагает разнообразие математических методов, цель которых идентифицировать точки в изображениях. Алгоритм анализирует рисунок и переводит его в набор изогнутых отрезков и линий. Этот метод используется для выделения наиболее важных частей изображения, что позволяет уменьшить количество обрабатываемых данных.

Что такое компьютерное зрение? (машинное обучение) Изображение, обработанное методом выделения границ. Данные: Towards Data Science .

Сегментация обычно используется для определения местоположения объектов и границ на изображениях. В процессе обработки алгоритм присваивает метку каждому пикселю, чтобы в дальнейшем их можно было объединить по определенным характеристикам.

Сегментация изображений с использованием глубокого обучения. Данные: Towards Data Science .

  • Классификация изображений предполагает извлечение информации об их содержании. В качестве примера часто приводится задача по определению наличия кота на фотографии: модель анализирует данные и пытается ответить на этот вопрос «да» или «нет».
  • Классификация изображений лежит в основе другого, более сложного алгоритма в компьютерном зрении — обнаружение объектов. Это позволяет, например, отличить на одном изображении кота от собаки и других известных ему предметов.

Классификация и обнаружение объектов. Данные: LaptrinhX .

Анализ и понимание изображений — это последний шаг в компьютерном зрении , позволяющий машинам принимать собственные решения. На этом этапе используются высокоуровневые данные , полученные из предыдущего шага. Примером высокоуровневого анализа может быть отображение трехмерной сцены, распознавание или отслеживание объектов.

Где используется компьютерное зрение?

  • Безопасность

    Приложения с компьютерным зрением позволяют в режиме реального времени обрабатывать потоки с камер видеонаблюдения, распознавать объекты, определять вторжение в запретные зоны, автоматически пропускать автомобили по номерному знаку и многое другое.

  • Распознавание лиц

    Технология активно используется для аутентификации пользователей в различных ситуациях, начиная от предоставления доступа к охраняемому объекту, заканчивая разблокировкой смартфона.

    В последнее время подобные системы часто критикуют некоторые правозащитные организации и политики. Они считают, что широкое распространение систем распознавания лиц угрожает правам и свободам человека, а использование технологии следует ограничить.

  • Беспилотные автомобили

    Набор камер и алгоритмов позволяет робомобилю ориентироваться в пространстве, различать движущиеся и статичные объекты, реагировать на их внезапное появление. На сегодня множество автопроизводителей, среди которых GM, Toyota, BMW и другие активно работают над созданием полностью автономного транспорта.

Успехи компании Tesla

  • Autopilot и Full Self-Driving позволяют автомобилю контролировать скорость, распознавать светофоры, дорожные знаки, другие автомобили, самостоятельно поворачивать на перекрестках и перестраиваться из полосы в полосу.
  • Вмешательство водителя не требуется, однако он должен присутствовать за рулем.

Робототехника

  • Компьютерное зрение помогает роботам ориентироваться в пространстве, определять объекты и препятствия, а также взаимодействовать с предметами и людьми.
  • Каждого робота, созданного под определенную задачу, обучают выполнять именно ее.

Дополненная реальность

  • AR-технологии используют алгоритмы компьютерного зрения для распознавания объектов реального мира.
  • Приложение IKEA позволяет пользователю через дополненную реальность посмотреть, как будет выглядеть мебель в комнате.

Распознавание движений и жестов

  • Алгоритмы компьютерного зрения используются в кинопроизводстве, создании видеоигр, распознавании паттернов поведения посетителей магазина, анализе активности спортсменов и прочее.

Восстановление и обработка изображений

  • Технология активно используется для реставрации старых изображений, колоризации черно-белых снимков, апскейлинге видеозаписей до формата 4К, а также увеличение разрешения в видеоиграх.

Какие проблемы в области компьютерного зрения?

  • На сегодня разработчики алгоритмов компьютерного зрения сталкиваются с рядом трудностей.
  • Одна из них — это малое количество исходных данных.
  • Несмотря на широкое распространение и удешевление фото и видеоаппаратуры, дата сайентисты не всегда имеют в своем распоряжении достаточное количество материалов для обучения алгоритмов.
  • Это может быть связано с законодательными регулированием, этическими соображениями и географическими барьерами.
  • Например , разработчику алгоритма распознавания видов посевных культур на сельскохозяйственных полях не всегда удается самостоятельно собрать необходимые фото-, видеоматериалы для обучения высокоточного алгоритма.
  • Ему приходится пользоваться данными из открытых источников или полученными от третьих лиц.
  • Отсюда вытекает другая проблема — низкое качество обучающих материалов.
  • Сюда относятся как фото и видео в низком разрешении, так и ошибки в датасетах, которые сильно влияют на конечный результат.
  • Разметка данных — это сложный, долгий и монотонный ручной труд.
  • В данном процессе людям свойственно ошибаться, поэтому часто встречаются случаи, когда датасеты содержат неправильные подписи, не до конца выделенные объекты и прочие артефакты.
  • В апреле 2021 года ученые из Массачусетского технологического института выяснили
  • Неправильные подписи объектов могут снижать качество работы алгоритмов машинного обучения.
  • Вычислительные ресурсы являются ограничением для обработки больших объемов медиаданных.
  • Граничные вычисления могут решить проблему обработки данных, происходящей непосредственно в местах их сбора.
  • Устройства для граничных вычислений передают на центральный сервер уже высокоуровневые данные.
  • Одноплатные компьютеры все еще не обладают достаточной мощностью для обработки больших массивов данных, особенно видео в режиме реального времени.

Какие тренды в области компьютерного зрения?

Генеративно-состязательные нейросети (GAN)

Одно из основных направлений в области компьютерного зрения — это GAN. Эти алгоритмы используются для стилизации фотографий и видео в картины известных художников. Но они также используются для создания качественных подделок.

Проект This Person Does not Exist генерирует фотореалистичные изображения людей, которых на самом деле не существует. Также есть другие проекты, которые работают по схожему принципу: алгоритм для создания ненастоящих котов — This Cat Does not Exist , или кроссовок — This Sneaker Does not Exist .

  • Галерея изображений:
  • Что такое компьютерное зрение? (машинное обучение)

Генеративно-состязательные сети (GAN) могут создавать синтетические наборы данных для обучения моделей. Эти датасеты легче собрать и решают некоторые вопросы, связанные с правовыми и этическими аспектами использования изображений.

В области генерации данных уже есть успешные стартапы, которые используют данную концепцию. Например, в октябре 2021 года Gretel.ai привлекла внимание.

  • GAN позволяют создавать синтетические наборы данных.
  • Синтетические датасеты легче собрать и решают вопросы, связанные с правовыми и этическими аспектами использования изображений.
  • В области генерации данных есть успешные стартапы, которые используют данную концепцию.
  • Gretel.ai привлекла внимание в октябре 2021 года.

Синтетические изображения, созданные GAN-моделями: люди, коты и кроссовки.

Вложение: $50 млн на поддержку платформы для генерации синтетических датасетов. В июле 2021 года Британская компания Mindtech получила $3,25 млн на развитие сервиса для обучения алгоритмов компьютерного зрения с помощью сгенерированных данных.

Другим важным направлением в области является моделирование 3D-сцен. Для реализации данной задумки разрабатываются специальные алгоритмы, которые, используя серию фотографий с разных ракурсов, способны воссоздать сцену в трехмерном пространстве.

Эту технологию активно используют в строительстве, робототехнике, анимации, дизайне интерьеров и военном деле.

Исследователи отмечают, что на сегодня алгоритмам тяжело воспроизводить сложные текстуры, например, листьев на деревьях. Тем не менее в ближайшем будущем такие инструменты смогут значительно упростить работу 3D-дизайнерам.

  • Какова роль компьютерного зрения в метавселенной?
  • Для метавселенной компьютерное зрение может оказаться одной из главных технологий: начиная от задач в области виртуальной и дополненной реальностей и заканчивая распознаванием объектов, людей и пространств.
  • Компания Meta (ранее Facebook) во время мероприятия, посвященного ребрендингу, показала реалистичные аватары, среду для их существования, а также нейроинтерфейс, позволяющий ими управлять. При их создании использовались, в том числе и технологии компьютерного зрения.

На конференции Ignite 2021 корпорация Microsoft показала свое видение метавселенной. Компания представила инструмент для совместной работы Mesh for Teams для VR-гарнитур, смартфонов, планшетов и ПК.

На осенней конференции GTC 2021 производитель чипов NVIDIA анонсировал платформу Omniverse Avatar для создания интерактивных трехмерных персонажей. Она объединяет компьютерное зрение, обработку естественного языка и рекомендательные системы.

Какие угрозы несет компьютерное зрение?

  • Несмотря на очевидные преимущества и пользу компьютерного зрения для бизнеса и общественности, технология может быть использована в недобросовестных целях.

  • На сегодня активно развиваются инструменты для создания дипфейков. Методы создания фото и видеоподделок существуют давно, однако с развитием глубокого обучения процесс их создания значительно упростился, а сами фейки стали гораздо правдоподобнее.

  • Мошенники могут использовать дипфейки для создания фальшивых порнографических видео, выступлений политиков и других знаменитостей.

  • В 2017 году пользователь Reddit с ником DeepFake опубликовал несколько поддельных видеороликов для взрослых с использованием лиц таких знаменитостей , как Галь Гадот, Скарлетт Йоханссон, Тейлор Свифт и Кэти Перри.

В том же году дипфейки стали чаще использовать для подмены политиков :

  • В интернете появились ролики, где лицо президента Аргентины Маурисио Макри заменили на Адольфа Гитлера,
  • а канцлера Германии Ангелы Меркель — на Дональда Трампа.

Системы компьютерного зрения часто критикуют за дискриминацию по признаку пола и расы. Зачастую , причиной этому является недостаточное разнообразие наборов данных.

В 2019 году темнокожий житель Нью-Джерси провел в тюрьме 10 суток из-за ошибки распознавания лиц . С подобными проблемами сталкивались и другие афроамериканцы в других городах США.

Также технологию критикуют из-за чрезмерного вмешательства в частную жизнь граждан. По мнению правозащитников, распознавание лиц в публичных местах и отслеживание перемещений людей с помощью уличных камер видеонаблюдения нарушает права человека на неприкосновенность частной жизни.

Разработчики и общественность предлагают различные способы решения вышеупомянутых проблем , начиная от создания систем распознавания дипфейков до законодательного запрета на использование систем биометрической идентификации. Однако консенсус в данных вопросах все еще не достигнут.

Подписывайтесь на новости Cryptoit в Telegram:

CryptoIt