Поиск по сайту:

Заземление DINO 1.5: расширение границ обнаружения объектов открытого набора


Введение

В последние годы обнаружение объектов с нулевого выстрела стало краеугольным камнем достижений в области компьютерного зрения. Создание универсальных и эффективных детекторов было предметом пристального внимания при создании реальных приложений. Выпуск Grounding DINO 1.5 от IDEA Research знаменует собой значительный шаг вперед в этой области, особенно в области обнаружения объектов открытого типа.

Предварительные условия

  • Базовое понимание: Знакомство с концепциями обнаружения объектов и архитектурой преобразователей.
  • Настройка среды: установлены Python, PyTorch и связанные библиотеки ML.
  • Знание наборов данных: опыт работы с наборами данных для обнаружения объектов открытого набора (например, COCO, LVIS).
  • Аппаратное обеспечение: доступ к графическому процессору для эффективного обучения и вывода.

Что такое заземление DINO?

Grounding DINO, детектор открытого типа, основанный на DINO, не только достиг самых современных показателей обнаружения объектов, но также позволил интегрировать многоуровневую текстовую информацию посредством заземленного предварительного обучения. Grounding DINO предлагает несколько преимуществ по сравнению с GLIP или Предварительным обучением Grounded Language-Image. Во-первых, его архитектура на основе Transformer, аналогичная языковым моделям, облегчает обработку как изображений, так и языковых данных.

Заземление DINO Framework

Общая концепция заземления серии DINO 1.5 (Источник)

Каркас, показанный на изображении выше, представляет собой общий каркас серии Grounding DINO 1.5. Эта структура сохраняет структуру заземления DINO с двумя энкодерами и одним декодером. Кроме того, эта структура расширяет ее до Grounding DINO 1.5 как для моделей Pro, так и для Edge.

Заземление DINO сочетает в себе концепции DINO и GLIP. DINO, метод на основе трансформатора, превосходно обнаруживает объекты благодаря сквозной оптимизации, устраняя необходимость в модулях ручной работы, таких как немаксимальное подавление или NMS. И наоборот, GLIP фокусируется на обосновании фраз, связывании слов или фраз в тексте с визуальными элементами изображений или видео.

Архитектура Grounding DINO состоит из магистрали изображения, магистрали текста, усилителя функций для слияния изображения и текста, модуля выбора запроса на основе языка и кросс-модального декодера для уточнения блоков объектов. Первоначально он извлекает функции изображения и текста, объединяет их, выбирает запросы из функций изображения и использует эти запросы в декодере для прогнозирования блоков объектов и соответствующих фраз.

Что нового в Grounding DINO 1.5?

Grounding DINO 1.5 основывается на фундаменте, заложенном его предшественником, Grounding DINO, который по-новому определил обнаружение объектов, включив лингвистическую информацию и сформулировав задачу как заземление фраз. Этот инновационный подход использует крупномасштабное предварительное обучение на различных наборах данных и самообучение на псевдоразмеченных данных из обширного пула пар изображение-текст. Результатом является модель, которая превосходно работает в сценариях открытого мира благодаря своей надежной архитектуре и семантическому богатству.

Grounding DINO 1.5 еще больше расширяет эти возможности, представляя две специализированные модели: Grounding DINO 1.5 Pro и Grounding DINO 1.5 Edge. Модель Pro повышает производительность обнаружения за счет значительного увеличения емкости модели и размера набора данных, использования передовых архитектур, таких как ViT-L, и создания более 20 миллионов аннотированных изображений. Напротив, модель Edge оптимизирована для периферийных устройств, подчеркивая эффективность вычислений при сохранении высокого качества обнаружения благодаря функциям изображения высокого уровня.

Экспериментальные результаты подчеркивают эффективность Grounding DINO 1.5: модель Pro устанавливает новые стандарты производительности, а модель Edge демонстрирует впечатляющую скорость и точность, что делает ее очень подходящей для приложений периферийных вычислений. В этой статье рассматриваются достижения, достигнутые благодаря Grounding DINO 1.5, изучаются его методологии, влияние и потенциальные будущие направления в динамической среде обнаружения открытых объектов, тем самым подчеркивая его практическое применение в реальных сценариях.

Grounding DINO 1.5 предварительно обучен на Grounding-20M, наборе данных, содержащем более 20 миллионов изображений заземления из общедоступных источников. В процессе обучения обеспечивается высокое качество аннотаций с проработанными конвейерами аннотаций и правилами постобработки.

Анализ производительности

На рисунке ниже показана способность модели распознавать объекты в таких наборах данных, как COCO и LVIS, которые содержат множество категорий. Это свидетельствует о том, что Grounding DINO 1.5 Pro значительно превосходит предыдущие версии. По сравнению с предыдущей моделью Grounding DINO 1.5 Pro демонстрирует значительное улучшение.

Модель была протестирована в различных реальных сценариях с использованием теста ODinW (Object Detection in the Wild), который включает в себя 35 наборов данных, охватывающих различные приложения. Grounding DINO 1.5 Pro значительно улучшил производительность по сравнению с предыдущей версией Grounding DINO.

Результаты нулевого выстрела для заземления DINO 1.5 Edge на COCO и LVIS измеряются в кадрах в секунду (FPS) с использованием графического процессора A100 и отображаются в скорости PyTorch/скорости TensorRT FP32. FPS на NVIDIA Orin NX также обеспечен. Заземление DINO 1.5 Edge обеспечивает замечательную производительность и превосходит все другие современные алгоритмы (OmDet-Turbo-T 30.3 AP, YOLO-Worldv2-L 32.9 AP, YOLO-Worldv2-M 30.0 AP, YOLO-Worldv2-S 22.7 АП).

Заземление DINO 1.5 Pro и Заземление DINO 1.5 Edge

Заземление DINO 1.5 Pro

Grounding DINO 1.5 Pro основывается на базовой архитектуре Grounding DINO, но расширяет архитектуру модели за счет более крупной магистрали Vision Transformer (ViT-L). Модель ViT-L известна своей исключительной производительностью при выполнении различных задач, а конструкция на основе трансформатора помогает оптимизировать обучение и логический вывод.

Одна из ключевых методологий Grounding DINO 1.5 Pro — это стратегия глубокого раннего объединения для извлечения признаков. Это означает, что особенности языка и изображения объединяются на ранней стадии с использованием механизмов перекрестного внимания в процессе извлечения признаков, прежде чем переходить к этапу декодирования. Такая ранняя интеграция позволяет более тщательно объединить информацию из обоих методов.

В своем исследовании команда сравнила раннее слияние со стратегиями позднего слияния. На ранних этапах слияния функции языка и изображения интегрируются на ранних этапах процесса, что приводит к более высокому уровню обнаружения и более точному прогнозированию ограничивающей рамки. Однако этот подход иногда может вызвать у модели галлюцинации, то есть она предсказывает объекты, которых нет на изображениях.

С другой стороны, позднее слияние сохраняет разделение функций языка и изображения до этапа расчета потерь, где они объединяются. Этот подход, как правило, более устойчив к галлюцинациям, но, как правило, приводит к снижению запоминаемости при обнаружении, поскольку согласование зрительных и речевых функций становится более сложным, когда они объединяются только в конце.

Чтобы максимизировать преимущества раннего слияния и минимизировать его недостатки, Grounding DINO 1.5 Pro сохраняет конструкцию раннего слияния, но включает более комплексную стратегию обучающей выборки. Эта стратегия увеличивает долю отрицательных образцов — изображений без интересующих объектов — во время обучения. Поступая таким образом, модель учится лучше различать релевантную и нерелевантную информацию, тем самым уменьшая галлюцинации, сохраняя при этом высокую запоминаемость и точность обнаружения.

Таким образом, Grounding DINO 1.5 Pro расширяет свои возможности прогнозирования и надежность за счет сочетания раннего слияния с улучшенным подходом к обучению, который уравновешивает сильные и слабые стороны архитектуры раннего слияния.

Заземление DINO 1,5 Edge

Grounding DINO — мощная модель обнаружения объектов на изображениях, но она требует большой вычислительной мощности. Это затрудняет использование на небольших устройствах с ограниченными ресурсами, например, в автомобилях, медицинском оборудовании или смартфонах. Этим устройствам необходимо быстро и эффективно обрабатывать изображения в режиме реального времени. Развертывание Grounding DINO на периферийных устройствах крайне желательно для многих приложений, таких как автономное вождение, обработка медицинских изображений и компьютерная фотография.

Однако модели обнаружения с открытым набором обычно требуют значительных вычислительных ресурсов, которых нет у периферийных устройств. Исходная модель Grounding DINO использует функции многомасштабного изображения и усилитель функций с интенсивными вычислениями. Хотя это повышает скорость и производительность обучения, это непрактично для приложений реального времени на периферийных устройствах.

Чтобы решить эту проблему, исследователи предлагают эффективное средство улучшения функций периферийных устройств. Их подход фокусируется на использовании только функций изображения высокого уровня (уровень P5) для кросс-модального слияния, поскольку функциям более низкого уровня не хватает семантической информации и увеличиваются вычислительные затраты. Этот метод значительно уменьшает количество обрабатываемых токенов, снижая вычислительную нагрузку.

Для лучшей интеграции на периферийных устройствах модель заменяет деформируемое самообслуживание стандартным самообслуживанием и представляет модуль межмасштабного объединения функций для интеграции функций изображения более низкого уровня (уровни P3 и P4). Эта конструкция уравновешивает необходимость улучшения функций с необходимостью повышения вычислительной эффективности.

В Grounding DINO 1.5 Edge исходный усилитель признаков заменяется новым эффективным усилителем, а EfficientViT-L1 используется в качестве основы изображения для быстрого многомасштабного извлечения признаков. При развертывании на платформе NVIDIA Orin NX эта оптимизированная модель достигает скорости вывода более 10 кадров в секунду при входном размере 640 × 640. Это делает ее подходящей для приложений реального времени на периферийных устройствах, обеспечивая баланс между производительностью и эффективностью.

Сравнение исходного усилителя функций и нового эффективного усилителя функций (источник)

Визуализация Grounding DINO 1.5 Edge на NVIDIA Orin NX показывает FPS и подсказки, отображаемые в верхнем левом углу экрана. В правом верхнем углу показано изображение записанной сцены с камеры.

Демонстрация обнаружения объектов

Обязательно запросите DeepDataSpace для получения ключа API. Ключи API см. в DeepDataSpace: https://deepdataspace.com/request_api.

Чтобы запустить эту демонстрацию и начать экспериментировать с моделью, мы создали и добавили в эту статью блокнот Jupyter, чтобы вы могли его протестировать.

Сначала клонируем репозиторий:

!git clone https://github.com/IDEA-Research/Grounding-DINO-1.5-API.git

Далее установим необходимые пакеты:

!pip install -v -e .

Запустите приведенный ниже код, чтобы сгенерировать ссылку:

!python gradio_app.py --token ad6dbcxxxxxxxxxx

Реальное применение и заключительные мысли по заземлению DINO 1.5

1. Автономные транспортные средства

  • Обнаружение и распознавание известных дорожных знаков, пешеходов и незнакомых объектов, которые могут появиться на дороге, обеспечивая более безопасную навигацию.
  • Выявление неожиданных препятствий, таких как мусор или животные, которые не отмечены заранее в данных обучения.

2.Наблюдение и безопасность

  • Распознавание посторонних лиц или объектов в зонах ограниченного доступа, даже если их раньше не видели.
  • Обнаружение брошенных объектов в общественных местах, таких как аэропорты или вокзалы, может представлять собой потенциальную угрозу безопасности.

3. Управление розничной торговлей и запасами.

  • Идентификация и отслеживание товаров на полках магазинов, включая новые продукты, которые могли отсутствовать в исходном ассортименте.
  • Распознавание необычных действий или незнакомых предметов в магазине, которые могут указывать на кражу.

4.Здравоохранение

  • Обнаружение аномалий или незнакомых закономерностей при медицинском сканировании, таких как новые типы опухолей или редкие состояния.
  • Выявление необычного поведения или движений пациента, особенно при длительном уходе или послеоперационном восстановлении.

5.Робототехника

  • Предоставление роботам возможности работать в динамичной и неструктурированной среде путем распознавания и адаптации к новым объектам или изменениям в их окружении.
  • Обнаружение жертв или опасностей в пострадавших от стихийных бедствий районах, где окружающая среда непредсказуема и наполнена незнакомыми объектами.

6. Мониторинг и охрана дикой природы.

  • Обнаружение и идентификация новых или редких видов в естественной среде обитания для изучения биоразнообразия и усилий по сохранению.
  • Мониторинг охраняемых территорий на предмет присутствия незнакомых людей или инструментов, которые могут указывать на незаконную браконьерскую деятельность.

7. Производство и контроль качества

  • Выявление дефектов или аномалий в продукции на производственной линии, в том числе новых видов дефектов, ранее не встречавшихся.
  • Распознавание и сортировка широкого спектра объектов для повышения эффективности производственных процессов.

В этой статье представлено заземление DINO 1.5, предназначенное для улучшения обнаружения открытых объектов. Ведущая модель Grounding DINO 1.5 Pro установила новые стандарты в тестах COCO и LVIS с нулевым выстрелом, отметив значительный прогресс в точности и надежности обнаружения.

Кроме того, модель Grounding DINO 1.5 Edge поддерживает обнаружение объектов в реальном времени в различных приложениях, расширяя практическое применение этой серии.

Надеемся, вам понравилось читать статью!

Ссылки

  • Оригинальная исследовательская статья
  • Ссылка на Гитхаб