Новый метод защиты ИИ защищает модели от атак противников

Новый метод защиты ИИ защищает модели от атак противников
06:00, 12 Мар.

Нейронные сети, тип искусственного интеллекта, смоделированный на основе связей человеческого мозга, являются движущей силой критических прорывов в широком спектре научных областей. Но эти модели сталкиваются со значительной угрозой со стороны враждебных атак, которые могут свести на нет прогнозы и выдавать неверную информацию.

Исследователи из Национальной лаборатории Лос-Аламоса разработали новую стратегию очистки, которая противодействует состязательным атакам и сохраняет надежную работу нейронных сетей .

Их исследование опубликовано на сервере препринтов arXiv . «Атаки на системы искусственного интеллекта могут принимать форму крошечных, почти невидимых изменений в изображениях ввода, тонких модификаций, которые могут направить модель к желаемому злоумышленником результату», — сказал Маниш Бхаттараи, компьютерный ученый из Лос-Аламоса.

«Такие уязвимости позволяют злоумышленникам наводнять цифровые каналы обманчивым или вредоносным контентом под видом подлинных выходных данных, что создает прямую угрозу доверию и надежности технологий, управляемых искусственным интеллектом».

Метод низкоранговой итерационной диффузии (LoRID) удаляет вредоносные вмешательства из входных данных, используя мощь генеративных шумоподавляющих диффузионных процессов в тандеме с передовыми методами тензорной декомпозиции.

В серии тестов на эталонных наборах данных LoRID достиг непревзойденной точности в нейтрализации вредоносного шума в сценариях атак, потенциально продвигая более безопасные и надежные возможности ИИ.

Победа над опасным шумом Диффузия — это метод обучения моделей ИИ путем добавления шума к данным и последующего обучения моделей его удалению.

Обучаясь очистке шума, модель ИИ эффективно изучает базовую структуру данных, что позволяет ей самостоятельно генерировать реалистичные образцы.

При очистке на основе диффузии модель использует свое усвоенное представление «чистых» данных для выявления и устранения любых враждебных помех, внесенных во входные данные. К сожалению, применение слишком большого количества шагов по очистке от шума может привести к потере важных деталей из данных (представьте себе, что вы так агрессивно очищаете фотографию, что она теряет четкость), в то время как слишком малое количество шагов оставляет место для сохранения вредных возмущений.

Метод LoRID позволяет найти этот компромисс, используя несколько раундов шумоподавления на ранних этапах процесса диффузии, помогая модели устранить ровно столько шума, сколько нужно, не ставя под угрозу содержательное содержание данных, тем самым защищая модель от атак.

Важно, что состязательные входы часто раскрывают тонкие «низкоранговые» сигнатуры — шаблоны, которые могут проскользнуть мимо сложной защиты.

Используя технику, называемую тензорной факторизацией, LoRID выявляет эти низкоранговые аспекты, усиливая защиту модели в крупных состязательных режимах атак.

Команда протестировала LoRID, используя общепризнанные наборы данных эталонных тестов, такие как CIFAR-10, CIFAR-100, Celeb-HQ и ImageNet, оценивая его производительность в условиях современных атак с использованием методов черного и белого ящика .

В атаках белого ящика злоумышленники имеют полное представление об архитектуре и параметрах модели ИИ.

В атаках черного ящика они видят только входы и выходы, а внутренняя работа модели скрыта. В каждом тесте LoRID неизменно превосходил другие методы, особенно с точки зрения надежности и точности — ключевого показателя надежности модели в условиях враждебной угрозы.

Венадо помогает раскрыть эффективность и результаты Команда запустила модели LoRID на Venado, новейшем суперкомпьютере лаборатории с поддержкой искусственного интеллекта, чтобы протестировать ряд современных моделей машинного зрения на устойчивость к атакам как черного, так и белого ящика.

Используя несколько узлов Venado в течение нескольких недель — амбициозное усилие, учитывая огромные вычислительные требования — они стали первой группой, которая провела такой всеобъемлющий анализ.

Мощность Venado превратила месяцы моделирования в считанные часы, сократив общее время разработки с нескольких лет до одного месяца и значительно снизив вычислительные затраты.

Надежные методы очистки могут повысить безопасность ИИ везде, где применяются приложения нейронных сетей или машинного обучения, в том числе потенциально в миссии Лаборатории по обеспечению национальной безопасности.

«Наш метод установил новый стандарт производительности на основе известных наборов данных, показав превосходные результаты как при атаках по методу «белого ящика», так и при атаках по методу «черного ящика»», — сказал Минь Ву, исследователь искусственного интеллекта из Лос-Аламоса.

«Это достижение означает, что теперь мы можем очищать данные — как полученные из частных, так и из публичных источников — перед их использованием для обучения фундаментальных моделей, гарантируя их безопасность и целостность, а также неизменно предоставляя точные результаты».

Рубрика: Игры и Интернет. Читать весь текст на android-robot.com.

 

Боксерские перчатки: выбор чемпиона

1. Значение боксерских перчаток

Бокс - это не только спорт, но и искусство самозащиты, дисциплина и сила духа. Важную роль в тренировках ...

Ремни для смарт-часов: выбор и уход

1. Типы ремней