Digi Műhely | Személyazonosság, személyazonosítás online lehetőségei használata

Gépi tanuló modellek elleni adversarial támadások és védekezési módszerek

Készítette: Szűcs Csaba

Azt a modellt, amit a támadó meg szeretne téveszteni, célmodellnek hívjuk; azokat a bemeneti adatokat (példányokat) pedig, amikkel a megtévesztést el szeretné érni, adversarial példáknak /adversarial mintáknak nevezzük.

Az elmúlt években a mesterséges intelligencia technológiáit széles körben alkalmazták a számítógépes látásban, természetes nyelvfeldolgozásnál, az iparban, a gazdasági és egyéb területeken. A mesterséges intelligenciát használó rendszerek azonban kiszolgáltatottak a különböző támadásoknak, így ezzel korlátozzák az intelligens technológiák alkalmazását a legfontosabb biztonsági területeken. Ezért ezeknek a rendszereknek a robusztusságának javítása a támadásokkal szemben egyre fontosabb szerepet játszik a mesterséges intelligencia további fejlődésében.

Ez a tanulmány kívánja összefoglalni a mesterséges intelligencia elleni támadásokkal kapcsolatos legújabb kutatási eredményeket (itt elsősorban a mély neurális hálózatok elleni támadásokról esik szó) és a védelmi technológiákat. Bemutatjuk, hogy hogyan kategorizálhatók a gépi tanuló modellek elleni támadások, majd részletesen tárgyaljuk az adversarial mintákon alapuló támadások módszereit és az ellenük való védekezési lehetőségeket. Tanulmányunkat a különböző alkalmazási területekből vett konkrét példákkal (arcfelismerés, támadás a fizikai világ területén) zárjuk.

Kulcsszavak: gépi tanuló modellek; adversarial támadások; arcfelismerés, mesterséges intelligencia