A Google, az ETH Zurich, az Nvidia és a Robust Intelligence kutatói bebizonyították, hogy lehetőség van ilyen támadásra, azaz adatmérgezésre. Az adatmérgező támadások olyan támadások, amelyek a gépi tanulási modellek betanításához használt adatokat célozzák.
A támadó különféleképpen módosíthatja ezeket az adatokat, például hamis adatok beszúrásával, meglévő adatok módosításával vagy adott adatpontok súlyozásának manipulálásával. Az adatmérgezéses támadások súlyosak lehetnek, különösen azoknál a szervezeteknél, amelyek nagymértékben támaszkodnak gépi tanulási algoritmusokra a kritikus üzleti döntések meghozatalakor. Például egy adatmérgezési támadás a pénzügyi szektorban pontatlan hitelkockázat-értékelésekhez vagy csalárd tranzakciókhoz vezethet. Az egészségügyi ágazatban egy adatmérgezési támadás téves diagnózist vagy helytelen orvosi kezelést eredményezhet.
A kutatók – írja a ZDNet – azt állítják, hogy az általuk kidolgozott technikákkal kis erőfeszítéssel és alacsony költséggel lehet(ne) megmérgezni a kiemelkedő mélytanulási adatkészletek 0,01 százalékát. Bár ez nem tűnik túl nagy adathalmaznak, azonban már a lehetőség fennállása is ijesztő.
Az egyik mód, hogy a támadók elérjék az adatmérgezési céljukat, a lejárt domainnevek vásárlása. A gyanútlan felhasználó nem is sejti, hogy már megmásított adatokat kap a weboldalon. A szakemberek egy másmilyen támadást is demonstráltak, amelynél a támadó ugyan nem tudja teljes mértékben felügyelni az adatkészletet, viszont azt pontosan meg tudja jósolni, hogy a webes erőforrás mikor lesz elérhető egy adatkészlet-pillanatfelvétel készítése céljából. Ekkor a támadó közvetlenül az információgyűjtés előtt mérgezheti meg az adatkészletet.
A kutatók egy példát is említenek: a Wikipédia-adatkészletek nem az élő oldalra támaszkodnak, hanem egy adott pillanatban készült felvételre, ami azt jelenti, hogy a beavatkozást helyesen időzítő támadók rosszindulatúan szerkeszthetik az oldalt. A szakemberek 6,5 százalékos sikerarányt jósolnak, ami nem magas, viszont a Wikipédia-oldalak nagy száma és a gépi tanulási adatkészletek betanításának módja azt jelenti, hogy pontatlan információkat lehet betáplálni a gépi tanulási eszközökbe.
Egyelőre még egyetlen élő Wikipedia-oldalt sem szerkesztettek, azonban a kutatók már értesítették a lehetőségről, illetve a védekezés lehetséges eszközeiről a Wikipédiát. Azt is megjegyzik, hogy vizsgálati eredményeik közzétételének célja nem az, hogy segítséget adjanak a hackereknek, hanem hogy másokat is arra ösztönözzenek, hogy végezzék el saját kutatásaikat azzal kapcsolatban, hogy miként védhetik meg a gépi tanulási rendszereket a rosszindulatú támadásoktól.
Összességében azért elmondható, hogy az adatmérgezéses támadások elleni védekezés sokoldalú megközelítést igényel, amely technikai és eljárási intézkedéseket is magában foglal. Íme néhány lépés, amelyet a szervezetek megtehetnek az adatmérgezés elleni védelem érdekében:
Adatminőség-biztosítás: A szervezeteknek biztosítaniuk kell, hogy a gépi tanulási modellek betanításához használt adatok pontosak, teljesek és reprezentatívak legyenek a megoldandó problémára vonatkozóan.
Adatfigyelés és -auditálás: A szervezeteknek figyelemmel kell kísérniük és auditálniuk kell a gépi tanulási modellek betanításához használt adatokat az anomáliák vagy gyanús tevékenységek észlelésére.
Modellellenőrzés: A szervezeteknek rendszeresen ellenőrizniük kell a gépi tanulási modellek teljesítményét, hogy azok pontos eredményeket produkáljanak.
Fenyegetésintelligencia: A szervezeteknek naprakésznek kell lenniük a gépi tanulási ökoszisztéma legújabb fenyegetéseivel és sebezhetőségeivel kapcsolatban, hogy azonosítsák a potenciális adatmérgezési támadásokat.
Munkavállalói tudatosság: A szervezeteknek ki kell képezniük alkalmazottaikat az adatmérgezéses támadások kockázatairól és a megelőzésük érdekében megtehető lépésekről.
Cikk forrása:
https://hvg.hu/tudomany/20230309_mesterseges_intelligencia_melytanulasi_algoritmusok_elleni_tamadas_adatmergezesselKeresőszó: Vagyonbank, GDPR, Mesterséges intelligencia, Adatmérgezés, Munkavállalói tudatosság