A linkage attack (összekapcsolt támadás) kísérlet arra, hogy az adatok és a háttérinformációk kombinálásával felfedjék a személyes, érzékeny adatokat egy korábban anonimizált adatkészletben. A linkelés olyan azonosítókat használhat fel az anonimitás feloldására, mint az irányítószám, a gender, a banki átutalás és még sok olyan elem, amely mindkét adatkészletben megtalálható.
Sok szervezet nincs tisztában az adatait linkage attack kockázattal, és bár eltávolítják/anonimizálják az érzékeny adatokat és a személyes azonosítókat az adatkészletből, gyakran nem gondolnak a rejtett kockázatokra.
Az E-Group csapata egy hackathon rendezvényen gyűjtötte össze a legfrissebb tapasztalatokat és ismereteket az ügyféladatok biztosítása és biztonságának megőrzése érdekében.
Június 16. és 17. között került megrendezésre az AI Ethicon nemzetközi rendezvény részeként a Privacy Preserving Machine Learning (#PPML) etikus megközelítéssel című hackathon diákok, szakemberek és érdeklődők számára. A rendezvényen résztvevő E-Group csapat kiemelkedő tudását bizonyítva neves külföldi és hazai csapatokkal versenyezve végül a második helyet szerezte meg.
A csapatok 2 témában versenyezhettek:
- Differenciális adatvédelem és szintetikus adatok generálása (Differential privacy & syntenic data generation)
- Sérülékeny adatkészletek elemzése (Analysis of vulnerable datasets)
Az E-Group csapata (Zoltay Marcell, Schlepp Krisztián, Gál Marcell) a 2. témát választva bemutatta az adatok de-azonosítási módszereinek korlátait, rámutatva a fejlettebb adatvédelmi technológiák – Privacy Enhancing Technologies (PET-ek) -, mint például a differenciális adatvédelem, hasznosságára.
A személyes adatok elrejtése az adatok anonimizálásának gyakran alkalmazott technikája. Az adatkészlet összes egyértelműen „személyazonosításra alkalmas információ”-t (PII) tartalmazó adatának, többek között a nevek, a címek és a születési dátumok eltávolítását jelenti. A közelmúlt adatvédelmi támadásai és a magánélet védelmét célzó legújabb kutatások azonban feltárták, hogy az anonimizált adatkészletek összekapcsolt támadásokkal (linkage attack) veszélybe kerülhetnek. A linkelési támadás során a közzétett adatok anonimizált részei újra hozzáférhetővé válnak azáltal, hogy egy másik forrásból származó információhoz kapcsolják őket.
A feladat 4 különböző adatkészlet adatai közti minél több kapcsolat feltárásából állt. A versenyzőknek az alábbi adatforrások álltak rendelkezésre:
- Hitelkártya tranzakciók
- Hitelképességi mutatók lakcím szerint
- Hitelkártya visszaélési adatok
- Anonimizált személyes adatok
A csapat nagyon hasznos tapasztalatokra tett szert, nem csupán az adatkapcsolatok felderítésében, hanem a Python programnyelv adatkezelési és adatelemzési lehetőségeinek megismerése terén is. A verseny bemutatta, milyen egyszerű az adatok összekapcsolása, és mennyire sebezhetőek az általunk oly gyakran megosztott adatkészletek, például a banki hitelkártya-tranzakciók adatai.
Az E-Group sohasem pihen. Csapatunkkal folyamatosan dolgozunk megoldásaink fejlesztésén, hogy csökkentsük az adatok sérülékenységének veszélyeit és új módszereket fedezzünk fel és vezessünk be az adatok biztonságának megőrzése érdekében.