Nestrukturovaná data a GDPR compliance

Pro účely tohoto článku pojem data znamená pouze ta data, která obsahují osobní údaje. Zatímco ve strukturovaných datech lze poměrně snadno vyhledávat, jelikož se ukládají do digitálních databází nebo analogových evidencí roztříděných podle předem definovaných kritérií, nestrukturovaná jsou potom ta data, která existují na různých fyzických či elektronických uložištích správce osobních údajů, aniž by bylo možné je jakkoliv hromadně identifikovat či stanovit jejich přesný obsah a rozsah. Velké množství společností stále nepřišlo na dobrý způsob, jak nestrukturovaná data, jako například e-maily, intranetovou komunikaci či jiná tzv. big data, zpracovávat.

Nestrukturovaná data se v rámci společnosti vyskytují ve více než 100 rozdílných formátech a jsou mnohdy uložena v poměrně složitě přístupných systémech jako Microsoft Exchange, Office365, Sharepoint, Skype, OneDrive apod. Z toho vyplývá, že v rámci společností existují převážně v elektronické podobě, zejména ve formě e-mailové a instant messagingové komunikace, stejně tak jako ve formě jakékoliv jiné neroztříděné dokumentace, obsahující osobní údaje subjektů.

Vzhledem k tomu, že nařízení GDPR dopadá na osobní údaje v obecné rovině, dopadá taktéž na nestrukturovaná data, obsahující osobní údaje. Pro společnosti, jakožto správce osobních údajů, je klíčové provést v rámci přípravy GDPR compliance důkladnou analýzu, v jakém rozsahu dochází v rámci jejich činností ke zpracování těchto nestrukturovaných dat, kde jsou uložena, po jakou dobu jsou uchovávána a kdo k nim má přístup. V neposlední řadě však bude také nutné, aby byl správce schopen reagovat na uplatnění práv subjektů údajů, zejména práva na výmaz a změnu osobních údajů, což se může zdát poměrně problematickým u dokumentů, o jejichž množství a obsahu nevede společnost žádné oficiální záznamy.

Je zřejmé, že při zavádění interních procesů, týkajících se analýzy nestrukturovaných dat, bude správce čelit mnohým výzvám:

bude muset dokázat analyzovat e-mailovou komunikaci, aplikace instant messagingu a jiná datová uložiště, aby mohl identifikovat všechny zde uložené osobní údaje;
jakmile tato data identifikuje, bude je muset být schopen v případě potřeby izolovat, případně odstranit a toto odstranění prokázat;
důležitou informací pro správce bude také to, kdo předmětná nestrukturovaná data vlastní;
bude muset zavést pravidla pro retenci nestrukturovaných dat, která budou odrážet všeobecné nastavení ochrany osobních údajů daného správce, a to nejlépe obsažením v interní směrnici o ochraně osobních údajů;
ze všeho nejdůležitější pak bude schopnost správce identifikovat a vyčlenit data konkrétní osoby, která u správce uplatní jedno či více svých práv dle čl. 15 - 22 GDPR.

Požadavek na rychlé vyhledání a korekci nestrukturovaných dat v případě, že o ně subjekt požádá, lze velmi podstatně urychlit vytvořením a pravidelnou aktualizací indexu nestrukturovaných dat.

Na našem trhu je v dnešní době již velké množství softwarových řešení od různých poskytovatelů, která tyto funkce nabízí. Klasifikace nestrukturovaných dat většinou probíhá pomocí modelů strojového učení. Využití této technologie se jeví jako velmi vhodné, neboť jak již bylo výše uvedeno, ochrana GDPR se stejnou měrou vztahuje na data strukturovaná i nestrukturovaná.

E-mailová komunikace

Jednou z nejrozsáhlejších kategorií nestrukturovaných dat je zpracování e-mailové komunikace prostřednictvím e-mailového klienta správce. E-mailové zprávy běžně obsahují podpisové řádky každé jednotlivé osoby zprávu odesílající. Tyto řádky pak obsahují osobní údaje, a to přinejmenším jméno a příjmení dané osoby, častokrát také telefonní číslo, pracovní pozici či jiný identifikační údaj, nemluvě o samotném obsahu e-mailové komunikace a zaslaných přílohách.

Je nutné odlišit případy, kdy je vedena opakující se e-mailová korespondence s minulými, stávajícími či potenciálními zákazníky a kdy bude správce přijímat částečně nevyžádanou elektronickou poštu, která však bude osobní údaje odesílatele obsahovat také.

Pokud jde o situaci, kdy bude správce adresátem nevyžádané korespondence ze strany potenciálních dodavatelů či jiných osob, lze mít za to, že se bude jednat o případ, kdy bude identifikace (a to jak přímá, tak nepřímá) vzhledem k faktorům, jako jsou náklady a čas, které si identifikace vyžádá, zjevně neúčelná. Správce údajů skutečnost, že obdrží e-mailové zprávy od třetích osob, obsahující osobní údaje, nikterak neovlivní a v drtivé většině případů je ani nezpracovává pro další účely. Jakousi pojistkou, která by mohla správci zaručit absolutní soulad jeho procesů s GDPR, by bylo vhodné nastavení mazání obsahu e-mailové schránky, například konkrétní složky, kam by byly podobné nevyžádané zprávy ukládány.

Rozdílná situace však nastává, pokud se jedná o cílenou komunikaci, například za účelem smluvního vyjednávání či jiného běžného obchodního styku. Lze poté říci, že osobní údaje jsou zpracovávány souvisle a opakovaně, a to dle správcem určených účelů. Důležitou kategorií v tomto případě bude právní titul takového zpracování, který je jedním z hlavních projevů zásady zákonnosti zpracování. Převládá názor, že pokud subjekt zasílá správci e-mailové zprávy, které obsahují jeho podpisové řádky, dává tímto správci, sice nevýslovný, souhlas s jejich zpracováním. Tento závěr je ostatně také logický, neboť účelem uvádění těchto údajů na konci e-mailové zprávy je možnost druhé strany zaevidovat si tyto údaje pro pozdější využití v rámci vzájemné komunikace a případného poskytování služeb. Tento nevýslovný souhlas však v sobě může skrývat rizika, a to právě v dokazování takového souhlasu, kdy se nemusí jednat o zcela zjevnou záležitost.

Vedle názoru o nevýslovném souhlasu se objevuje též názor, že takové zpracování je prováděno na základě oprávněného zájmu správce. Dovozuje se, že je oprávněným zájmem správce evidovat přijatou e-mailovou komunikaci a zároveň před tímto oprávněným zájmem správce nemají přednost zájmy nebo základní práva a svobody odesílajícího subjektu, který už tím, že své osobní údaje správci předal, dal najevo, že si přeje, aby osobní údaje správce obdržel. Je tedy potřeba rozlišit účely, za kterými je emailová komunikace vedena a podle toho poté vyhodnotit, zda dané zpracování bude vůbec spadat pod věcnou působnost GDPR.

Neméně důležitou povinností, vedle té zpracovávat osobní údaje zákonným způsobem, je povinnost správce informovat subjekt údajů o všech náležitostech dle GDPR, a to zejména jeho právech. Tuto povinnost musí splnit každý správce buďto v okamžiku, kdy získá osobní údaje od subjektu údajů, či při prvním kontaktu s ním v případě, kdy osobní údaje získal od třetí osoby. V praxi se takový postup v rámci užívání e-mailové korespondence, minimálně v prvním naznačeném případě, může zdát nepraktický a přinejmenším problematický. Jako vhodné řešení této situace se jeví rozšíření podpisového řádku každé osoby, působící v rámci činnosti správce, o odkaz na zásady ochrany osobních údajů, které budou umístěny kupříkladu na internetových stránkách dotyčného správce. Toto řešení lze považovat za pružné a poměrně efektivní, kdy by bylo nepřiměřené požadovat, aby sama e-mailová zpráva obsahovala veškerá poučení a výčet práv subjektu údajů.

Pro efektivitu zpracování a usnadnění výkonu některých práv subjektů údajů (zejména práva na výmaz) se jeví jako vhodné zavést do vnitřních struktur společnosti jakoukoliv podobu IT systému, který bude osobní údaje obsažené v e-mailové komunikaci jednak shromažďovat a třídit, ale bude schopen je také centrálně mazat a tyto úkony také prokázat.

Závěr

Závěrem je třeba shrnout, že otázka nestrukturovaných dat je otázkou poměrně přehlíženou, kdy se většina velkých společností, alespoň do schválení finální verze nařízení GDPR, řídila pravidlem „Too big to handle“, tedy že objem nestrukturovaných dat je ve společnosti tak velký, že je vlastně nelze vůbec kontrolovat. Toto však od účinnosti GDPR již možné nebude, protože jeho ochrana a účinky se vztáhnou také na ně. Správcům osobních údajů lze poté doporučit zejména následující:

provést důkladnou analýzu toho, jaká nestrukturovaná data a v jakých formách správce zpracovává, a to spolu s možností data jednotlivých subjektů oddělit, odstranit či jinak s nimi odděleně nakládat;
provést revizi interních směrnic a případnou revizi či implementaci IT systémů, které správci usnadní plnění povinností vůči subjektu údajů dle nařízení GDPR;
zajistit dostatečné zabezpečení datových úložišť obsahujících nestrukturovaná data a správně nastavit přístupy osob, které je mohou číst či modifikovat, včetně možného sledování těchto osob;
zavést aktivní politiku řízení a správy nestrukturovaných dat ve společnosti, včetně pravidelného školení klíčového personálu;
a v neposlední řadě také zavést vhodnou retenční politiku uchovávaných nestrukturovaných dat, aby tato nebyla zpracovávána po zbytečně dlouhou dobu.

Identifikace rozsahu zpracovávaných nestrukturovaných dat je klíčovým problém v cestě za GDPR compliance, ale také jedinou možností, jak s celým procesem začít a ukončit momentální společenskou situaci, kdy správci osobních údajů hojně spoléhají na to, že pokud jsou data „Too big to handle“, není je třeba jakkoliv ve smyslu ochrany osobních údajů zohledňovat.