Management dat v průběhu výzkumného projektu

Podrobnější zpracování najdete v knize "Cesty k datům" (Sociologické nakladatelství - SLON, Praha 2012).

Cíle managementu dat v průběhu výzkumného projektu

  • integrita dat, kvalita dat - přesnost a správnost výzkumu
  • srozumitelnost pro všechny potenciální uživatele
  • efektivita výzkumné práce - čas a náklady
  • autenticita dat - možnost replikace, opravy analýz
  • zajištění legálních a formálních předpokladů výzkumu
  • zabezpečení a zachování dat
  • zpřístupnění dat

Rozhodnutí o struktuře souboru

  • co jsou jednotky analýzy a jakým způsobem budou analyzovány?
  • jaký software budeme používat?
  • databázi bude tvořit jeden nebo více datových souborů?
  • jaká bude vnitřní struktura datového (datových) souborů?
  • pokud je více souborů, jak budou navzájem provázány?
  • jaká bude návaznost na jiné databáze (propojitelnost, srovnatelnost, komplementarita)?

Typy struktury

  • flat file - obdélníkový datový soubor, datová matice
  • hiearchický soubor: záznamy vyššího a nižšího řádu uspořádány v hiearchické struktuře (např. data z šetření domácností, kde v jedné úrovni jsou zaznamenány údaje o domácnostech a v další úrovni údaje o jednotlivých členech domácností)
  • relační databáze: systém datových tabulek a asociací mezi nimi. např. výzkum domácností, kdy údaje členů domácnosti jsou zaznamenány v samostatných tabulkách propojených parametrem reprezentujícím sounáležitost a vztah mezi členy domácnosti (lze např. vyhledávat řádky se shodnými atributy a vytvářet podsoubory)

Pojmenování datových souborů

  • systematicky, krátké názvy odkazující na obsah a/nebo vznik
  • rozlišení sérií, verzí a edicí (viz dále)
  • konzistentní formát
  • nezávislost jména na umístění a software (nepoužívat speciální znaky, místo mezer podtržítka, velká/malá písmena mohou být při převodu nestabilní (převoditelnost mezi systémy), rozsah kódu musí odpovídá počtu verzí atp.)
  • když hodně souborů (např. fotografie) lze použít nástroje na automatické přejmenování (batch renaming), např.: Ant Renamer (http://www.antp.be/software/renamer), Bulk Rename Utility (http://www.bulkrenameutility.co.uk/)

Způsob značení proměnných v datovém souboru

  • jména proměnných (variable names): krátká označení zpravidla ne delší než 8 znaků pod kterými jsou řazeny v datovém souboru - např. číselný kód (V001, V002...), číslo otázky dotazníku (Q1, Q2a, Q2b,...), mnemotechnická jména/ předpona-kořen-přípona (BIRTH, AGE, AGECAT, CZ_PRTY, SPOUSE, SPEDUC...)
  • další označení proměnných (variable labels): delší textová označení doplňující jména proměnných, bývají využívána pro popis proměnné a zobrazují se ve výstupech analýz - délka bývá též omezena, ale ne tak radikálně (např. 68 znaků atp.),
  • systematičnost značení
    —      dotváří strukturu datového souboru
    —      skupiny proměnných, vzájemné vztahy (např. původní a transformovaná)
    —      návaznost na další prvky výzkumu (dotazník, jiná data - srovnatelné proměnné)
    —      nezapomenout na identifikační proměnné - případy, dotazníky, části výzkumu (např. různé vlny šetření, nadvýběr atp.), tazatelé atp. - požadavek jednoznačnosti,
  • respektování nároků software (např. jména proměnných nezačínat číslem, pouze 8 míst)
  • zohlednění potřeb při analýzách a přípravě výstupů analýz (např. délka označení zabírá prostor v tabulkových výstupech)

Hodnoty proměnných

  • naměřené hodnoty / odpovědi / audio / video / vzorky ...
  • numerické kódování - ve všech stat. softwarech => převoditelnost
  • někdy komplikovaný kognitivní proces vyžadující teoreticky i analyticky podloženou koncepci (např. povolání, vzdělání,...)
  • kódované kategorie by měly být vztaženy k obsahu testovaných hypotéz, nicméně kódovací struktury jsou využitelné ve více výzkumech
  • standardizace
  • dokumentace, značení (value labels)
  • kódování - samostatný proces u složitějších úloh

Doporučení ke kódování

  • Identifikační proměnné na začátku záznamů - jednoznačnost
  • Kódy kategorií vzájemně exkluzivní, vyčerpávající a přesně definované
  • Kódujte v největší možné podrobnosti. Informaci pak lze převést na méně podrobnou, opačně to nejde
  • Uzavřené otázky: kódovací schéma v digitálním formátu, kvůli zabránění omylům
  • Otevřené otázky: jakékoliv kódovací schéma je třeba uvést v dokumentaci
  • Úplné odpovědi v textovém formátu: posouzení dat z hlediska ochrany osobních údajů
  • Kontrola kódování: opětovné zakódování nezávislým kodérem - ověření práce kodéra i  kódovacího schématu
  • Série odpovědí: jestliže série odpovědí vyžadují více než jedno místo, je vhodné aplikovat společné kódovací schéma rozlišující hlavní a sekundární kategorie atd.
  • Shodné kódovací struktury pro více znaků - systematicky vytvořené kódovací schéma
  • Přebírání kódovacích struktur z jiných šetření - standardizace

Zajištění integrity datového souboru

Určení software pro pořízení datového souboru

  • záznam při pořízení rozhovoru - sběr dat s počítačem, např. CATI, CAPI vyžaduje specializovaný software
  • vkládání dat po sběru dat
  • skenování
  • manuální vkládání - přepis dat do počítače (software např. Data Entry)

Doporučení

  • nepřetěžovat operátory -  kódování a vkládání jako samostatné úlohy
  • méně kroků - redukce možností vzniku chyb
  • specializovaný software umožňuje nastavit platné hodnoty a filtry
  • dvojí vkládání a srovnání výsledků.
  • provést kontrolu úplnosti záznamů.
  • provést logickou kontrolu a kontrolu konzistence dat, např.: kontrola rozsahu hodnot (např. věk respondenta vyšší než 100 let je nepravděpodobný); kontrola nejnižších a nejvyšších hodnot a extrémů; kontrola poměrů souvisejících proměnných (např. dosaženému stupni vzdělání by měl odpovídat věk); srovnání s historickými daty (např. počet členů domácnosti mezi dvěma vlnami panel. výzk.)
  • řadu kontrol lze provádět automaticky za pomoci počítače
  • určité procento, např. 5 - 10%, by mělo projít podrobnou hlubší kontrolou
  • změny by měly být dokumentovány a původní data obnovitelná

Anonymizace

Etické a legální požadavky na práci se soubory sociálních dat požadují chránit osobní údaje respondentů před zneužitím (viz výše). Sociální výzkum nesměřuje ke zjišťování údajů o jednotlivcích, ale k získání generalizované informace. Řada databází, zejména v případě výzkumů menších skupin, výzkumů využívajících podrobné údaje nebo kvalitativních výzkumů, však identifikaci osob umožňuje. S takovými daty je třeba zacházet pouze v rámci informovaného souhlasu se zpracováním osobních údajů získaného od respondentů a přijmout opatření k zabezpečení osobních údajů před zneužitím. 

Datové soubory, v případě, že nebyl získán odpovídající informovaný souhlas respondentů nebo účel využití dat práci s osobními údaji nevyžaduje, by měly být zpracovávány jako anonymní. I databáze, které se na první pohled jeví jako anonymní by pro účely zajištění ochrany práv respondentů měly být podrobeny analýze z hlediska rizika rozkrytí osobních údajů a případné vady odstraněny. V některých případech lze anonymitu dat zajistit pomocí metod anonymizace dat.

Databáze není anonymní, pokud umožňuje určení fyzických osob, k nimž se údaje v databázi vztahují, a to na základě přímých nebo i nepřímých identifikátorů.

  • Přímé identifikátory jsou např. jména, rodná čísla, adresy, telefonní čísla, fotografie respondentů atp.
  • Nepřímé identifikátory umožňují identifikovat osobu propojením s jinými známými informacemi, např. informace o zaměstnání, lokalitě bydliště , lokalitě zaměstnání atp. nebo vyjímečné hodnoty některých znaků. Nepřímá identifikace může vzniknout i kombinací více znaků.

Základní metody anonymizace

  • Odstranění přímých identifikátorů: v některých případech je možné je nahradit anonymními kódy.
  • Odstranění nebo nahrazení propojení s jinými dostupnými neanonymními databázemi nebo informacemi.
  • Agregace údajů nebo redukce podrobnosti znaku: některé údaje lze pospojovat do kategorií, které odkazují k širším skupinám subjektů, aniž by byla ztracena vypovídací hodnota, místo plného data narození uvádět pouze rok atp. Pozornost by měla být věnována např. geografickým identifikacím, protože označení menších sídelních jednotek často vedou v kombinaci s dalšími znaky k identifikaci osob.
  • Ošetření extrémních hodnot znaků: riziko identifikace osob na základě atypických, vyjímečných hodnoty lze často eliminovat zavedením spodních a horních limit rozsahu znaků.

Vážení

Jsou v souboru váhy? Mám je použít?
typ vah, popis vah (algoritmus), rozsah a průběh (DOKUMENTACE!), jaký je výsledek s váhou a bez váhy?

  • Designové váhy: kompenzce rozdílu pravděpodobností výběru jednotek v souboru
  • Vážení výpadků návratnosti: kompenzace rozdílů návratnosti u různých skupin
  • Poststratifikační váhy: dosažení shody rozložení podle známých charakteristik populace
  • Přizpůsobení poměrů skupin: různé skupiny mohou být zastoupené odlišně vzhledem k reálným poměrům (např. kvůli analýze větších celků (Evropa) v mezinárodní databázi)
  • Kombinované, celkové váhy

Dokumentace dat

Pro dokumentaci dat, která doprovází datový soubor se používá termín metadata.

Dokumentace dat je nezbytná pro využití dat pro analýzu. Výzkumné standardy (ESOMAR, WAPOR/AAPOR,...) určují minimum informací, které mají data z výzkumných šetření doprovázet a to buď v podobě. O položkách pro dokumentaci datového souboru, jejich obsahu a formě, je třeba rozhodnout na počátku výzkumného procesu - řadu informací je třeba zaznamenat v průběhu některých výzkumných fází a zpětně by je něšlo pořídit. Formát dokumentace je dobré volit s rozmyslem a s ohledem na kompatibilitu a trvalost formátu. Software prochází rychlým vývojem a dokumentace uložená v současných formátech běžných softwarů může zkomplikovat nebo i zamezit budoucí použití.

Tři základní úrovně dokumentace

  • projekt
  • databáze
  • proměnné a případy

Prvky dokumentace

Informace o projektu

- původ datového souboru

  • název výzkumu (včetně zkratek, alternativních, cizojazyčných názvů...)
  • institucionální informace (autoři, instituce, sponzoři a čísla grantů, zadavatelé...)
  • abstrakt projektu, cíle, koncepty, hypotézy, odkazy na navazující projekty

- popis a metody sběru dat

  • popis všech zdrojů, z nichž jsou data získána
  • časové vymezení sběru dat
  • časové a geografické pokrytí
  • cílová populace
  • jednotky pozorování
  • popis výběrového designu včetně opory
  • metody sběru dat
  • původní výzkumný instrument a další materiály použité při sběru dat (zvací dopisy, pokyny pro tazatele atp.)
  • použitá klasifikační schémata a koncepty
  • návratnost a další vyhodnocení (např. známé odchylky od populace)
  • identifikace změn metodiky u časových sérií a longitudiálních výzkumů

Informace o databázi

- popis datových souborů

  • specifikace verze a edice souboru (pokud jich je víc)
  • struktura souborů
  • specifikace vztahů a propojení
  • informace o rozsahu (počet záznamů a proměnných)
  • informace o formátech a kompatibilitě.

- editace a modifikace dat

  • metody a výsledky kontrol integrity, validizace, čištění dat, příp. dalších postupů ošetření kvality dat (kalibrace, imputace chybějících hodnot, okontrola a opravy přepisu atp.)
  • anonymizace
  • transformace a konstrukce odvozených proměnných
  • vážení (identifikace proměnných pro vážení a popis metod a jejich konstrukce)

- přístup k datům

  • vymezení přístupnosti, specifikace podmínek používání, informace o ochraně osobních údajů

- katalogizační a citační informace

  • bibliografická informace, doporučená citace, klíčová slova, katagolizační údaje

- odkazy na související materiály a zdroje, pokud je to relevantní

Informace o proměnných a případech

- informace o proměnných v souboru

  • jména proměnných
  • označení a popis proměnných a jejich hodnot včetně popisu odvozených proměnných
  • k dispozici by mělo být přesné původní znění otázky
  • frekvence, základní třídění apod. (?)

- informace o případech v souboru

  • specifikace případů, pokud je to relevantní

Standardizace dokumentace

DDI (Data Documentation Initiative) je dokumentační standard připravený speciálně pro sociálněvědní data. DDI představuje strukturu položek dokumentace a předepsaný formát. Záznamy jsou ve formátu XML (eXtesible Markup Language), tj. v prostém textovém formátu, ale obsah záznamu je popsán pomocí tzv. tagů (označení jednotlivých položek je uvedeno standardním způsobem ve špičatých závorkách) a na tomto základě jej lze importovat do mnoha aplikací a zpracovávat. Tento standard využívají sociálněvědní archivy a další instituce, takže jejich datové knihovny jsou pak navzájem kompatibilní a propojitelné. Pro tento standard jsou vyvíjeny specializované softwary pro prezentaci, zpracování i analýzu dat a metadat.

Verze a edice datového souboru

V průběhu zpracování dat i analýzy vznikají různé verze datových souborů. Probíhají operace čištění a zpracování dat, jsou vytvářeny transformované proměnné, objevují a odstraňují se chyby, může dojít k doplnění dalších skupin jednotek (např. zemí v mezinárodním výzkumu) do datového souboru atp.

Strategie správy verzí a edicí

  • jednoznačná identifikace verzí a edicí, přehled o rozdílech
  • zajištění autenticity (zabránit neautorizovaným zásahům)

Doporučení

  • stanovit podmínky používání dat a seznámit s nimi uživatele
  • rozlišovat mezi verzemi sdílenými více výzkumníky a prac. verzemi jednotlivců
  • zavést jednoznačné a systematické značení verzí a edicí datového souboru
  • vést záznamy o vytváření verzí a edicí, jejich obsahu a vzájemných vztazích
  • dokumentovat provedené změny
  • zachovávat původní verze datových souborů, resp. materiály umožňující rekonstrukce původních souborů (např. syntax)
  • stanovit „master file“ a přijmout opatření k zachování jeho autenticity, tj. vhodně jej umístit a vymezit přístupová práva a odpovědnosti, kdo a jaké změny smí provádět
  • pokud je více kopií stejné verze, kontrolovat jejich shodnost

Zálohování, formáty a média

Zálohování je proces - pravidelné zálohování a obnova

  • digitální média z principu nespolehlivá
  • software, instituce atd. procházejí změnami + další rizika

Využití dat v kratším časovém horizontu - požadavek na operabilitu

  • formáty navázané na kokrétní software, ale lépe jejich transportní verze, které umožňují přenos mezi různými verzemi (např. SPSS: *.por)
  • diakritika => kódování znaků minimálně v UTF 8

Archivace na delší dobu

  • jednoduché textové formáty (ASCII - fixní/volné) + strukturovaná dokumentace
  • PDF/A (archivační verze PDF definovaná ISO)

Média

  • vždy je nutné počítat se selháním
  • nezáleží jen na typu, ale i kvalitě; náchylnost k fyzickému poškození
  • nejméně dvě různé formy archivace
  • pravidelné přehrávání na nová média