Management dat v průběhu výzkumného projektu

Podrobnější zpracování najdete v knize "Cesty k datům"

Cíle managementu dat v průběhu výzkumného projektu

integrita dat, kvalita dat - přesnost a správnost výzkumu
srozumitelnost pro všechny potenciální uživatele
efektivita výzkumné práce - čas a náklady
autenticita dat - možnost replikace, opravy analýz
zajištění legálních a formálních předpokladů výzkumu
zabezpečení a zachování dat
zpřístupnění dat

Rozhodnutí o struktuře souboru

co jsou jednotky analýzy a jakým způsobem budou analyzovány?
jaký software budeme používat?
databázi bude tvořit jeden nebo více datových souborů?
jaká bude vnitřní struktura datového (datových) souborů?
pokud je více souborů, jak budou navzájem provázány?
jaká bude návaznost na jiné databáze (propojitelnost, srovnatelnost, komplementarita)?

Typy struktury

flat file - obdélníkový datový soubor, datová matice
hiearchický soubor: záznamy vyššího a nižšího řádu uspořádány v hiearchické struktuře (např. data z šetření domácností, kde v jedné úrovni jsou zaznamenány údaje o domácnostech a v další úrovni údaje o jednotlivých členech domácností)
relační databáze: systém datových tabulek a asociací mezi nimi. např. výzkum domácností, kdy údaje členů domácnosti jsou zaznamenány v samostatných tabulkách propojených parametrem reprezentujícím sounáležitost a vztah mezi členy domácnosti (lze např. vyhledávat řádky se shodnými atributy a vytvářet podsoubory)

Pojmenování datových souborů

systematicky, krátké názvy odkazující na obsah a/nebo vznik
rozlišení sérií, verzí a edicí (viz dále)
konzistentní formát
nezávislost jména na umístění a software (nepoužívat speciální znaky, místo mezer podtržítka, velká/malá písmena mohou být při převodu nestabilní (převoditelnost mezi systémy), rozsah kódu musí odpovídá počtu verzí atp.)
když hodně souborů (např. fotografie) lze použít nástroje na automatické přejmenování (batch renaming), např.: Ant Renamer (http://www.antp.be/software/renamer), Bulk Rename Utility (http://www.bulkrenameutility.co.uk/)

Způsob značení proměnných v datovém souboru

jména proměnných (variable names): krátká označení zpravidla ne delší než 8 znaků pod kterými jsou řazeny v datovém souboru - např. číselný kód (V001, V002...), číslo otázky dotazníku (Q1, Q2a, Q2b,...), mnemotechnická jména/ předpona-kořen-přípona (BIRTH, AGE, AGECAT, CZ_PRTY, SPOUSE, SPEDUC...)
další označení proměnných (variable labels): delší textová označení doplňující jména proměnných, bývají využívána pro popis proměnné a zobrazují se ve výstupech analýz - délka bývá též omezena, ale ne tak radikálně (např. 68 znaků atp.),
systematičnost značení
— dotváří strukturu datového souboru
— skupiny proměnných, vzájemné vztahy (např. původní a transformovaná)
— návaznost na další prvky výzkumu (dotazník, jiná data - srovnatelné proměnné)
— nezapomenout na identifikační proměnné - případy, dotazníky, části výzkumu (např. různé vlny šetření, nadvýběr atp.), tazatelé atp. - požadavek jednoznačnosti,
respektování nároků software (např. jména proměnných nezačínat číslem, pouze 8 míst)
zohlednění potřeb při analýzách a přípravě výstupů analýz (např. délka označení zabírá prostor v tabulkových výstupech)

Hodnoty proměnných

naměřené hodnoty / odpovědi / audio / video / vzorky ...
numerické kódování - ve všech stat. softwarech => převoditelnost
někdy komplikovaný kognitivní proces vyžadující teoreticky i analyticky podloženou koncepci (např. povolání, vzdělání,...)
kódované kategorie by měly být vztaženy k obsahu testovaných hypotéz, nicméně kódovací struktury jsou využitelné ve více výzkumech
standardizace
dokumentace, značení (value labels)
kódování - samostatný proces u složitějších úloh

Doporučení ke kódování

Identifikační proměnné na začátku záznamů - jednoznačnost
Kódy kategorií vzájemně exkluzivní, vyčerpávající a přesně definované
Kódujte v největší možné podrobnosti. Informaci pak lze převést na méně podrobnou, opačně to nejde
Uzavřené otázky: kódovací schéma v digitálním formátu, kvůli zabránění omylům
Otevřené otázky: jakékoliv kódovací schéma je třeba uvést v dokumentaci
Úplné odpovědi v textovém formátu: posouzení dat z hlediska ochrany osobních údajů
Kontrola kódování: opětovné zakódování nezávislým kodérem - ověření práce kodéra i kódovacího schématu
Série odpovědí: jestliže série odpovědí vyžadují více než jedno místo, je vhodné aplikovat společné kódovací schéma rozlišující hlavní a sekundární kategorie atd.
Shodné kódovací struktury pro více znaků - systematicky vytvořené kódovací schéma
Přebírání kódovacích struktur z jiných šetření - standardizace

Zajištění integrity datového souboru

Určení software pro pořízení datového souboru

záznam při pořízení rozhovoru - sběr dat s počítačem, např. CATI, CAPI vyžaduje specializovaný software
vkládání dat po sběru dat
skenování
manuální vkládání - přepis dat do počítače (software např. Data Entry)

Doporučení

nepřetěžovat operátory - kódování a vkládání jako samostatné úlohy
méně kroků - redukce možností vzniku chyb
specializovaný software umožňuje nastavit platné hodnoty a filtry
dvojí vkládání a srovnání výsledků.
provést kontrolu úplnosti záznamů.
provést logickou kontrolu a kontrolu konzistence dat, např.: kontrola rozsahu hodnot (např. věk respondenta vyšší než 100 let je nepravděpodobný); kontrola nejnižších a nejvyšších hodnot a extrémů; kontrola poměrů souvisejících proměnných (např. dosaženému stupni vzdělání by měl odpovídat věk); srovnání s historickými daty (např. počet členů domácnosti mezi dvěma vlnami panel. výzk.)
řadu kontrol lze provádět automaticky za pomoci počítače
určité procento, např. 5 - 10%, by mělo projít podrobnou hlubší kontrolou
změny by měly být dokumentovány a původní data obnovitelná

Anonymizace

Etické a legální požadavky na práci se soubory sociálních dat požadují chránit osobní údaje respondentů před zneužitím (viz výše). Sociální výzkum nesměřuje ke zjišťování údajů o jednotlivcích, ale k získání generalizované informace. Řada databází, zejména v případě výzkumů menších skupin, výzkumů využívajících podrobné údaje nebo kvalitativních výzkumů, však identifikaci osob umožňuje. S takovými daty je třeba zacházet pouze v rámci informovaného souhlasu se zpracováním osobních údajů získaného od respondentů a přijmout opatření k zabezpečení osobních údajů před zneužitím.

Datové soubory, v případě, že nebyl získán odpovídající informovaný souhlas respondentů nebo účel využití dat práci s osobními údaji nevyžaduje, by měly být zpracovávány jako anonymní. I databáze, které se na první pohled jeví jako anonymní, by pro účely zajištění ochrany práv respondentů měly být podrobeny analýze z hlediska rizika rozkrytí osobních údajů a případné vady odstraněny. V některých případech lze anonymitu dat zajistit pomocí metod anonymizace dat.

Databáze není anonymní, pokud umožňuje určení fyzických osob, k nimž se údaje v databázi vztahují, a to na základě přímých nebo i nepřímých identifikátorů.

Přímé identifikátory jsou např. jména, rodná čísla, adresy, telefonní čísla, fotografie respondentů atp.
Nepřímé identifikátory umožňují identifikovat osobu propojením s jinými známými informacemi, např. informace o zaměstnání, lokalitě bydliště , lokalitě zaměstnání atp. nebo vyjímečné hodnoty některých znaků. Nepřímá identifikace může vzniknout i kombinací více znaků.

Základní metody anonymizace

Odstranění přímých identifikátorů: v některých případech je možné je nahradit anonymními kódy.
Odstranění nebo nahrazení propojení s jinými dostupnými neanonymními databázemi nebo informacemi.
Agregace údajů nebo redukce podrobnosti znaku: některé údaje lze pospojovat do kategorií, které odkazují k širším skupinám subjektů, aniž by byla ztracena vypovídací hodnota, místo plného data narození uvádět pouze rok atp. Pozornost by měla být věnována např. geografickým identifikacím, protože označení menších sídelních jednotek často vedou v kombinaci s dalšími znaky k identifikaci osob.
Ošetření extrémních hodnot znaků: riziko identifikace osob na základě atypických, vyjímečných hodnoty lze často eliminovat zavedením spodních a horních limit rozsahu znaků.

Vážení

Jsou v souboru váhy? Mám je použít?
typ vah, popis vah (algoritmus), rozsah a průběh (DOKUMENTACE!), jaký je výsledek s váhou a bez váhy?

Designové váhy: kompenzce rozdílu pravděpodobností výběru jednotek v souboru
Vážení výpadků návratnosti: kompenzace rozdílů návratnosti u různých skupin
Poststratifikační váhy: dosažení shody rozložení podle známých charakteristik populace
Přizpůsobení poměrů skupin: různé skupiny mohou být zastoupené odlišně vzhledem k reálným poměrům (např. kvůli analýze větších celků (Evropa) v mezinárodní databázi)
Kombinované, celkové váhy

Dokumentace dat

Pro dokumentaci dat, která doprovází datový soubor, se používá termín metadata.

Dokumentace dat je nezbytná pro využití dat pro analýzu. Výzkumné standardy (ESOMAR, WAPOR/AAPOR,...) určují minimum informací, které mají data z výzkumných šetření doprovázet a to buď v podobě. O položkách pro dokumentaci datového souboru, jejich obsahu a formě, je třeba rozhodnout na počátku výzkumného procesu - řadu informací je třeba zaznamenat v průběhu některých výzkumných fází a zpětně by je nešlo pořídit. Formát dokumentace je dobré volit s rozmyslem a s ohledem na kompatibilitu a trvalost formátu. Software prochází rychlým vývojem a dokumentace uložená v současných formátech běžných softwarů může zkomplikovat nebo i zamezit budoucí použití.

Tři základní úrovně dokumentace

projekt
databáze
proměnné a případy

Prvky dokumentace

Informace o projektu

- původ datového souboru

název výzkumu (včetně zkratek, alternativních, cizojazyčných názvů...)
institucionální informace (autoři, instituce, sponzoři a čísla grantů, zadavatelé...)
abstrakt projektu, cíle, koncepty, hypotézy, odkazy na navazující projekty

- popis a metody sběru dat

popis všech zdrojů, z nichž jsou data získána
časové vymezení sběru dat
časové a geografické pokrytí
cílová populace
jednotky pozorování
popis výběrového designu včetně opory
metody sběru dat
původní výzkumný instrument a další materiály použité při sběru dat (zvací dopisy, pokyny pro tazatele atp.)
použitá klasifikační schémata a koncepty
návratnost a další vyhodnocení (např. známé odchylky od populace)
identifikace změn metodiky u časových sérií a longitudiálních výzkumů

Informace o databázi

- popis datových souborů

specifikace verze a edice souboru (pokud jich je víc)
struktura souborů
specifikace vztahů a propojení
informace o rozsahu (počet záznamů a proměnných)
informace o formátech a kompatibilitě.

- editace a modifikace dat

metody a výsledky kontrol integrity, validizace, čištění dat, příp. dalších postupů ošetření kvality dat (kalibrace, imputace chybějících hodnot, okontrola a opravy přepisu atp.)
anonymizace
transformace a konstrukce odvozených proměnných
vážení (identifikace proměnných pro vážení a popis metod a jejich konstrukce)

- přístup k datům

vymezení přístupnosti, specifikace podmínek používání, informace o ochraně osobních údajů

- katalogizační a citační informace

bibliografická informace, doporučená citace, klíčová slova, katagolizační údaje

- odkazy na související materiály a zdroje, pokud je to relevantní

Informace o proměnných a případech

- informace o proměnných v souboru

jména proměnných
označení a popis proměnných a jejich hodnot včetně popisu odvozených proměnných
k dispozici by mělo být přesné původní znění otázky
frekvence, základní třídění apod. (?)

- informace o případech v souboru

specifikace případů, pokud je to relevantní

Standardizace dokumentace

DDI (Data Documentation Initiative) je dokumentační standard připravený speciálně pro sociálněvědní data. DDI představuje strukturu položek dokumentace a předepsaný formát. Záznamy jsou ve formátu XML (eXtesible Markup Language), tj. v prostém textovém formátu, ale obsah záznamu je popsán pomocí tzv. tagů (označení jednotlivých položek je uvedeno standardním způsobem ve špičatých závorkách) a na tomto základě jej lze importovat do mnoha aplikací a zpracovávat. Tento standard využívají sociálněvědní archivy a další instituce, takže jejich datové knihovny jsou pak navzájem kompatibilní a propojitelné. Pro tento standard jsou vyvíjeny specializované softwary pro prezentaci, zpracování i analýzu dat a metadat.

Verze a edice datového souboru

V průběhu zpracování dat i analýzy vznikají různé verze datových souborů. Probíhají operace čištění a zpracování dat, jsou vytvářeny transformované proměnné, objevují a odstraňují se chyby, může dojít k doplnění dalších skupin jednotek (např. zemí v mezinárodním výzkumu) do datového souboru atp.

Strategie správy verzí a edicí

jednoznačná identifikace verzí a edicí, přehled o rozdílech
zajištění autenticity (zabránit neautorizovaným zásahům)

Doporučení

stanovit podmínky používání dat a seznámit s nimi uživatele
rozlišovat mezi verzemi sdílenými více výzkumníky a prac. verzemi jednotlivců
zavést jednoznačné a systematické značení verzí a edicí datového souboru
vést záznamy o vytváření verzí a edicí, jejich obsahu a vzájemných vztazích
dokumentovat provedené změny
zachovávat původní verze datových souborů, resp. materiály umožňující rekonstrukce původních souborů (např. syntax)
stanovit „master file“ a přijmout opatření k zachování jeho autenticity, tj. vhodně jej umístit a vymezit přístupová práva a odpovědnosti, kdo a jaké změny smí provádět
pokud je více kopií stejné verze, kontrolovat jejich shodnost

Zálohování, formáty a média

Zálohování je proces - pravidelné zálohování a obnova

digitální média z principu nespolehlivá
software, instituce atd. procházejí změnami + další rizika

Využití dat v kratším časovém horizontu - požadavek na operabilitu

formáty navázané na konkrétní software, ale lépe jejich transportní verze, které umožňují přenos mezi různými verzemi (např. SPSS: *.por)
diakritika => kódování znaků minimálně v UTF 8

Archivace na delší dobu

jednoduché textové formáty (ASCII - fixní/volné) + strukturovaná dokumentace
PDF/A (archivační verze PDF definovaná ISO)

Média

vždy je nutné počítat se selháním
nezáleží jen na typu, ale i kvalitě; náchylnost k fyzickému poškození
nejméně dvě různé formy archivace
pravidelné přehrávání na nová média