Principy managementu dat

SDA - Sociologický datový archiv

Úvod do problematiky managementu dat. Připravil Jindřich Krejčí.

Cyklus života dat

Současné požadavky na sdílení dat (viz Sdílení dat) mají dopad na proměnu funkcí managementu dat. Při vytváření datového souboru je potřeba počítat s jeho archivací a zveřejněním a dopředu není jasné, kdo všechno a k čemu bude data používat. To se pochopitelně odráží ve způsobu přípravy a ošetření datového souboru a v nárocích na jeho dokumentaci i v celé koncepci managementu dat.

Sociálněvědní výzkum, podobně jako jiné vědy, má podobu cyklu, kdy výsledky jednoho výzkumu se vracejí zpět do výzkumného procesu jako východiska pro nové výzkumné úlohy. V prostředí založeném na otevřeném přístupu k datům v tomto cyklu hraje významnou roli právě opětovné použití výzkumných dat (viz např. Humprey 2006, Green and Gutmann 2007). Data tak získávají nový význam pro přenos a reprodukci znalostí a tyto jejich funkce je potřeba zohlednit ve způsobu jejich správy. Vhodná východiska pro to poskytují tzv. koncepty „cyklu života dat“, ze kterých vycházejí současné přístupy k managementu sociálních dat.

Správa digitálních informací je v tomto případě inkorporována do cyklického systému vědeckého poznávání. V prostředí, kde dochází ke sdílení dat, nesměřuje jejich využití pouze k předem vymezenému konkrétnímu cíli, po jehož dosažení by bylo ukončeno, ale jejich používání vytváří cyklus (viz obrázek). Datové soubory se vrací zpět do výzkumného procesu v rámci různých projektů. Data mohou být modifikována nebo přispívají k organizaci nových šetření.

Cyklus života dat – rozklikni obrázek.

Management dat pak není omezen na technické úlohy vytvoření a zpracování datového souboru po sběru dat, ale představuje komplexní metodiku založenou na modelu, který zachycuje průběh využití dat jako celek strukturovaný do fází s různými cíly, úlohami a aktéry, ve kterém jsou vztahy mezi jednotlivými prvky určeny životním cyklem vědeckého poznávání. Úlohy managementu dat v různých fázích procesu výzkumu a s ohledem cyklický průběh života dat ukazuje schéma převzaté z materiálu amerického archivu ICPSR:

Fáze datového managementu (ICPSR) – rozklikni tabulku.

přiložené soubory
top

Výzkumný projekt a management dat

Důvody, proč se věnovat managementu dat od počátku přípravy výzkumu, jsou minimálně čtyři:

  • Často je možné využít existující dostupné databáze jako zdroj empirického materiálu.
  • Tyto databáze a jejich dokumentaci lze často využít také pro přípravu výzkumných nástrojů a designu nového šetření, případně pro ověření některých postupů či jako inspiraci při dalších koncepčních úlohách výzkumu.
  • Se zpracováním dat souvisí řada formálních a legálních podmínek, jejichž zajištění je nutné pro realizaci výzkumu.
  • Systematická, řádně připravená správa datových souborů přispěje ke kvalitě dat, a tím i ke kvalitě výsledků výzkumu.

Další aspekt, který není při přípravě projektu radno přehlédnout, je to, že i management dat něco stojí a tyto náklady je potřeba zohlednit v rozpočtu.

Review datových zdrojů

Každý projekt empirického výzkumu by s ohledem na výše uvedené důvody měl, podobně jako studiem literatury, začínat také důkladným review dostupných datových zdrojů k tématu. Toto je důležité i pro projekty, které jsou primárně založeny na sběru vlastních dat, přičemž platí, že využitelná nemusí být pouze data, ale i informace o dříve aplikovaných koncepcích, postupech a výzkumných nástrojích, které je doprovázejí.

Za tímto účelem by si výzkumníci, kteří připravují nový projekt, měly vždy zodpovědět následující otázky:

  • Existují data, která mohou přispět k odpovědi na některou z našich výzkumných otázek?
  • Je zde možnost srovnání s některými existujícími daty?
  • Pokud ano, jsou tato data dostupná a za jakých podmínek?
  • Jsou tato data dostatečně srozumitelná, komplementární a kvalitní?
  • Jaká data pro zodpovězení našich otázek postrádáme?
  • Byly již dříve realizovány podobné výzkumné záměry či dílčí metodické postupy nebo využity výzkumné nástroje relevantní pro náš výzkum?
  • Pokud ano, je k těmto relevantním projektům dostupná nějaká dokumentace?
  • Je možné tuto dokumentaci využít při koncipování našeho výzkumu?
  • Pokud jsou dostupná srovnatelná data, je potřeba záměry srovnávání zohlednit v námi plánovaných metodikách?

Zařazení dat z externích zdrojů do výzkumného projektu

  • dostupnost a náklady na získání přístupu (finanční, časové, organizační),
  • srovnatelnost, komplementarita, kompatibilita.

Data management a parametry metodiky připravovaného šetření

  • požadavky na přesnost - velikost souboru, metodika výběru, metodika sběru dat...

Východiska pro vytvoření, používání a archivaci datového souboru

  • stanovení cílů: jaký je účel pořízení dat, kdo jsou potenciální uživatelé, jaké jsou časové perspektivy
  • rozhodování o způsobu zpřístupnění dat a jeho načasování

Nepodcenit právní a související organizační otázky

  • bude potřeba informovaný souhlas respondentů/informantů a pokud ano, pro jaké úlohy a v jaké formě?
  • bude potřeba provést anonymizaci dat a pokud ano, v jakém rozsahu a jakými metodami?
  • jak budou ošetřena autorská práva, aby to nebránilo využití dat v projektu a sdílení dat?
  • bude třeba omezit přístup k datům a pokud ano jak a v jaké časové perspektivě?
  • kdo bude v jednotlivých fázích využití datových souborů odpovědný za správu datových souborů a jejich distribuci?

Plánování tvorby datového souboru

  • struktura souboru/souborů
  • označení a popis proměnných
  • jaké latentní proměnné budou vytvářeny, transformace proměnných
  • způsob zpracování dat (vzít v úvahu též nároky software a specifických analytických postupů  na parametry datových souborů)
  • způsob vkládání dat (dopady na konstrukci výzkumného nástroje)
  • otázky anonymizace dat
  • ošetření chybějících hodnot (dopady na konstrukci výzkumného nástroje)
  • kontroly integrity dat - filtry, postupy čištění, nároky na software
  • management verzí a edicí datového souboru
  • politika uchování dat (media, formát, zpřístupnění)

-> DOPADY NA TVORU VÝZKUMNÉHO NÁSTROJE A MOŽNOSTI ANALÝZY!

Rozhodnutí o úrovni a kontrole kvality

  • naplánovat management kvality dat - vymezit sledování kvality v rámci procesu výzkumu, stanovit indikátory kvality a kontroly
  • naplánovat pořízení dokumentace (jaký bude formát dokumentace, jaký bude obsah a co, kdy a jak je potřeba zjistit)
  • vymezit zpětnou vazbu průběžného sledování kvality na realizaci šetření

Rozhodnutí o potřebě pilotáže a testování nástroje

Vyčíslení nákladů na management dat a archivaci a jejich zahrnutí do rozpočtu projektu.

top

Plán managementu dat

Plán managementu dat jedokument, který shrne, jak budou data vytvořena a jak s nimi bude zacházeno během výzkumu i po jeho skončení. vedle vyjasnění východisek mohou být důvodem pro jeho vznik též požadavky zadavatele výzkumu nebo sponzora. Plán managementu dat proto může mít i velmi formalizovanou podobu.

Doporučené položky plánu managementu dat dle ICPSR

  • Popis dat: Popis shromažďovaných informací – povaha, rozsah a měřítko generovaných nebo sbíraných dat.
  • Zpřístupnění a sdílení: Budou data uložena a případně sdílena? Za pomoci jakých mechanismů? Kdo a za jakých podmínek bude mít přístup? Kdy budou data zpřístupněna? Pozn.:  otázky ochrany osobních údajů a další bariéry přístupu.
  • Metadata (dokumentace): Jaká dokumentace bude pořízena? Jaký formát bude dokumentace mít? Pozn.:  otázky použití standardizovaných formátů (např. DDI), kompatibility a dlouhodobého uchování.
  • Ochrana duševního vlastnictví: Kdo bude autorem a kdo (instituce, osoby) bude držitelem práv? Jak bude zajištěna ochrana práv (pokud je to relevantní)? Budou práva v průběhu nebo po skončení výzkumu převáděna? Bude využíván nějaký materiál podléhající autorskému právu (např. měřící instrument)? Pokud ano, jak projekt získá svolení k použití, případně k dalšímu šíření?
  • Etika a ochrana osobních údajů: Bude potřeba informovaný souhlas respondentů? V jakém rozsahu a v jaké podobě? Jsou zde bariéry pro zpřístupnění dat? Jak bude zajištěna ochrana před rozkrytím identity respondentů (analýza, anonymizace)?
  • Formát: Specifikace formátů pro analýzu, distribuci a uchování dat a formáty souvisejících materiálů. Pozn.:  efektivní zpracování a archivace dat, dostupný software, dlouhodobé zachování kompatibility.
  • Archivace a zachování: Jaké zajistit, aby data a související materiály byly zachovány na dlouhou dobu v použitelném stavu? Pozn.:  zajištění dlouhodobého managemnetu dat.
  • Ukládání a zálohování: Jak a kde budou uchovávány kopie souborů pro výzkum? Kolik bude kopií a jak budou synchronizovány?
  • Bezpečnost: Zabezpečení ochrany osobních údajů (pokud je relevantní). Zabezpečení proti ztrátě informace (ochrana proti přepsání, neautorizovaným úpravám atp.).
  • Odpovědnost: Kdo bude zodpovědný za soubory v různých fázích jejich životního cyklu?
  • Výběr dat a doba zachování: Jak budou vybrány soubory pro archivaci? Jak dlouho budopu data uchovávána? Jaké záměry pro převod nebo smazání souborů a kdy (je-li relevantní)?
  • Uživatelé: Specifikace skupin uživatelů. Pozn.:  Požadavky různých skupin uživatelů se liší.
  • Zajištění kvality: Specifikace postupů zajištění standardů kvality dat relevantních pro úlohy managementu dat.
  • Rozpočet: Specifikace nákladů na datový management
  • Právní nároky: Právní nároky a omezení ohledně archivace a sdílení dat.

Zdroj:  ICPSR [2011], shrnuto a upraveno.

Doporučení ICPSR a příklady plánů datového managementu: http://www.icpsr.umich.edu/icpsrweb/ICPSR/dmp/index.jsp

Data Management and Sharing Plans (DMPs) at Data Curation Centre (DCC): http://www.dcc.ac.uk/resources/data-management-plans

top

Etické a legální předpoklady

Hlavní etické předpoklady managementu dat

(podrobněji viz UK Data, CESSDA a Marcia-Freed Taylor - odkazy viz dole)

  • Respondenty je třeba chránit před potenciálními škodlivými dopady výzkumu i po skončení terénního dotazování při práci s daty, při archivaci, zpřístupnění a sekundárním používání dat. Zejména platí, že informace individuálního charakteru o účastnících  šetření a další osobní údaje jsou důvěrné a jejich důvěrnost je třeba zachovávat. Zvláštní pozornost je třeba věnovat citlivým údajům.
  • Respondenti výzkumu jsou svéprávní lidé, kteří mají právo znát účel a způsob využití jimi poskytnutých informací a rozhodovat o možnostech jejich využití. Tato rozhodnutí je nezbytné pak respektovat.
  • Vždy je potřeba zajistit adekvátní využití získaných informací v souladu se stanoveným účelem, a to mimo jiné i proto, aby úsilí respondentů vynaložené při participaci na výzkumu nevyšlo vniveč. Data pořízená za přispění veřejných zdrojů je třeba v rámci možností maximální využít, a tedy, pokud to povaha dat dovoluje, k nim umožnit přístup širší vědecké komunitě.
Legální předpoklady
  • ochrana osobních údajů
  • ochrana duševního vlastnictví
  • další normy: svobodný přístup k informacím, zákon o archivnictví, skartační řád atp.
Zajištění ochrany osobních údajů

Závažná opomenutí v této oblasti mohou mít za následek podstatná omezení nebo i zamezení zpracování dat. Základní otázky pro přípravu projektu:

  • Bude potřeba získat informovaný souhlas respondentů, resp. informantů výzkumu?
  • Bude potřeba provést anonymizaci dat?

Obecný právní rámec ochrany osobních údajů je k dispozici na stránkách Úřadu na ochranu osobních údajů ÚOOÚ (http://www.uoou.cz). Další materiály a návody jsou k dispozici na stránkách archivu MEDARD v sekci věnované legislativě relevantní pro kvalitativní výzkum (viz Kvalitativní výzkum a zákon o ochraně osobních údajů: http://medard.soc.cas.cz/czlegis.html).

Informovaný souhlas respondenta

  • participace dobrovolně a se znalostí a bez nepříznivých důsledků
  • na zákl. podrobné informace, jednoznačné k čemu se váže
  • na základě přímého jednání

Souhlas k nakládání s osobními údaji ze zákona obsahuje:

  • v jakém rozsahu je poskytován
  • komu a k jakému účelu
  • na jaké období
  • kdo jej poskytuje
  • pokud jsou ve výzkumu tzv. „citlivé údaje“ (viz definice v Zákoně č.101/2000 Sb.) je třeba písemný souhlas

V případě výzkumného šetření jde tedy o tyto informace:

  • účel výzkumu
  • co participace představuje
  • k čemu je to dobré, jaká jsou rizika
  • možnost odmítnout
  • specifikace použití dat
  • způsob zajištění důvěrnosti
  • uchování dat
  • kdo, jak a do kdy bude mít přístup k datům

Registrace správce údajů u Úřadu na ochranu osobních údajů.

Autorská práva a ochrana duševního vlastnictví
  • Předmětem autorského práva (Zákon 121/2000 Sb.) je jakékoliv dílo, které je "jedinečným" výsledkem tvůrčí činnosti autora a je vyjádřeno v jakékoli objektivně vnímatelné podobě včetně podoby elektronické trvale nebo dočasně, bez ohledu na jeho rozsah, účel nebo význam. Databáze, která je způsobem výběru nebo uspořádáním obsahu autorovým vlastním duševním výtvorem a jejíž součásti jsou zpřístupněny elektronicky nebo jinak je „dílem souborným“, a tedy i na ní se vztahuje autorský zákon. Autorská práva vznikají už se vznikem záznamu, tedy i v procesu jeho vytváření. To, že databáze třeba nikde nemá přímo značku „copyright“ ji z tohoto právního rámce také nevylučuje.
  • Ochraně podléhá dílo, nikoliv ale samotná fakta v něm uvedená. To znamená, že v případě databáze se autorská práva vztahují na výběr a uspořádání dat v databázi atp., zatímco na její samotný obsah se vztahovat nemusí – samozřejmě s ohledem na to, co je jejím obsahem. Např. u hloubkového rozhovoru je tedy držitelem práv na záznam výzkumník, držitelem práv k jednotlivým výrokům zůstává ovšem informant (Pokud tedy výzkumník zamýšlí publikovat přepis rozhovoru nebo jeho podstatné části, je rozumné si pro to zajistit písemné svolení informanta).
  • Autorská práva představují ochranu duševního vlastnictví před neautorizovaným šířením s ohledem na potenciální ztrátu příjmu a morální újmu. Držitel práv určuje způsob nakládání s dílem, rozhoduje o jeho rozmnožování. Do autorského práva nicméně nezasahuje ten, kdo v odůvodněné míře cituje ve svém díle výňatky z díla jiných autorů, užije výňatky z díla nebo celá drobná díla pro účely kritiky nebo recenze vztažené k dílu nebo vědecké či odborné práce a ten, kdo dílo užije při výuce pro ilustrační účely nebo při nekomerčním vědeckém výzkumu. Pokud tak činíme, vždy je však nutné uvádět autora, název díla a pramen.
  • Autor poskytuje oprávnění dílo užít prostřednictvím licenční smlouvy, a to buď ke všem nebo k jednotlivým způsobům užití a v omezeném nebo neomezeném rozsahu. Licence může být výhradní nebo nevýhradní, pokud se jedná o výhradní licenci, sám autor se musí zdržet výkonu práva, k němuž licenci poskytl.
  • Držiteli autorských práv jsou všichni spoluautoři, tedy např. celý výzkumný tým, nikoliv pouze vedoucí týmu nebo hlavní řešitel projektu. Totéž platí pro školní práce, držitelem práv není pouze učitel, ale všichni studenti, pokud je výzkum organizován s jejich účastí. Spoluautorem ovšem není ten, kdo ke vzniku díla přispěl pouze poskytnutím pomoci či rady technické, administrativní nebo odborné pomoci nebo poskytl dokumentační či technický materiál nebo dal ke vzniku díla podnět.
  • Databáze často vznikají v rámci činnosti dané pracovní smlouvou. V souladu s ní zpravidla zaměstnavatel vykonává svým jménem autorova majetková práva k dílu. Majetková práva představují různé způsoby užití díla, např. rozmnožování, zveřejňování, vystavování, půjčování, zpřístupnění atp. Autorova osobnostní práva, tedy např. právo osobovat si autorství, právo na nedotknutelnost díla (změny), právo na dohled nad plněním povinností atd., zůstávají nedotčena.
  • Svolení k sekundárnímu použití či zpřístupnění databáze v archivu tedy v řadě případů uděluje zaměstnavatel, nikoliv autorský tým. V této souvislosti je ale dobré si uvědomit, že studenti většinou nejsou zaměstnanci univerzity, tj. majetková práva k jimi vytvořeným dílům kompletně na univerzitu nepřecházejí. (Vztah student - autor a škola je komplikovanější. Škola nebo školská či vzdělávací zařízení mají za obvyklých podmínek právo na uzavření licenční smlouvy o užití školního díla. Není-li sjednáno jinak, může autor školního díla své dílo užít či poskytnout jinému licenci, není-li to v rozporu s oprávněnými zájmy školy.)
  • Akademické instituce majetková práva také v některých případech přenechávají svým zaměstnancům. Zejména se tak děje za účelem zajištění publikační činnosti, někdy se však formulace příslušných předpisů v instituci vztahuje i na jiné výsledky a činnosti a může tím být dotčena právě i úprava práv k databázím.
  • Databáze lze též vytvářet a sdílet v prostředí široce otevřené spolupráce založené na volných licencích typu Creative Commons (tvůrčí společenství). Uživatelé pak mohou databázi nejen využívat, ale též do ní přispívat, rozšiřovat ji, aktualizovat a činit jiné úpravy za podmínek stanovených v licenci.
top

Založení a správa datového souboru

Rozhodnutí o struktuře souboru

  • co jsou jednotky analýzy a jakým způsobem budou analyzovány?
  • jaký software budeme používat?
  • databázi byude tvořit jeden nebo více datových souborů?
  • jaká bude vnitřní struktura datového (datových) souborů?
    - např. tzv. flat file (čtvercová tabulka - respondenti v řádcích, zjišťované znaky ve sloupcích), hiearchické uspořádání nebo jiné uspořádání
  • pokud je více souborů, jak budou navzájem provázány?
  • jaká bude návaznost na jiné databáze (propojitelnost, srovnatelnost, komplementarita)?

Verze a edice datového souboru

V průběhu zpracování dat i analýzy vznikají různé verze datových souborů. Probíhají operace čištění a zpracování dat, jsou vytvářeny transformované proměnné, objevují a odstraňují se chyby, může dojít k doplnění dalších skupin jednotek (např. zemí v mezinárodním výzkumu) do datového souboru atp.

Nastavení vhodné politiky správy verzí a edicí datových souborů je nezbytné pro zajištění bezpečnosti dat proti ztrátám informací, zajištění plné srozumitelnosti obsahu datového souboru a zabránění různým omylům a záměnám.

  • zavedení jednoznačného a systematického značení verzí a edicí datového souboru
  • vedení záznamů o vytváření verzí a edicí a jejich vzájemných vztazích
  • dokumentace provedných změn
  • zálohování, možnost rekonstrukce souborů
  • zajištění autenticity: stanovení "master files", vhodné umístění souborů, vymezení přístupu a odpovědnosti (kdo a v jakých souborech může provádět změny)
  • pokud je více kopií stejné verze, kontrolovat jejich shodnost

Způsob značení proměnných v datovém souboru

  • jména proměnných (variable names): krátká označení zpravidla ne delší než 8 znaků pod kterými jsou řazeny v datovém souboru - např. číselný kód (V001, V002...), číslo otázky dotazníku (Q1, Q2a, Q2b,...), mnemotechnická jména/ předpona-kořen-přípona (BIRTH, AGE, AGECAT, CZ_PRTY, SPOUSE, SPEDUC...)
  • další označení proměnných (variable labels): delší textová označení doplňující jména proměnných, bývají využívána pro popis proměnné a zobrazují se ve výstupech analýz - délka bývá též omezena, ale ne tak radikálně (např. 68 znaků atp.),
  • systematičnost značení
    —      dotváří strukturu datového souboru
    —      skupiny proměnných, vzájemné vztahy (např. původní a transformovaná)
    —      návaznost na další prvky výzkumu (dotazník, jiná data - srovnatelné proměnné)
    —      nezapomenout na identifikační proměnné - případy, dotazníky, části výzkumu (např. různé vlny šetření, nadvýběr atp.), tazatelé atp. - požadavek jednoznačnosti,
  • respektování nároků software (např. jména proměnných nezačínat číslem, pouze 8 míst)
  • zohlednění potřeb při analýzách a přípravě výstupů analýz (např. délka označení zabírá prostor v tabulkových výstupech)

Integrita datového souboru

  • určení software pro pořízení datového souboru
    —      záznam při pořízení rozhovoru - sběr dat s počítačem, např. CATI, CAPI vyžaduje specializovaný software
    vkládání dat po sběru dat
    —      skenování
    —      manuální vkládání - přepis dat do počítače (software např. Data Entry)
  • co nejméně kroků k finálnímu záznamu = menší počet chyb
  • oddělení kódování a vkládání dat u složitějších znaků
  • samostatný proces pro náročné znaky (např. kódování povolání (viz Ganzeboom, ČSÚ)
  • automatizace, kde je to důvodné (kódování, rekódování)
  • kontrola záznamu: dvojí vkládání, rozdílné způsoby vkládání
  • hlubší kontrola vybraných záznamů
  • pročištění datového souboru
top

Anonymizace

Etické a legální požadavky na práci se soubory sociálních dat požadují chránit osobní údaje respondentů před zneužitím (viz výše). Sociální výzkum nesměřuje ke zjišťování údajů o jednotlivcích, ale k získání generalizované informace. Řada databází, zejména v případě výzkumů menších skupin, výzkumů využívajících podrobné údaje nebo kvalitativních výzkumů, však identifikaci osob umožňuje. S takovými daty je třeba zacházet pouze v rámci informovaného souhlasu se zpracováním osobních údajů získaného od respondentů a přijmout opatření k zabezpečení osobních údajů před zneužitím. 

Datové soubory, v případě, že nebyl získán odpovídající informovaný souhlas respondentů nebo účel využití dat práci s osobními údaji nevyžaduje, by měly být zpracovávány jako anonymní. I databáze, které se na první pohled jeví jako anonymní by pro účely zajištění ochrany práv respondentů měly být podrobeny analýze z hlediska rizika rozkrytí osobních údajů a případné vady odstraněny. V některých případech lze anonymitu dat zajistit pomocí metod anonymizace dat.

Databáze není anonymní, pokud umožňuje určení fyzických osob, k nimž se údaje v databázi vztahují, a to na základě přímých nebo i nepřímých identifikátorů.

  • Přímé identifikátory jsou např. jména, rodná čísla, adresy, telefonní čísla, fotografie respondentů atp.
  • Nepřímé identifikátory umožňují identifikovat osobu propojením s jinými známými informacemi, např. informace o zaměstnání, lokalitě bydliště , lokalitě zaměstnání atp. nebo vyjímečné hodnoty některých znaků. Nepřímá identifikace může vzniknout i kombinací více znaků.

Základní metody anonymizace

  • Odstranění přímých identifikátorů: v některých případech je možné je nahradit anonymními kódy.
  • Odstranění nebo nahrazení propojení s jinými dostupnými neanonymními databázemi nebo informacemi.
  • Agregace údajů nebo redukce podrobnosti znaku: některé údaje lze pospojovat do kategorií, které odkazují k širším skupinám subjektů, aniž by byla ztracena vypovídací hodnota, místo plného data narození uvádět pouze rok atp. Pozornost by měla být věnována např. geografickým identifikacím, protože označení menších sídelních jednotek často vedou v kombinaci s dalšími znaky k identifikaci osob.
  • Ošetření extrémních hodnot znaků: riziko identifikace osob na základě atypických, vyjímečných hodnoty lze často eliminovat zavedením spodních a horních limit rozsahu znaků.
top

Dokumentace dat

Pro dokumentaci dat, která doprovází datový soubor se používá termín metadata.

Dokumentace dat je nezbytná pro využití dat pro analýzu. Výzkumné standardy určují minimum informací, které mají data z výzkumných šetření doprovázet a to buď v podobě. Např. standardy mezinárodní asociace ESOMAR (ICC/ESOMAR International Code on Market and Social Research http://www.esomar.org/index.php/professional-standards.html) vymezují informace, které má výzkumná agentura povinnost poskytnout klientovi, pokud o to požádá. Kompletní přehled položek popisu metodiky je např. ve standardu Nejlepší praxe vymezeném Americkou asociací pro výzkum veřejného mínění AAPOR. AAPOR Best Practices, bod 12: http://www.aapor.org/Best_Practices.htm#best12.

O položkách pro dokumentaci datového souboru, jejich obsahu a formě, je třeba rozhodnout na počátku výzkumného procesu - řadu informací je třeba zaznamenat v průběhu některých výzkumných fází a zpětně by je něšlo pořídit.

Formát dokumentace je dobré volit s rozmyslem a s ohledem na kompatibilitu a trvalost formátu. Software prochází rychlým vývojem a dokumentace uložená v současných formátech běžných softwarů může zkomplikovat nebo i zamezit budoucí použití.

DDI (viz Data Documentation Initiative (DDI):http://www.ddialliance.org/) je dokumentační standard připravený speciálně pro sociálněvědní data. DDI představuje strukturu položek dokumentace a předepsaný formát. Záznamy jsou ve formátu XML (eXtesible Markup Language), tj. v prostém textovém formátu, ale obsah záznamu je popsán pomocí tzv. tagů (označení jednotlivých položek je uvedeno standardním způsobem ve špičatých závorkách) a na tomto základě jej lze importovat do mnoha aplikací a zpracovávat. Tento standard využívají sociálněvědní archivy a další instituce, takže jejich datové knihovny jsou pak navzájem kompatibilní a propojitelné. Pro tento standard jsou vyvíjeny specializované softwary pro prezentaci, zpracování i analýzu dat a metadat.

Přehled položek relevantních pro dokumentaci výzkumného šetření

  • katalogizační informace
    —      autoři, sponzoři, čísla grantů, agentura sběru dat...
    —      bibliografická informace, doporučená citace
    —      klíčová slova, katagolizační údaje
    —      verze datového souboru
  • kontextové informace
    —      původ datového souboru
    —      popis původního projektu
    —      série a návaznosti
  • informace o datovém souboru
    —      zdroj dat (šetření - jiný zdroj odkud data získána/odvozena a jak)
    —      struktura datového souboru
    —      proměnné a jejich hodnoty, znění otázek z dotazníku
    —      klasifikační schémata (např. KZAM, ISCO atd.)
    —      transformované proměnné
    —      vážení (proměnné pro vážení, specifikace)
    —      osobní údaje, anonymisace
    —      validizace a kontroly
    —      podstatné technické informace
  • metodika šetření
    —      data sběru dat
    —      časové a geografické pokrytí
    —      cílová populace
    —      jednotka pozorování (jednotlivec, domácnost,...)
    —      opora výběru
    —      metoda a design výběru
    —      metoda sběru dat
    —      návratnost
    —      známé odchylky od populace
    —      atp.
  • materiály z výzkumu a doplňující materiály
    —      výzkumné nástroje
    —      zvací dopisy, kódovací klíče, tabulkové přehledy, dokumentace transformací, codebooky, metodologické analýzy...
    —      indexy, přehledy obsahu zkratek (důležité pro velké/komplikované soubory)
    —      případně i publikace
    —      atp.
  • odkazy (propojení) na související zdroje
top

Management dat ve výzkumné praxi

V praxi výzkumných šetření nemusí být vždy vzhledem k cílům výzkumu a plánům na využití dat potřeba realizovat všechny výše uvedené úlohy managementu dat. V běžné praxi vzhledem k daným podmínkám také často nebývá realizován adekvátní systematický a komplexní plán managementu dat. V důsledku toho ale také dochází k řadě zbytečných chyb, které mohou omezit možnosti využití dat ve výzkumu nebo způsobit chyby ve výsledcích a závěrech.

Výše uvedený přehled lze využít i při organizaci šetření, která nejsou založena na komplexním systematickém plánu datového managementu, a to pro kontrolu, zda nedošlo k opomenutí některých závažných rozhodnutí nebo úloh.

V prostředí, které je založeno na principech celkového managemnetu kvality nebo si na jiném základě kladou vysoké nároky na kvalitu, ale takový systematický přístup nezbytně realizován je. I v současné praxi rychlé produkce výzkumných dat řada výzkumů vychází z precizně zpracovaných plánů managementu dat. Příkladem mohou být oficiální statistická šetření nebo některé mezinárodní výzkumné programy.

top

Reference a další zdroje informací

CESSDA 2009. Sharing Data. Webovská prezentace. Bergen: CESSDA. http://www.cessda.org/sharing/

Freed-Taylor, Marcia 1994. Ethical considerations in European cross-national research. International Social Science Journal 142: 523-532.

Humprey, Charles 2006. e-Science and the Life Cycle of Research. Nepublikovaný elektronický dokument. On-line:  http://datalib.library.ualberta.ca/~humphrey/lifecycle-science060308.doc

ICPSR 2009. Guide to Social Science Data Preparation and Archiving. Best Practice Throughout the Data Life Cycle. 4-th Edition.Ann Arbor: Inter-university Consortium for Political and Social Research, University of Michigan. http://www.icpsr.umich.edu/files/ICPSR/access/dataprep.pdf

ICPSR 2011. Guidelines for Effective Data Management Plans. Ann Arbor: Inter-university Consortium for Political and Social Research (ICPSR), University of Michigan. On-line: http://www.icpsr.umich.edu/files/ICPSR/dmp/DataManagementPlans-All.pdf

UK Data Archive 2010. Create and Manage Data. Webovská prezentace.Colchester: UK Data Archive. http://www.data-archive.ac.uk/create-manage

Vávra, M. „Archivace sociologických dat“ Data a výzkum - SDA Info 1 (1): 7-17. 2007. http://archiv.soc.cas.cz/download/628/DaV0701_p7_18.pdf

Zákon č. 101/2000 Sb. 2009. Zákon č. 101/2000 Sb., o ochraně osobních údajů. Zákon v účinném znění k 1. 1. 2009 zveřejněný na Webu Úřadu na ochranu osobních údajů. On-line: http://www.uoou.cz/uoou.aspx?menu=4&submenu=5&loc=20

Zákon č. 121/2000 Sb. 2009. Zákon č. 121/2000 Sb. o právu autorském, o právech souvisejících s právem autorským a o změně některých zákonů (autorský zákon). On-line např.: http://www.zakonycr.cz/seznamy/121-2000-sb-zakon-o-pravu-autorskem-o-pravech-souvisejicich-s-pravem-autorskym-a-o-zmene-nekterych-zakonu-%28autorsky-zakon%29.html

Dokument Principy managementu dat byl připraven v rámci projektu COMPDAT – Zdroje dat, výzkum standardů, kvality dat a metody harmonizace dat pro mezinárodní sociální komparativní výzkum a integraci do sítě CESSDA sponzorovaného MŠMT v programu INGO pod reg. č. LA09010.

top