Management dat: koncepce správy dat a výzkumný projekt

Podrobnější informace najdete v knize "Cesty k datům" (Sociologické nakladatelství - SLON, Praha 2012).

Důvody proč se systematicky zabývat správou dat

  • zajištění vyšší efektivity výzkumné práce, zajištění kvality, předcházení chybám, zajištění verifikovatelnosti - tj. profesionální přístup k výzkumu
  • zabezpečení etických a legálních předpokladů výzkumu
  • umožnění sdílení dat

Obecně o datech

  • jedná se o nejnižší úroveň abstrakce, z níž je odvozeno poznání
  • existuje mnoho druhů dat a různé terminologie, které jsou k nim vztaženy
  • někdy se pod pojmem data rozumějí pouze digitální data, v jiném kontextu jsou za data považovány jak digitální, tak i analogová data a různé materiály
  • definice jsou odvozovány z účelu využití: data jsou určeny k analýze k vytváření a validizaci původních výzkumných výsledků - tyto účely využití se mohou v průběhu života dat měnit, v určitém kontextu tak stejný materiál představuje data, v jiném ale nemusí

Co například mohou být data v sociálních vědách

Primární data z kvantitativních sociálních šetření, přepisy rozhovorů kvalitativních šetření, shromážděné dokumenty, tabulkové přehledy, záznamy pozorování, audiozáznamy, videozáznamy, fotografie, diapozitivy, digitalizované objekty, deníčky, administrativní databáze, záznamy výsledků testů, metodiky, popisy procedur, prováděcí protokoly, dotazníky, kódovníky, modely, algoritmy, literární texty a prakticky jakékoliv lidské výtvory, jejich vzorky, exempláře apod. v digitalizované i materiální podobě.

Různé klasifikace dat

  • podle zdroje: data z pozorování, experimentální, simulační, odvozená, kompilovaná, referenční, kanonická, metadata...
  • podle jednoteky: individua, skupiny, organizace, interakce, kontext...
  • podle formátu: čtvercové soubory, hiearchická data, textová, numerické kódování, audio, video...
  • kvantitativní / kvalitativní
  • primární / sekundární
  • cross sectional, longitudinální - panelová,strukturovaná,agregovaná

Dopady sdílení dat na proměnu prostředí pro výzkum a management dat

Způsob práce s daty ze sociálněvědních výzkumných šetření se v posledních desetiletích významně změnil, a to z též z následujících důvodů:

  • Vzrůstá objem dat, která má sociálněvědní výzkum k dispozici. Nejen, že se zvýšuje produkce dat ve výzkumech, ale společnost obecně prochází překotnou digitalizací a výsledky tohoto procesu jsou často využitelné jako zdroje dat pro účely výzkumu. Důležitým faktorem je skutečnost, že data jsou nejen vytvářena, ale jsou též pro výzkum přístupná díky rozšířené praxi sdílení dat mezi různými výzkumnými týmy a prosazování politiky otevřeného přístupu k datům (viz).
  • V souvislosti s výše zmíněným vývojem se objevují nové typy dat, které vyžadují nové způsoby práce s daty. Příkladem mohou být data ze sociálních sítí, mobilní komunikace či různé druhy administrativních dat, které jsou nově zpřístupňovány pro vědecké účely.
  • Charakter současné výzkumné práce je významně ovlivňován formami spolupráce, které jsou založené na sdílení výzkumných dat mezi výzkumnými týmy. Na této praxi stojí např. současný rozvoj mezinárodního komparativního výzkumu.
  • Objem a dostupnost datových zdrojů a nové typy dat mají také dopad na rozvoj metod analýzy a jejich zavádění zpětně generuje další požadavky na vytváření dat a podobu jejich zpracování.
  • Uvedený vývoj zvyšuje požadavky na kvalitu managementu dat, jednak díky množství a různosti datových zdrojů pro vlastní výzkumnou práci a za druhé je nyní při přípravě a vytváření databáze třeba počítat se zveřejněním, sdílením a sekundární analýzou. Dopředu tedy nevíme kdo a pro jaký účel bude data používat a tomu je potřeba přizpůsobit uspořádání a obsah datového souboru a úroveň jeho dokumentace.

Sekundární analýza dat v sociálněvědním výzkumu

Stále více výzkumů je založeno na tzv. sekundární analýze, resp. analýze sekundárních dat. Sekundární analýza je analýza dat, která byla pořízena pro jiný výzkumný záměr, než v jehož rámci jsou právě používána. To mimo jiné znamená, že analytik nebo tým analytiků provádějících sekundární analýzu se nepodílel na vytvoření původního datového souboru.

Výhody: rozsah dostupných zdrojů dat, komplexnější přístup k tématu, nízké náklady, nižší organizační náročnost, nové možnosti analýzy...

Rizika:

  • nedostupnost „vhodných dat“ dat -> modifikace výzk. záměrů
  • nedostatečná dokumentace -> problematické/chybné využití (znalost původního konceptu? znalost kontextu výzkumu? znalost průběhu sběru dat? srozumitelnost modifikací provedených v datech? kompatibilita kombinovaných datových zdrojů?...)
  • neschopnost vyhodnotit kvalitu dat, netransparentnost výzkumu
  • nesrovnatelnost konceptů, proměnných...
  • omezení přístupu k datům
  • nekompatibilita formátů

Sekundární analýza dat proto není rutinní úloha!

  • vypracování koncepce sekundární analýzy a její integrace do celkové koncepce výzkumu
  • vyhledání, identifikace a získání vhodných dat
  • studium metadat a širšího kontextu původního výzkumu
  • prozkoumání dat, zhodnocení a verifikace
  • úpravy dat, transformace proměnných
  • analýza
  • interpretace
  • dokumentace použitých dat při publikaci výsledků

Cyklus života dat

Sociálněvědní výzkum, podobně jako jiné vědy, má podobu cyklu, kdy výsledky jednoho výzkumu se vracejí zpět do výzkumného procesu jako východiska pro nové výzkumné úlohy. V prostředí podporujícím otevřený přístup k datům do tohoto cyklu významně vstupuje opětovné používání databází a výzkumných nástrojů. Data tak získávají nový význam pro přenos a reprodukci znalostí a tyto jejich funkce ovlivňují koncepci výzkumů.

Správa digitálních informací je pak též inkorporována do cyklického systému vědeckého poznávání. Příkladem takového pojetí je model životního cyklu výzkumu definovaný Charlesem Humpreyem (2006).

Výzkumná data a model životního cyklu poznávání

Zdroj: Humprey, Ch. 2006. e-Science and the Life Cycle of Research. On-line: <http://datalib.library.ualberta.ca/~humphrey/lifecycle-science060308.doc>.

Toto pojetí pak ovlivňuje koncepci datového managementu, který je pak založen na modelu zachycujícím průběh vzniku, používání a dalšího využití dat jako celek strukturovaný do více fází s různými cíli, úlohami a aktéry. Příkladem je např. metodika pro depozitory amerického archivu ICPSR: Guide to Social Science Data Preparation and Archiving. Best Practice Throughout the Data Life Cycle.

Data management a projekt výzkumu

Management dat začíná hned s přípravou výzkumného projektu. Hlavní úlohy jsou následující:

  • ověření možnosti využití existujících databází a sekundární analýzu ve výzkumném projektu - review existujících datových zdrojů
  • využití dokumentace databází při přípravě vlastních výzkumných nástrojů: vyhledání vhodných indikátorů v dotaznících existujících výzkumů, využití existujících dat při ověřování výzkumných nástrojů
  • ošetření formálních a legálních předpokladů pořízení dat a práce s daty v průběhu výzkumu (zejm. autorská práva a ochrana osobních údajů)
  • návrh metodiky správy dat ve výzkumném procesu (zabezpečení dat, předcházení chybám, usnadnění analýzy)
  • zohlednění úloh správy dat při plánování rozpočtu projektu

Review datových zdrojů při psaní projektu

Každý projekt by měl, podobně jako studiem literatury, začínat také důkladným review dostupných datových zdrojů k tématu. Toto je důležité i pro projekty, které jsou primárně založeny na sběru vlastních dat, přičemž využitelná nemusí být pouze data, ale i informace o dříve aplikovaných koncepcích, postupech a výzkumných nástrojích, které je doprovázejí.

  • Existují data, která mohou odpovědět na naše výzkumné otázky?
  • Je možné srovnání s existujícími daty?
  • Pokud ano, jsou tato data dostupná a za jakých podmínek?
  • Jsou tato data dostatečně srozumitelná, komplementární a kvalitní?
  • Jaká data pro zodpovězení našich otázek postrádáme?
  • Pokud jsou dostupná srovnatelná data, je potřeba záměry srovnávání zohlednit v našich metodikách?
  • Byly již dříve realizovány podobné výzkumné záměry či metodické
  • postupy nebo využity relevantní výzkumné nástroje?
  • Pokud ano, je k nim dostupná nějaká dokumentace?
  • Je možné tuto dokumentaci využít při koncipování našeho výzkumu?

Otázky zařazení dat z externích zdrojů do výzkumného projektu

  • dostupnost a náklady na získání přístupu (finanční, časové, organizační)
  • srovnatelnost, komplementarita, kompatibilita

Data management a parametry metodiky připravovaného šetření

  • požadavky na přesnost - velikost souboru, metodika výběru, metodika sběru dat...
  • stanovení cílů: jaký je účel pořízení dat, kdo jsou potenciální uživatelé, jaké jsou časové perspektivy
  • rozhodování o způsobu zpřístupnění dat a jeho načasování

Nepodcenit právní a související organizační otázky

  • Bude potřeba informovaný souhlas respondentů/informantů a pokud ano, pro jaké úlohy a v jaké formě?
  • Bude potřeba provést anonymizaci dat a pokud ano, v jakém rozsahu a jakými metodami?
  • Jak budou ošetřena autorská práva, aby to nebránilo využití dat v projektu a sdílení dat?
  • Bude třeba omezit přístup k datům a pokud ano jak a v jaké časové perspektivě?
  • Kdo bude v jednotlivých fázích využití datových souborů odpovědný za správu datových souborů a jejich distribuci?

Otázky plánování konstrukce datového souboru

  • struktura souboru/souborů
  • označení a popis proměnných
  • jaké latentní proměnné budou vytvářeny, transformace proměnných
  • způsob zpracování dat (vzít v úvahu též nároky software a specifických analytických postupů  na parametry datových souborů)
  • způsob vkládání dat (dopady na konstrukci výzkumného nástroje)
  • otázky anonymizace dat
  • ošetření chybějících hodnot (dopady na konstrukci výzkumného nástroje)
  • kontroly integrity dat - filtry, postupy čištění, nároky na software
  • management verzí a edicí datového souboru
  • politika uchování dat (media, formát, zpřístupnění)

DOPADY NA TVORU VÝZKUMNÉHO NÁSTROJE A MOŽNOSTI ANALÝZY!

Rozhodnutí o úrovni a kontrole kvality

  • naplánovat management kvality dat - vymezit sledování kvality v rámci procesu výzkumu, stanovit indikátory kvality a kontroly
  • naplánovat pořízení dokumentace (jaký bude formát dokumentace, jaký bude obsah a co, kdy a jak je potřeba zjistit)
  • vymezit zpětnou vazbu průběžného sledování kvality na realizaci šetření

Rozhodnutí o potřebě pilotáže a testování nástroje

Vyčíslení nákladů na management dat a archivaci a jejich zahrnutí do rozpočtu projektu

Položky potenciálně relevantní pro rozpočet

  • získání informovaného souhlasu
  • anonymizace
  • zabezpečení a přístup k datům
  • digitalizace, transkripce (např. přepis rozhovorů)
  • formátování a správa souborů
  • popis dat a kódování
  • čištění
  • popis kontextu dat
  • dokumentace (zjišťování dokumentace v průběhu procesu nebo dodatečně)
  • metadata (vytváření popisu - dokumentace k datům)
  • formáty souborů (náklady konverze audiovizuálních dat atp.)
  • plánování, rozdělení rolí a odpovědnosti (spolupráce více institucí atp.)
  • operacionalizace (plánování a implementace datového managementu)

Viz též UK Data Service Data management costing tool and checklist

Plán managementu dat

Plán managementu dat je dokument, který shrne, jak budou data vytvořena a jak s nimi bude zacházeno během výzkumu i po jeho skončení. vedle vyjasnění východisek mohou být důvodem pro jeho vznik též požadavky zadavatele výzkumu nebo sponzora. Řada grantových agentur požaduje plán managementu dat jako součást projektu za účelem zajištění dodržování a kontroly datové politiky a stanovených zásad pro zpřístupnění dat. Plán managementu dat proto může mít i velmi formalizovanou podobu.

Doporučené položky plánu managementu dat dle ICPSR

  • Popis dat: Popis shromažďovaných informací – povaha, rozsah a měřítko generovaných nebo sbíraných dat.
  • Zpřístupnění a sdílení: Budou data uložena a případně sdílena? Za pomoci jakých mechanismů? Kdo a za jakých podmínek bude mít přístup? Kdy budou data zpřístupněna? Pozn.:  otázky ochrany osobních údajů a další bariéry přístupu.
  • Metadata (dokumentace): Jaká dokumentace bude pořízena? Jaký formát bude dokumentace mít? Pozn.:  otázky použití standardizovaných formátů (např. DDI), kompatibility a dlouhodobého uchování.
  • Ochrana duševního vlastnictví: Kdo bude autorem a kdo (instituce, osoby) bude držitelem práv? Jak bude zajištěna ochrana práv (pokud je to relevantní)? Budou práva v průběhu nebo po skončení výzkumu převáděna? Bude využíván nějaký materiál podléhající autorskému právu (např. měřící instrument)? Pokud ano, jak projekt získá svolení k použití, případně k dalšímu šíření?
  • Etika a ochrana osobních údajů: Bude potřeba informovaný souhlas respondentů? V jakém rozsahu a v jaké podobě? Jsou zde bariéry pro zpřístupnění dat? Jak bude zajištěna ochrana před rozkrytím identity respondentů (analýza, anonymizace)?
  • Formát: Specifikace formátů pro analýzu, distribuci a uchování dat a formáty souvisejících materiálů. Pozn.:  efektivní zpracování a archivace dat, dostupný software, dlouhodobé zachování kompatibility.
  • Archivace a zachování: Jaké zajistit, aby data a související materiály byly zachovány na dlouhou dobu v použitelném stavu? Pozn.:  zajištění dlouhodobého managemnetu dat.
  • Ukládání a zálohování: Jak a kde budou uchovávány kopie souborů pro výzkum? Kolik bude kopií a jak budou synchronizovány?
  • Bezpečnost: Zabezpečení ochrany osobních údajů (pokud je relevantní). Zabezpečení proti ztrátě informace (ochrana proti přepsání, neautorizovaným úpravám atp.).
  • Odpovědnost: Kdo bude zodpovědný za soubory v různých fázích jejich životního cyklu?
  • Výběr dat a doba zachování: Jak budou vybrány soubory pro archivaci? Jak dlouho budopu data uchovávána? Jaké záměry pro převod nebo smazání souborů a kdy (je-li relevantní)?
  • Uživatelé: Specifikace skupin uživatelů. Pozn.:  Požadavky různých skupin uživatelů se liší.
  • Zajištění kvality: Specifikace postupů zajištění standardů kvality dat relevantních pro úlohy managementu dat.
  • Rozpočet: Specifikace nákladů na datový management
  • Právní nároky: Právní nároky a omezení ohledně archivace a sdílení dat.

Zdroj:  ICPSR Guidelines for Effective Data Management Plans (shrnuto a upraveno).

Další zdroje