Data Management Plan pro sociální vědy: Praktické informace a doporučení

Co je Data Management Plan (DMP)?

Plán správy dat neboli Data Management Plan (DMP) je v České republice od roku 2022 stanoven zákonem jako povinný dokument doplňující průběžné a výroční zprávy vědeckých projektů financovaných z veřejných prostředků. Od 1. 9. 2022 platí pro projekty zahájené po tomto datu povinnost zpracovávat DMP, která je daná novelou zákona č. 130/2002 Sb. § 12a Přístup k výzkumným datům. Tato novela transponuje směrnici EU o otevřených datech a opakovaném použití informací veřejného sektoru

Obecně lze říci, že DMP plní dvě hlavní funkce. Za prvé umožňuje poskytovateli veřejné podpory mít kontrolu nad tím, jaká data budou v rámci projektu využívána, a mít jistotu o tom, že vědecký tým má dobře rozmyšleno, jak bude postupovat ve svém výzkumu. Dobře zpracovaný DMP totiž obsahuje informace o primárních i sekundárních datech, která budou ve výzkumu využita, a popisuje, jak tato data budou získána. V neposlední řadě je v DMP rovněž dostatečně popsáno, jak bude ošetřena etická stránka výzkumu, tj. jak budou chráněny subjekty výzkumu a jejich soukromí. Podstatnou součástí DMP jsou také informace o tom, jak budou data uložena v průběhu a po skončení projektu, a kdy a kde budou k dispozici pro další užití osobám mimo výzkumný tým. Bezpečné uložení výzkumných dat a jejich sdílení je důležitým prvkem politiky Otevřené vědy, která je v současném výzkumu prosazována na evropské i světové úrovni. Dle této politiky je nezbytné, aby data byla tzv. FAIR, tedy vyhledatelná (findable), přístupná (accessible), srozumitelně popsaná (interoperable) a znovu-použitelná (reusable).

Kromě formální funkce DMP popsané výše má tento dokument praktickou funkci pro samotné výzkumníky. Vzhledem k tomu, že první verze DMP je zpravidla odevzdávána již v prvním roce řešení projektu, jsou výzkumné týmy nuceny již v začátku projektu detailně rozmyslet a naplánovat způsob získání dat a nakládání s nimi. Musí vědět, jak bude realizován výzkum, které metody budou použity, která sekundární data budou využita, jak budou ošetřena osobní data a jak budou data chráněna proti ztrátě či znehodnocení, kde a kdy budou data archivována a za jakých podmínek budou zpřístupněna. Tyto náležitosti je nutné znát v raných fázích projektu, aby je výzkumnice a výzkumníci mohli řešit s dostatečným předstihem a neriskovali, že se jejich výzkumný projekt zkomplikuje v důsledku nedostatečné přípravy.

Jak vypadá Data management plan (DMP)

Vzhledem k tomu, že zákon nepředepisuje, jakou formu má DMP přesně mít, je ponecháno rozhodnutí o podobě DMP na dohodě mezi poskytovatelem a příjemcem podpory, v některých případech dokonce jen na výzkumném týmu projektu. Při zpracování DMP je nutno brát ohled na konkrétní projekt a také na vědní obor, neboť datové potřeby jednotlivých vědních oborů se zásadně liší. Obecně lze říct, že v DMP musí být uvedeny všechny relevantní informace týkající se získání dat, jejich zpracování, uložení, archivace a sdílení.

V oblasti sociálních věd se jako nejlepší vzor pro DMP nabízí šablona doporučená Konsorciem evropských sociálněvědních datových archivů CESSDA ERIC (Consortium of European Social Science Data Archives, European Research Infrastructure Consortium). Šablonu CESSDA DMP pro sociálněvědní data v anglickém jazyce naleznete jako přílohu v první kapitole online trainingového modulu DMEG (Data Management Expert Guide):

Pro potřeby českých sociálních vědkyň a vědců připravil CSDA vlastní vzor DMP v českém jazyce, který je do značné míry založen na šabloně CESSDA, obsahuje však několik málo úprav, které CSDA udělal na základě vlastních zkušeností z českého prostředí. Oproti DMP šabloně CESSDA např. uvádí kvalitativní i kvantitativní data pohromadě, tj. nepožaduje zvlášť DMP pro kvalitativní a kvantitativní data. Tato šablona rovněž pokrývá DMP kategorie požadované programem Horizon 2020 (viz Horizon 2020 FAIR Data Management Plan (DMP) template)

Jaké informace mají být v DMP?

Vzor DMP vytvořený CSDA obsahuje nejen seznam informací, které by měly být v DMP uvedeny, ale také doporučení, co přesně by mělo v příslušných částech DMP napsáno. České vědkyně a vědci mohou tuto šablonu použít jako vzor pro zpracování DMP pro své vlastní projekty. Tato šablona člení informace o datech v projektu do sedmi hlavních kategorií, kterými jsou: 1) Administrativní informace, 2) Etické a právní aspekty výzkumných dat v projektu, 3) Data v projektu, 4) Dokumentace a metadata, 5) Datový management v průběhu projektu, 6) Archivace a dlouhodobé uložení dat a 7) Sdílení dat.

DMP šablonu CSDA najdete na webu CSDA, v repozitáři Zenodo.

Níže je ve stručnosti popsáno, jaký typ informací je uváděn v jednotlivých částech DMP šablony CSDA:

1)      Obecné informace o projektu obsahují název a popis projektu, informace o hlavních výzkumnících a členech výzkumného týmu včetně jejich kontaktů a údaje o poskytovateli podpory. V této části je stanoveno, kdo je vlastníkem vzniklých dat a kdo je jejich producentem. Je rovněž popsáno, kdo z týmu má zodpovědnost za datový management a zpracování DMP. Je také možné uvést finanční náklady na management dat, tj. kolik prostředků bude potřeba na software související s managementem dat a hardware pro uložení a zálohování dat.

2)      V části Etické a právní aspekty jsou uvedeny informace týkající se etiky správy výzkumných dat. Uvedeny jsou informace o schválení výzkumného záměru etickou komisí příslušné instituce, dále také informace o informovaném souhlasu, který bude použit v případě sběru a ukládání osobních dat. Připojena je také informace o tom, jak budou archivovány podepsané informované souhlasy, jež obsahují osobní data. Pokud budou sbírána osobní data, musí zde být uvedeno, jak budou chráněna a kdo k nim bude mít přístup. V této části jsou také uvedeny informace o vlastnickém právu (copyright) k datům a podmínkách užití vyprodukovaných výzkumných dat, včetně restrikcí a embarg. Pokud existují smlouvy s jinými subjekty intervenujícími v projektu, které budou využívat data, mělo by to být zde uvedeno.

3)      V části o datech využívaných v projektu jsou uvedeny všechny výzkumy, které vzniknou v rámci projektu, a údaje o sekundárních datech, které budou v rámci výzkumu využity. V této části jsou popsány základní metodologické údaje týkající se dat, která budou v projektu využívána, tedy zejména popis metody a sběru dat. V případě velkých projektů, v jejichž rámci je sbíráno větší množství různých dat (např. více než deset výběrových šetření, více než deset kvalitativních výzkumů, množství nových typů dat jako např. data ze sociálních sítí) je možné být v této části DMP stručnější a uvést pro každý jednotlivý výzkum jen základní informace, jako je metoda sběru, datum sběru, témata pokrytá výzkumem a kontakty na výzkumníky, kteří výzkum připravují. Metodologické informace lze rozšířit v pozdějších verzích DMP, pokud to bude poskytovatel podpory vyžadovat.

4)      V sekci Organizace a dokumentace dat je popsáno, jak bude vytvořena dokumentace s poznámkou o použitém standardu metadat (archiv, ve kterém data budou uložena, využívá konkrétní metadatový standard, zpravidla DDI - Data Documentation Initiative). V této části DMP by měla být popsána opatření pro zajištění adekvátní kvality dat, ať už ve fázi přípravy (např. kvalita dotazníku, informace o použitých metodách) či ve fázi sběru (např. údaje od agentury realizující výběrové šetření). Pokud budou v datech využívány specializované slovníky pro kódování obsahu dat, jako např. ELSST, mělo by to být uvedeno v této části DMP. Stejně tak informace o tom, jaké budou použity kódovací schémata pro hodnoty v datech (např. ISCO).

5)      V části Datový management v průběhu projektu jsou informace o tom, jak bude organizován datový management v průběhu projektu. Zejména je zde popsána strategie vytváření verzí datových souborů a jejich pojmenování. Strategie verzování datových souborů a její dodržování je z hlediska datového managementu i samotného výzkumu velice důležitá: chaotické, nesystematické verzování dat může vyústit ve ztrátu dat či nevalidní datové analýzy. Dále je zde zhruba popsáno, jak bude zajištěna komunikace výzkumných týmů s datovými manažery, resp. DMP manažerem a dalšími lidmi, kteří budou mít na starosti ukládání, ochranu a archivaci výzkumných dat v průběhu projektu. Mělo by zde být dostatečně popsáno, kde a jak budou uložena data v průběhu projektu a jak bude zajištěna jejich ochrana. Rovněž by měla být popsán plán zálohování dat (tj. jak často budou která data zálohována).

6)      Část DMP o archivaci a uložení dat informuje, kde budou data (a metadata) uložena po skončení projektu, přičemž se předpokládá, že data budou uložena v tzv. „trusted repository“, tedy datovém repozitáři, který má formální osvědčení o důvěryhodnosti (např. Core Trust Seal). Důvěryhodným národním centrem datových služeb pro sociální vědy v ČR je Český sociálněvědní datový archiv (CSDA), který je zároveň českým národním uzlem panevropské výzkumné infrastruktury CESSDA ERIC. Dále jsou uvedeny údaje o tom, že metadatům a datovým souborům bude přidělen tzv. perzistentní identifikátor, např. DOI (Data Object Identifier). Pokud jsou data svěřena důvěryhodnému archivu, zajistí přidělení DOI archiv. Mělo by být uvedeno, jak jsou uložená data chráněna před náhlou ztrátou v důsledku vnějších okolností, jako je povodeň či požár. Pokud je plánováno uložení dat v důvěryhodném datovém archivu, jako je např. CSDA, je možné pouze odkázat na tento archiv a dodat, že o tyto záležitosti se postará archiv. V této části by rovněž měly být informace o uložení a ochraně osobních dat, tedy ujištění, že data budou chráněna proti vniknutí nepovolaných osob, a určení osob, které k osobním datům budou mít přístup.

7)      Část Sdílení dat by měla specifikovat, jak budou data sdílena. V souladu s politikou Otevřené vědy se předpokládá, že výzkumná data budou dříve či později veřejně sdílena, ideálně prostřednictvím důvěryhodného datového repozitáře splňujícího požadavky pro FAIR přístup k datům. Pro sociální vědy v ČR již 25 let slouží archiv CSDA, kde v současné době je uloženo přes 1000 datových souborů a metadat. Pokud existují datové soubory či jejich části, které z opodstatněných důvodů nemohou být publikovány, musí to být v této části DMP odůvodněno. Často se v tomto případě jedná přepisy z kvalitativních výzkumů, které nelze dostatečně anonymizovat. Je také vhodné uvést, pod jakou licencí budou data publikována (možno odkázat na repozitář, kterému data budou svěřena). Mělo by být uvedeno, jak budou konkrétní datové soubory sdíleny během řešení projektu, tj. které osoby z výzkumného týmu k nim budou mít přístup. Anonymizovaná data, která vzniknou v rámci projektu, by měla být po skončení projektu či již v jeho průběhu zveřejněna v souladu s principy FAIR. Mělo by být uvedeno, jak budou data veřejně sdílena, předpokládá se, že prostřednictvím důvěryhodného datového archivu. Rovněž by mělo být uvedeno, že budou zveřejněna všechna metadata. Pokud existují limitace zveřejnění některých výzkumných dat z projektu, mělo by to zde být uvedeno. Rovněž by měla být uvedena doporučená citace dat.

Jak získat informace pro vytvoření DMP?

Zpracování DMP má obvykle na starosti jedna pověřená osoba, DMP manažer, nicméně vytvořit DMP není možné bez týmové spolupráce. DMP manažer komunikuje s vedoucí/mi výzkumného týmu i jeho jednotlivými členy a shromažďuje od nich informace o tom, jaká data v rámci projektu vzniknou a jaká již existující data budou výzkumnice a výzkumníci využívat. Na základě této komunikace DMP manažer vytvoří třetí část DMP Data v projektu. Dále s výzkumným týmem probírá záležitosti týkající se datového managementu, jako je verzování datových souborů, uložení a sdílení dat v průběhu projektu či etické aspekty výzkumu, o kterých musí informovat v DMP. DMP manažer dále komunikuje se zástupci důvěryhodného datového archivu, se kterými domlouvá uložení, archivaci a sdílení dat.

O DMP se často mluví jako o tzv. živém dokumentu (living document), čímž je míněno, že se počítá s jeho postupnými úpravami. Obecně panuje názor, že první verze DMP nemusí být zcela přesná, neboť v počátečních fázích projektu často ještě nejsou známa např. přesná data sběru dat či přesné metodologické informace k empirickým výzkumům realizovaným v rámci projektu. Leckdy také ještě nemusí být zcela finalizováno řešení sdílení dat mezi výzkumníky nebo dalších praktických náležitostí, o kterých je potřeba vést debatu v rámci výzkumného týmu. V druhé a další verzi DMP se předpokládá, že uvedené informace jsou už více méně přesné a plán bude příjemcem dotace dodržen. Počet verzí závisí na tom, jak často a jak dlouho příjemce projektu dodává zprávy poskytovateli financování, zpravidla to bývá jednou ročně po dobu trvání projektu a na konci projektu v závěrečné zprávě.

 

Chylíková, Johana.  Data Management Plan pro sociální vědy: Praktické informace a doporučení [online]. Český sociálněvědní datový archiv (CSDA), Sociologický ústav AV ČR, 2013. [cit. 12. 02. 2023].  Dostupné z: https://archiv.soc.cas.cz/cz/prace-s-daty/data-management-plan-pro-socialni-vedy