Úvod
Ukládání datových souborů a jejich sdílení s vědeckou veřejností není ničím novým. V rámci AV ČR byl proveden interní průzkum, který se týkal archivace dat v ústavech AV ČR a zájmu ústavů o ukládání dat v datovém repozitáři. V roce 2017 byl repozitář ASEP rozšířen o další nadstavbu, datový repozitář, který nabízí autorům z AV možnost dlouhodobě a bezpečně archivovat data. V interním průzkumu o to většina akademických ústavů projevila zájem. Datový repozitář považujeme za důležitou nadstavbu databáze ASEP a věříme, že jej časem ocení i vědecká veřejnost.
Ukládání a archivace datových souborů
Roli Knihovny AV ČR v této oblasti vnímáme jako zprostředkovatele, který předává informaci, proč data archivovat a sdílet, nabízí prostor, kam je uložit, radí, jak je popsat, a stará se o dlouhodobou ochranu a archivaci. Povinností autorů, kteří obdrželi grant z programu H2020, je uložení v otevřeném přístupu nejen plného textu dokumentu, ale od roku 2017 i datových souborů, na jejichž základě publikace vznikla. V AV ČR je 53 ústavů rozděleno do tří vědních oblastí: I. oblast věd o neživé přírodě, II. oblast věd o živé přírodě a chemických vědách a III. oblast humanitních a společenských věd. Z toho je zřejmé, že množství, typy i velikost ukládaných datových souborů se bude lišit dle jednotlivých oborů a zaměření. V průběhu vědeckého bádání vzniká obrovské množství dat, ale ne všechna data je nutno ukládat a archivovat, proto by autoři měli věnovat velkou pozornost přípravě souborů. Mnohé projekty doporučují, nebo přímo požadují, aby si příjemci vytvořili Data Management Plan – dokument, ve kterém naplánují a popíší, jaká data v průběhu výzkumu vzniknou a jak budou data spravovat. Na webových stránkách knihovny je pro autory vytvořena stránka zaměřená na organizaci dat, s odkazy na návody a videa, kterými se mohou autoři inspirovat.
Workflow
Tvorba datových záznamů a uložení datasetů do datového repozitáře AV ČR navazuje na dosavadní způsob zpracování. I když je možné, aby data do repozitáře uložil za autora kdokoliv jiný, což je běžná praxe při ukládání bibliografických záznamů a plných textů dokumentů, v případě dat doporučujeme, aby vkladateli byli sami autoři. Vyplnění formuláře metadaty a uložení datasetů je technicky jednoduchá záležitost. Při předání datových záznamů a datasetů ke kontrole správci dat vkladatel potvrzuje, že souhlasí s Dohodou o uložení dat v repozitáři ASEP. Zásadní požadavky jsou tyto:
- autor musí mít k uložení dat potřebná práva (svolení od spoluautorů),
- nesmí zveřejňovat citlivé údaje (rodná čísla, jména, telefonní čísla apod.),
- musí zadat licenci pro nakládání s datasety.
Příslušný správce dat provede formální kontrolu datových záznamů a uložených datasetů. Pokud je vše v pořádku, zveřejní je v online katalogu ASEP. Workflow ukládání datových záznamů s datasety do ASEP je znázorněno na obrázku č. 1.
Obr. 1: Workflow ukládání datových záznamů do ASEP
Uživatelské prostředí – myASEP
Vkladatelé (autoři/autorky), obdobně jako správci systému, mají svůj uživatelský účet myASEP, ze kterého spravují svá data. Na obrázku č. 2 je zobrazeno uživatelské prostředí myASEP pro vkladatele. Po přihlášení mohou pracovat se svými záznamy, tj. vkládat nové bibliografické záznamy s ohlasy, ukládat plné texty dokumentů a recenzí (levá část myASEP) a vytvářet nové datové záznamy s datasety (pravá část myASEP). Vkladatel má přehled o všech záznamech, které jsou rozpracované, připravené ke schválení i schválené a zveřejněné v online katalogu. Uživatelský účet správců systému vypadá podobně, jen jsou přidány další odkazy a funkce, v případě datových záznamů odkaz na záznamy, které předali vkladatelé ke kontrole a zveřejnění. Autorům i správcům systému jednotlivých pracovišť je k dispozici podrobná nápověda na webových stránkách knihovny.
Obr. 2: Uživatelský účet vkladatele myASEP
Datové záznamy a datové soubory (datasety)
Při výběru souboru metadat pro repozitář ASEP jsme se snažili o maximální možnou úplnost dat, ale s ohledem na to, abychom nekladli příliš velkou zátěž na vědce/autory, kteří budou metadata vytvářet. Vycházeli jsme z požadavků na datové repozitáře: metadata v angličtině, informace o financování – uvedení projektů, odkazy na publikace a jiné výstupy vztahující se k datům, popis jak z hlediska obsahového, tak technického, uvedení vědeckého oboru a klíčových slov, časové a místní určení. Metadata k datovým záznamům se zapisují do webových formulářů, kde je každé pole opatřeno nápovědou, aby vkladatel věděl, jaké údaje do pole vyplnit. Ve formuláři jsou výrazně označena pole, která jsou povinná, bez vyplnění těchto polí nelze datový záznam zveřejnit v online katalogu. Aktuální metadatová struktura je zveřejněna na stránkách Knihovny AV ČR. Mezi povinná pole patří uvedení autorů, názvu datasetu, popisu uložených souborů, typu datových souborů, jazyka dokumentace, klíčových slov, nastavení licence a přístupu k souborům. Při zápisu autorů využíváme autoritní bázi, která umožňuje jednoznačnou identifikaci autora, jeho výstupů a afiliace. Velký důraz je kladen na zvolení výstižného názvu datasetu a popis souboru/souborů jak v češtině, tak i v angličtině. Pokud je nutný obsáhlejší popis, doporučujeme připojit k datasetu textový soubor readme.txt, kde je možno uvést další podrobné informace. Vkladatel určí a následně nastaví pro vkládanou položku licenci Creative Commons, případně zvolí vlastní licenci, jejíž text uloží k datasetu. Výběr licence je zcela na autorovi; nedoporučujeme, pouze přednabízíme výběr CC licencí, u nichž předpokládáme, že je budou autoři využívat. Pokud vkladatel zvolí otevřený přístup, resp. otevřený přístup s časovým embargem, pak jsou datasety přístupné ihned po zveřejnění, resp. po uplynutí časového embarga. Pokud je uveden přístup na vyžádání, uživatel si musí vyžádat dataset od autora. Autority projektů jsou opatřeny čísly z číselníků Centrální evidence projektů České republiky (CEP), číselníku projektů Evropské komise (CORDIS) a číselníků programů AV ČR. Každý datový záznam má přidělen jednoznačný identifikátor HANDLE. Pojem datový soubor v ASEP představuje sadu souborů, která může obsahovat data výzkumu, dokumentaci, ve které jsou důležité informace pro uživatele, případně i text licence, pokud licence Creative Commons není dostatečná a uživatel zvolil jinou licenci. Maximální velikost jednoho ukládaného souboru jsou 2 GB, celková maximální velikost uložených souborů u jednoho datasetu je 20 GB. Po domluvě s administrátorem repozitáře bude možné uložit i soubory větší velikosti. Při výběru formátů souborů doporučujeme používat standardní otevřené formáty, které jsou podporovány různými systémy a programy a je zajištěna jejich dlouhodobá ochrana. Například pro textové soubory doporučujeme formáty txt, pdf, html, csv, pro obrázky jpeg, tiff, png a pro média mp3 apod.
Odkazy v záznamech
Do datového záznamu lze vložit odkazy na publikace a jiné vědecké výsledky (patenty, aplikovaný výzkum), které se vztahují k datům, obdobně lze vložit odkazy na datové záznamy do bibliografických záznamů. Na obrázku číslo 3 je zobrazeno propojení datových a bibliografických záznamů v ASEP. K datovému záznamu může být přiložen datový soubor (preferujeme takový způsob), ale umožňujeme autorům, kteří mají svá data např. v oborovém repozitáři, vytvořit pouze datový záznam v ASEP s odkazem do jiného repozitáře nebo úložiště. Může to být užitečné v případě, že takový repozitář neumožňuje zápis metadat v potřebném formátu nebo rozsahu.
Obr. 3: Příklad propojení datového a bibliografického záznamu v ASEP
Výhled
Bibliografické záznamy, které mají uložen plný text v ASEP, jsou pravidelně sklízeny prostřednictvím protokolu OAI-PMH do mezinárodní databáze OpenAIRE, v budoucnosti počítáme i s předáváním datových záznamů. Datový repozitář chceme zařadit do registru vědeckých datových repozitářů Re3d. Rádi bychom získali certifikát důvěryhodného repozitáře, neboť certifikace je nejen formálním dokladem, že repozitář splňuje potřebná kritéria, ale také nástrojem pro vlastní ověření správné funkčnosti repozitáře.
Shrnutí
V datovém repozitáři ASEP je nadefinována základní datová struktura založená na mezinárodních standardech, je vytvořen systém odkazů jak mezi daty a bibliografickými záznamy uloženými v ASEP, tak mezi daty a bibliografickými záznamy uloženými v jiných systémech. Vkladatelé mohou ukládat datové soubory opatřené metadaty, případně vytvářet datové soubory k datům uloženým na jiných úložištích. AV ČR má k dispozici otevřený systém, který lze dle potřeby snadno upravit a rozšířit. Je připraven základ a čekají nás jeho úpravy a rozšiřování nejen dle praktických zkušeností uživatelů, ale budeme nabízet i nové funkcionality, které knihovna považuje za důležité. V následujícím období budeme vědce AV ČR seznamovat se systémem ukládání a popisu datových souborů v ASEP, ovšem budeme i naslouchat, abychom pak udělali průnik mezi potřebami vědců a nápady správců systému.