Kontroll av metadata
Från DAU-handboken
Metadata i SND:s forskningsdatakatalog
SND har tagit fram en mininivå av metadataelement som krävs för att en databeskrivning ska publiceras i SND:s katalog.
Syftet med miniminivån är att säkerställa att forskningsdata som publiceras i katalogen har tillräcklig mängd metadata för att data ska vara sökbara, tillgängliga och åtkomliga, samt att vidare spridning av metadata ska vara möjlig. Att följa kraven på miniminivå för metadata är också ett viktigt steg i arbetet med att uppfylla FAIR-principerna [1], [2]. I Kravbeskrivningen finns mer information om syftet med miniminivån för metadata.
I formuläret som används för att beskriva data är de fält som ingår i miniminivån markerade med en orangeröd symbol. Dessa fält är obligatoriska innan en databeskrivning kan publiceras i SND:s forskningsdatakatalog. För en överlämnare går det att skicka in en databeskrivning även om det saknas information i markerade fält, men i de här fallen behöver DAU fylla i den saknade informationen eller be om kompletteringar (innan databeskrivningen slutligen kan publiceras).
Vilka fält som är obligatoriska (markerade i formuläret) skiljer sig beroende på vilken metadataprofil som är vald. Miniminivån för metadata består dels av en gemensam del som gäller för alla databeskrivningar och dels av en ämnesanpassad del. Förutom de obligatoriska metadatafälten finns också ett antal valfria fält.
För närvarande finns det ämnesanpassade metadataprofiler för följande områden implementerade i formuläret i DORIS: (länka doris)
- Arkeologi och historia
- Medicin och hälsovetenskap
- Miljö-, klimat- och geovetenskaper
- Samhällsvetenskap
- Språkdata
Det går också att väja en allmän profil för att beskriva data från övriga ämnesområden, och som också den uppfyller SND:s krav på metadata.
De element som ingår i miniminivåerna (både de gemensamma och de ämnesspecifika) listas på sidan Obligatoriska metadata tillsammans med definitioner (på svenska och engelska) och eventuella kommentarer.
Kontroll av metadata för inkommande data
Utgångsläget när man granskar metadata för en databeskrivning är att forskaren som skapat databeskrivningen är den som bäst kan beskriva data. Granskningen går därför till stor del ut på att se till att obligatoriska fält och att relevanta övriga/valfria fält är ifyllda. Och att den information som finns där verkar rimlig. Generellt kan sägas att SND-kontoret inte ”dubbelkollar” de ifyllda uppgifterna, men vi kontrollerar att den information som finns i varje fält är rimlig utifrån den dokumentation som har blivit medskickad.
En del mindre ändringar i metadata kan vara enklast att göra själv som DAU-medarbetare, det kan t.ex. handla om att lägga till fler nyckelord. Medan en del andra fält är bättre om forskaren själv fyller i, t.ex. Beskrivning. Gör man ändringar som DAU är det bra att i samband med att man ber forskaren godkänna förhandsvisningen av katalogposten informera om de ändringar man gjort.
Vilka metadatafält som ska fyllas i och hur de ska fyllas i beror bland annat på vilka typer av data som lämnas in och vilket ämnesområde de hör till.
Checklista för kontroll av metadata
Du hittar Checklista: kontroll av metadata här.
Granskning i formuläret, avsnitt för avsnitt
Här nedan listas ett urval av de fält som finns i formuläret, med en diskussion kring granskning av fältet. Fälten är indelade efter vilket avsnitt de ligger under i formuläret. Kom ihåg att vilka fält som syns i formuläret varierar med vald ämnesprofil.
Avsnitt 1. Tillgänglighet, ansvar & roller
- Stämmer tillgänglighetsnivån med innehållet i data? Vald tillgänglighetsnivå behöver också kontrolleras i relation till fältet om personuppgifter lite längre ner. Om data innehåller personuppgifter bör den exempelvis inte vara direkt nerladdningsbar.
- Har en lämplig ämnesprofil valts? Svaret på den frågan kanske visar sig först efter vidare granskning. Det går att byta metadataprofil i formuläret även efter att beskrivningen är inskickad, men informationen i ämnesspecifika fält försvinner i samband med profilbytet.
- Är rätt huvudman vald? Ett tecken på att huvudmannaskapet kan vara krångligt är om det exempelvis rör sig om ett samarbete mellan flera lärosäten eller om privata aktörer är inblandade. Vilka som är angivna som Skapare/primärforskare eller Medverkande kan ge en indikation på vilka organisationer som står bakom datamaterialet. Observera att vald huvudman inte går att ändra (beror bland annat på att den valda huvudmannen avgör vilken lagringsyta som används för databeskrivningen) och om fel huvudman är vald så får man skapa en ny databeskrivning med rätt huvudman, eller kontakta SND-kontoret för att undersöka möjliga lösningar.
- Skapare/primärforskare kan vara en eller flera person(er) eller organisation(er). De personer/organisationer som anges här syns i dataciteringen. Det är ganska sällan som det är både personer och organisationer som är skapare/primärforskare för en databeskrivning, det förekommer men det brukar vara antingen det ena eller andra.
- Är Data i studien innefattar personuppgifter och Data innefattar annan skyddsvärd information ifyllda? Huruvida de här uppgifterna är korrekta kanske visar sig i samband med granskning och mer ingående kontroller av data.
- Finns det några restriktioner för hur data kan tillgängliggöras? T.ex. embargo eller citeringskrav. Har forskaren/överlämnaren angett något här är det viktigt att detta följs upp och att det förs en dialog om vad som är rimligt/möjligt utifrån olika aspekter (administrativa, juridiska mm.). Informationen i det här fältet syns inte i katalogposten.
Avsnitt 2. Allmän beskrivning
- Titel ska helst anges både på svenska och på engelska. Om det saknas en svensk titel och en översättning inte är lämplig/självklar är det bättre att ange den engelska titeln än att ”hitta på” en svensk titel. Fältet för svensk titel går också med fördel att använda om det finns en titel på annat originalspråk.
- Beskrivning är ett ganska centralt fält för en databeskrivning. Det är här man på ett enkelt sätt kan få en överblick av vad det handlar om för typ av data och i vilket sammanhang data har samlats in. Det händer att en del forskare bara skriver en kort mening här, vilket inte är tillräckligt.
- Fältet är obligatoriskt både på svenska och på engelska. Däremot behöver inte texten vara identisk på båda språken och det går bra att ha en kortare text på t.ex. svenska med en hänvisning till den engelska katalogsidan för ytterligare information. Beskrivningen är viktig för att andra forskare som letar efter data ska förstå vad en studie handlar om och få en bra överblick över vad datamaterialet innehåller. Ett tips är att i första hand be forskaren att översätta beskrivningen - det tar ofta tid att översätta själv och kan vara svårt om det är ett för dig ovant forskningsområde.
- Tidsperiod(er) som undersökts kan vara både ett datum (ex. år, månad) eller en period (ex. bronsålder). Det är viktigt att vara observant på att Tidsperiod(er) som undersökts inte per automatik är samma som den tidsperiod då data samlades in, exempelvis för en arkeologisk studie är tidsperioden som undersöks stenåldern medan tidsperiod som data samlas in är 2016-2017. Om överlämnaren har angett ett brett tidsspann (till – från), men sen bara undersökt några enstaka delar/tidpunkter av intervallet kan det vara bättre att ange tidsperioderna en och en, istället för ett intervall. Det ger nämligen bättre sökträffar i katalogen. Ex. Tidsintervallet AA – ÖÖ är valt, men bara AA, EE och ÖÖ täcks av data. Det är då bättre att ange AA, EE, och ÖÖ som upprepade tidsperioder.
Avsnitt 3. Ämnesord och nyckelord
- Det är obligatoriskt att ange minst ett ämnesområde från SCB:s Standard för svensk indelning av forskningsämnen. Beroende på forskningsområde och vilken typ av data det är kan CESSDA:s eller INSPIRE:s klassificering också anges. CESSDA gäller främst samhällsvetenskapliga data eller tvärvetenskapliga undersökningar där samhällsvetenskap berörs. INSPIRE är att föredra om det handlar om spatiala data.
- Forskaren/överlämnaren kan välja nyckelord från kontrollerade listor eller skapa egna nyckelord i de fall det saknas passande termer. Det avancerade nyckelordsöket kan användas för att söka inom specifika ämnesområden och vokabulärer. Det går även att söka efter nyckelord i den engelska versionen av nyckelordslistorna, då det ibland saknas översättning till svenska för vissa termer.
DAU kan hjälpa forskaren att komplettera nyckelorden. Nyckelord ökar sökbarheten för data i forskningsdatakatalogen. Det är obligatoriskt för en databeskrivning att innehålla minst ett nyckelord.
Följande nyckelordslistor finns i dag i SND:s system:
- EnvThes [3]: Environmental Thesaurus, för långsiktig ekologisk forskning, övervakning och experiment.
- ELLST [4]: European Language Social Science Thesaurus, en bred, flerspråkig tesaurus för samhällsvetenskaper.
- MeSH [5]: Medical Subject Headings och är en kontrollerad vokabulär inom livsvetenskaperna.
- GEMET [6]: General Multilingual Environmental Thesaurus
- GCMD [7]: Global Change Master Directory, en kontrollerad vokabulär för “Earth science data”
Avsnitt 4. Geografisk täckning
- Här finns möjlighet att ange vilket geografiskt område som data täcker. Det finns även möjlighet att lägga till en fritextbeskrivning om den geografiska beskrivningen.
- Att använda Bounding Box-funktionen är att rekommendera om data täcker ett tydligt avgränsat område. Databeskrivningen kommer då synas i kartsöket i katalogen och illustreras med en karta i katalogposten. Bounding box (rektangulär polygon) skapas genom att ange koordinater eller genom att markera ett område direkt på kartan. Endast en rektangel kan skapas. Om flera geografiska områden omfattas av datamaterialet kan rektangeln placeras så att den omsluter alla geografiska områden.
Avsnitt 5. Data, insamling & åtkomst
- Ska data delas via SND-katalogen laddas de upp här.
- Består databeskrivningen av ett dataset kan titeln för datasetet vara densamma som för den övergripande databeskrivningen. Däremot om det finns flera dataset är det viktigt att de har unika titlar så att de enkelt kan skiljas åt (det kan dock räcka med olika årtal i titeln, ex. Lufttemperatur i Göteborg 2018 och Lufttemperatur i Göteborg 2019). Det är titeln på dataset som används i citeringsförslaget.
- Har överlämnaren laddat upp flera filpaket som beskriver olika saker, kan det vara en idé att fundera på om det skulle vara bättre att presentera materialet genom olika dataset. (Ex. i en undersökning har data samlats in från två olika platser och är dokumenterade i olika datafiler. Detta kan visas under en gemensam databeskrivning men också som två dataset -en per plats).
- Återigen: Det är viktigt att skilja mellan period för datainsamling och tidsperiod(er) som undersökts. Oftast täcker båda fälten samma tidsperiod, men det förekommer fall där de inte gör det (t.ex. historiska data, C14-analyser och arkeologiska undersökningar).
- För fälten Licens och Upphovsrätt är det viktigt att kontrollera så att informationen här inte krockar med vald tillgänglighetsnivå.
Avsnitt 6. Publikationer
- Här är möjligt att koppla publikationer till data. Det är informationen i citeringsfältet som kommer att synas i katalogen, så det är en fördel om eventuell DOI finns med i citeringen.
- Många forskare tillgängliggör data i samband med publicering av en artikel. I de här fallen är det viktigt att artikeln kopplas till databeskrivningen.
Avsnitt: Språkresurser
- Det här avsnittet syns endast om forskaren har valt ämnesprofilen som heter Språkresurser. Mer information om granskning av dessa metadata kommer.
Avsnitt 7 (eller 8). Dokumentationsfiler
- Här laddas dokumentationsfiler upp. Mer information om hur man behandlar dokumentationsfiler finns på sidan Dokumentation.