Kontroll av metadata
Från DAU-handboken
Metadata i SND:s forskningsdatakatalog
För att säkerställa att de externa krav och referensmodeller som SND har att förhålla sig till uppfylls, har SND tagit fram en mininivå av metadataelement som krävs för att en databeskrivning ska publiceras i SND:s katalog.
Syftet med denna miniminivå är att säkerställa att forskningsdata som publiceras i katalogen har tillräcklig mängd metadata för att data ska vara sökbara, tillgängliga och åtkomliga, samt att vidare spridning av metadata ska vara möjlig. Att följa kraven på miniminivå för metadata är också ett viktigt steg i arbetet med att uppfylla FAIR-principerna [1], [2], som i sin tur leder till att forskningsdata är framtidssäkrade genom att de blir lättare att finna, tillgängliga och åtkomliga samt möjliga att återanvända.
Miniminivån för metadata beskrivs i SND:s kravbeskrivningsdokument.
I SND:s formulär för att beskriva data är de fält som ingår i miniminivån markerade med en orange markering och dessa är obligatoriska innan databeskrivningen kan publiceras i SND:s katalog. För en överlämnare går det att skicka in en databeskrivning även om de markerade fälten inte är ifyllda, men i de här fallen behöver DAU fylla i den saknade informationen eller be inlämnaren om kompletteringar (innan databeskrivningen slutligen kan publiceras).
Vilka fält som är obligatoriska (markerade i formuläret) skiljer mellan vilken metadataprofil som är vald. Miniminivån för metadata är består av två delar. Nivå 1 utgörs av den gemensamma miniminivån och består av ett antal element som är obligatoriska för alla databeskrivningar (oavsett valt ämnesprofil). Nivå 2 består av ämnesanpassade metadata som är obligatoriska utifrån vald ämnesprofil.
Miniminivån för metadata är uppdelad i två delar. Nivå 1 gäller gemensamma metadata för alla datatyper, oavsett ämnesområde, och nivå 2 gäller för ämnesspecifika metadata som inte används av samtliga ämnesområden. För närvarande finns det ämnesanpassade metadataprofiler för följande områden, varav tre redan är implementerade på Mitt SND:
- Arkeologi och historia
- Medicin och hälsovetenskap
- Miljö-, klimat- och geovetenskaper
- Samhällsvetenskap
- Språkdata
Det går också att använda en allmän metadataprofil som även den uppfyller SND:s krav och som ska fungera för alla övriga ämnesområden och för tvärvetenskapliga forskningsdata.
De element som ingår i miniminivåerna (både de gemensamma och de ämnesspecifika) listas på sidan Metadataprofil tillsammans med definitioner (på svenska och engelska) och eventuella kommentarer. Genom att beskriva data i formuläret på Mitt SND kommer metadata direkt att finnas i ett strukturerat format i enlighet med SND:s metadataprofiler, och kan sedan fortsätta bearbetas på Mitt SND.
Kontroll av metadata för inkommande data
Vilka metadatafält som ska fyllas i och hur de ska fyllas i beror bland annat på vilka typer av data som lämnas in och vilket ämnesområde de hör till. Överlämnarens önskemål om hur data ska förmedlas och vilken som är den tilltänkta målgruppen för data är också viktiga faktorer för vilka metadata som är lämpliga att ange.
Vad som är en rimlig nivå av granskningen är upp till varje enskilt lärosäte att bedöma och sätta upp egna rutiner kring.
Granskning i formuläret, flik för flik
Här nedan listas ett urval av de fält som finns i SND:s formulär för att beskriva data, med en diskussion kring granskning av fältet. Fälten är uppdelade efter vilken flik de ligger under i formuläret. Vilka fält som syns i formuläret varierar med vald ämnesprofil.
Flik: Tillgänglighet, ansvar & roller
- Stämmer tillgänglighetsnivån med forskarens/överlämnarens behov och data? Ibland händer det att det är tydligt att forskaren har valt fel tillgänglighetsnivå för data. Den här informationen behöver också kontrolleras i relation till fältet om personuppgifter lite längre ner. Om data innehåller personuppgifter bör den exempelvis inte vara direkt nerladdningsbar.
- Har en lämplig ämnesprofil valts? Svaret på den frågan kanske visare sig först efter vidare granskning. Kom ihåg att det enkelt går att byta metadataprofil i formuläret även efter att beskrivningen är inskickad.
- Är rätt huvudman vald? Ett tecken på att huvudmannaskapet kan vara krångligt är om det exempelvis rör sig om ett samarbete mellan flera lärosäten eller om privata aktörer är inblandade. Vilka som är angivna som Skapare/primärforskare eller Medverkande kan ge en indikation på vilka organisationer som står bakom datamaterialet. I de fall en DAU-funktion med kopplad lagringsyta finns på plats går inte att ändra en vald huvudman i Mitt SND utan i detta måste då göras av SND manuellt (beror bland annat på att den valda huvudmannen avgör vilken lagringsyta som används för databeskrivningen).
- Har forskaren angett rätt Skapare/primärforskare? Skaparen/primärforskaren kan vara en eller flera person(er) eller organisation(er). De personer/organisationer som anges här syns i dataciteringen.
- Är Data i studien innefattar personuppgifter och Data innefattar annan skyddsvärd information ifyllda? Huruvida de här uppgifterna är korrekta kanske visar sig i ett senare skede när granskningen och mer ingående kontroller av data görs.
- Finns det några restriktioner för hur data kan tillgängliggöras? T.ex. embargo eller citeringskrav. Har forskaren/överlämnaren angett något här är det viktigt att detta följa upp och att det förs en dialog om vad som är rimligt/möjligt utifrån olika aspekter (administrativa, juridiska mm.)
Flik: Allmän beskrivning
- Titel ska helst anges både på svenska och engelska. Om en svensk titel saknas kan forskaren kontaktas för komplettering. Om översättning till inte är lämplig är det bättre att ange den engelska titeln än att ”hitta på” en svensk titel. Fältet för svensk titel går också med fördel att använda om det finns en titel på annat originalspråk.
- För Beskrivning är det obligatoriskt att ange en information både på svenska och på engelska. Däremot behöver inte texten var identisk för de båda språken och det går bra att ha en kortare text på t.ex. svenska med en hänvisning till den engelska katalogsidan för ytterligare information. Beskrivningen är viktig för att en forskare som letar efter data ska förstå vad en studie handlar om få en bra överblick över vad datamaterialet innehåller. Se till att i första hand be forskaren att översätta beskrivningen - det tar ofta tid att översätta beskrivningen själv, speciellt om den är lång.
- Har forskaren fyllt i Tidsperiod(er) som undersökts på ett korrekt sätt? Det är viktigt att vara observant på att Tidsperiod(er) som undersökts (det kan gälla specifika år och månader, men det kan också gälla historiska tidsperioder såsom "bronsåldern") är inte per automatik är samma som den tidsperiod då data samlades in, men det kan mycket väl vara samma datum. Kontrollera att forskaren/överlämnaren inte angett insamlingsperioderna i fältet Tidsperiod(er) som undersökts.
Om överlämnaren har angett ett brett tidsspann (till – från), men sen bara undersökt några enstaka delar/tidpunkter av intervallet kan det istället vara bättre att ange tidsperioderna en och en, istället för ett intervall. Det ger nämligen bättre sökträffar i katalogen. Ex. Tidsintervallet AA – ÖÖ är valt, men bara AA, EE och ÖÖ täcks av data. Det är då bättre att ange AA, EE, och ÖÖ som upprepade tidsperioder.
Flik: Ämnesord och nyckelord
- Det är obligatoriskt att ange minst ett ämnesområde från Standard för svensk indelning av forskningsämnen. Beroende på vad det rör sig om för ämnesområde och vilken typ av data det är kan Cessdas eller INSPIRE:s klassificering också anges. Cessda gäller främst samhällsvetenskapliga data eller tvärvetenskapliga undersökningar där samhällsvetenskap berörs. INSPIRE är att föredra om det handlar om spatiala data.
- Forskaren/överlämnaren kan välja nyckelord från kontrollerade listor eller skapa egna nyckelord i de fall det saknas passande termer. DAU kan hjälpa forskaren att komplettera nyckelorden. Nyckelorden gör att datamaterialet är lättare att söka fram i forskningsdatakatalogen.
Det kan vara bra att känna till att nyckelordsöket bara söker i det språk som formuläret visas på (svenska/engelska). Vissa nyckelordlistor är inte fullständigt översatta och det kan därför vara värt att testa att byta språk (framförallt till engelska) och göra nya sökningar på engelska termer om det är svårt att få bra träffar.
Flik: Geografisk täckning
- Här finns möjlighet att ange vilket geografiskt område som data täcker. Det finns även möjlighet att lägga till en fritextbeskrivning.
- Att använda Bounding Box-funktionen är att rekommendera om data täcker ett tydligt avgränsat område då databeskrivningen kommer synas i kartsöket i katalogen och illustreras på karta i katalogposten. Man kan skapa bounding box genom att ange koordinater eller genom att rita direkt på kartan.
Flik: Data, insamling & åtkomst
- Har forskaren angett en titel på varje dataset? Titeln på ett dataset kan ofta skilja sig från "studiens" titel (dvs. huvudtiteln).
- Finns det bara ett dataset så förväntas det att de flesta metadatafälten upprepas från andra flikar. Då kommer de flesta fält under den här fliken att vara tomma.
- Däremot kan informationen på datasetsnivå vara mer specifik än den på studienivå om det finns fler än ett dataset.
- Det är viktigt att skilja mellan insamlingshändelse och tidsperiod(er) som undersöktes. Oftast täcker båda fälten exakt samma tidsperiod, men det förekommer fall där de inte gör det (t.ex. historiska data, C14-analyser och arkeologiska undersökningar).
Flik: Publikationer
- Citeringsinformation om publikationer som hör ihop med studien eller datasetet.
Flik: Språkresurser
- Den här fliken syns endast om forskaren har valt ämnesprofilen som heter Språkresurser.
Flik: Dokumentationsfiler
- Inga metadatafält här. Här laddas dokumentationsfilerna upp. Information om hur man behandlar dokumentationsfiler finns på sidan Dokumentation.