Åtgärder

Uppfylla krav och rekommendationer

Från DAU-handboken

Version från den 26 april 2022 kl. 07.22 av Sara (diskussion | bidrag)

Här finns tips för hur dokumentet Krav och rekommendationer för data och metadata i SND:s forskningsdatakatalog kan uppfyllas. Punkterna för krav och rekommendationerna listas i samma ordning som i kravbeskrivningen, efter varje punkt följer ett tips eller förslag på hur kravet/rekommendationen kan uppfyllas.

Detta är en levande text som fylls på och omarbetas allt eftersom. Inspel från DAU-medarbetare tas tacksamt emot.

Krav för metadata och dokumentation

Krav: Obligatoriska metadatafält i DORIS:s formulär ska vara ifyllda och beskrivna så utförligt som möjligt för det aktuella fallet. Obligatoriska metadatafält ska också vara beskrivna på båda svenska och engelska, med undantag för fältet Titel.

Tips! De strukturerade metadatafält som finns i DORIS syftar främst till att göra data sökbara och ge grundläggande information om vad data innehåller och dess sammanhang. Obligatoriska metadatafält ska vara angivna innan posten publiceras i SND:s forskningsdatakatalog.
Vilka fält som är obligatoriska avgörs av vald metadataprofil i formuläret. Kontrollerade vokabulär och nyckelordslistor översätts automatiskt i DORIS medan fritextfält kräver manuell översättning. Översättningarna behöver inte vara exakta, men likvärdig information ska finnas på båda språken. Vid längre texter kan en hänvisning till den engelska katalogposten vara aktuellt, men en inledning bör finnas även på svenska.
Det är möjligt för både forskare och DAU att skicka vidare en databeskrivning utan att alla obligatoriska fält är ifyllda. På så sätt behöver inte arbetet stanna upp utan vi kan hjälpas åts med att ta fram rätt information innan publicering.
På sidan Kontroll av metadata finns information om vad som bör tänkas för specifika metadatafält.
Som rekommendation bör även icke-obligatoriska metadatafält vara ifyllda i så stor utsträckning som möjligt.

Krav: Metadata ska innehålla länkar/referenser till artiklar och/eller andra publikationer, i den mån det finns.

Tips! Hänvisningar till publikationer som är kopplade till data beskrivs i avsnittet Publikationer i DORIS. Viktigaste är att ange referenser till publikationer som beskriver data och hur de är framtagna, men det rekommenderas även att länka till publikationer som är baserade på data.
Det är möjligt att i DORIS söka och hämta metadata för publikationer i SwePub. Det är obligatoriskt att ange titel och referens för publikationen, det som anges i fältet för referens är det som blir synligt i blivande katalogposten. Att ange årtal det gör möjligt att kunna filtrera på år i katalogposten, om det finns många publikationer. Ange gärna PID för publikationen, om det finns.

Krav: Externa länkar ska, i den mån det finns, vara av typen persistenta identifierare.

Tips! Länkar som leder till externa källor, exempelvis till publikationer, hemsidor eller relaterade resurser ska så långt som möjligt vara av typen persistenta länkar. De kan t.ex. vara av typen DOI, handle eller URN:er. Saknas persistent länk kan ex. vanlig URL användas. URL har dock inte samma garanti för långsiktighet då en webbadress kan flyttas, ändras eller tas bort. Om URL:er används kan de behöva kontrolleras kontinuerligt så att de fungerar.

Krav: Tillhörande dokumentation som är relevant för att förstå och återanvända det aktuella datasetet ska delas tillsammans med data och metadata. Information om materialets framtagande, bearbetning och sammanhang bör finnas med.

I de fall databeskrivningen omfattas av ett dataset som delas med avseende på en specifik artikel (eller annan publikation) kan kravet om tillhörande dokumentation frångås, villkorat att den aktuella artikeln/publikationen:

  • är öppen och fritt tillgänglig
  • är länkad till i databeskrivningen med en persistent identifierare (PID)
  • innehåller all information som krävs för att data ska gå att förstå och återanvända, så att resultat ska kunna återskapas oberoende andra resurser.
Tips! Tillhörande dokumentation är mycket viktigt för att data ska återanvändas för ny forskning, för att kunna validera forskning och för att forskningen ska kunna förstås. Med tillhörande dokumentation avses här information i löpande text som inte ryms i de strukturerade metadatafälten och som bifogas data.
Att definiera vad som är tillräcklig dokumentation för återanvändning är beroende av bland annat forskningsområde, typ av data och det specifika forskningsprojektet. Det krävs ofta en bedömning i varje enskilt fall.
Relevant information kan t.ex. sammanfattas i en readme-fil. Här är ett exempel på utformning av en readme-fil, framtagen av Cornell University.
Om en artikel ska ersätta delar av tillhörande dokumentation är det viktigt att det i artikeln finns information om bland annat metod och insamling. Tänk på att variabel- och kodlistor som förklarar själva datafilerna oftast inte finns med i den vetenskapliga artikeln, eller i dess supplementary materials, så detta behöver delas tillsammans med datafilerna.
Ibland behöver data finnas tillgängliga innan en artikel publiceras. I undantagsfall kan man därför behöva publicera databeskrivningen utan länk till artikeln. Rekommendationen är då att ange artikelns titel i DORIS följt av “under review” och uppdatera databeskrivningen med länk till artikeln så snart det finns.

Rekommendationer för metadata och dokumentation

Rekommendation: Ej obligatoriska men för forskningsområdet viktiga metadatafält bör vara beskrivna i så stor utsträckning som möjligt.

Tips! Det är bra om det finns så mycket information som möjligt om ett datamaterial då det både ökar förståbarheten och sökbarheten. På så vis fler kan hitta materialet och sedan bedöma om data kan vara användbara för dem.
För att uppnå detta är det bra att försöka hjälpa forskarna så mycket som möjligt med att metadataberika. En del saker kan man enkelt lägga till själv som granskare, t.ex. ORCID och fler nyckelord. Om bra tillhörande dokumentation finns med kan man också oftast fylla på med information från dokumentationen om datainsamling, tidsperioder osv. Är det svårt att avgöra om det är rätt information, kan man ta fram förslag och skicka till forskaren.
Det är viktigt att dokumentera vilka ändringar som görs och det är viktigt att informera forskaren om vilka ändringar som är gjorda. Forskaren ska ge sitt godkännande till ändringarna, vilket sen kan noteras i anteckningsfältet i DORIS. I anteckningsfunktionen kan man t.ex. klistra in mailkonversationer med forskaren.
På den här sidan finns mer detaljerad information om olika metadatafält.

Rekommendation: Metadata och tillhörande dokumentation bör, i så hög grad som möjligt, vara förståbara för forskare från andra ämnesområden. För högt specialiserade material kan det vara rimligt att acceptera en snävare målgrupp för materialet (t.ex. genetiska data).

Tips! Huruvida den här rekommendationen kan uppnås påverkas i praktiken av hur mycket tid forskaren har för att ta fram dokumentation som är begriplig även för dem utanför området. Fältet Beskrivning bör innehålla information som på ett relativt enkelt sätt förklarar datas sammanhang, men variabellistor och readme-filer kan vara svårare att göra allmänt begripliga.
Datas omfattning kan också påverka huruvida mindre ämnesspecifik dokumentation är okej. Ett större och mer omfattande dataset från ett avslutat projekt kan vara mer relevant att beskriva för en bredare målgrupp än ett mindre och mer avgränsat dataset framtaget för en specifik artikel.

Rekommendation: Metadata för dataset som publiceras i samband med en specifik artikel bör vara beskrivna så att resultaten i artikeln kan replikeras.

Tips! Data som delas med syfte att kunna validera forskningsresultat bör vara beskrivna så utförligt att replikering är möjlig. Detta kan göras genom att exempelvis kontrollera att eventuella tabeller eller diagram i artikeln kan återskapas av data och tillhörande dokumentation. I granskningen kan man ställa detta som en direkt fråga till forskaren: Kan resultaten i artikeln återskapas genom de datafiler och den dokumentation som delas?

Rekommendation: Om data delas via någon annan portal/aktör än SND, d.v.s. enbart metadata delas via SND:s forskningsdatakatalog, bör relevant dokumentation finnas hos den andra portalen/aktören eller tillsammans med datafilerna. SND:s PID-policy ska också uppfyllas.

Tips! SND:s forskningsdatakatalog kan även användas för att dela metadata där data redan finns publicerade på andra portaler, genom Åtkomst till data via extern aktör/portal. De här databeskrivningarna är svårare att granska utifrån aspekten att man kanske inte alltid har tillgång till datamaterialet (det kan finnas både fritt tillgängligt hos den andra portalen, men det kan också krävas en förfrågan för att ta del av data).
I enlighet med SND:s PID-policy krävs att sådan här data redan har tilldelats en PID, externt och i förväg (undantag kan göras för databaser eller andra typer av mer omfattande dataresurser).

Krav för kontroll av data

Krav: Det material som ska delas och/eller beskrivas ska vara forskningsdata. Med forskningsdata avses här digitalt material som kan ligga till grund för en vetenskaplig analys oavsett forskningsområde.

Tips! Med definitionen ovan menas att även data som inte primärt har samlats in för forskning kan delas i SND:s forskningsdatakatalog om materialet kan komma att användas för vetenskaplig analys (t.ex. långsiktiga miljöövervakningsdata).
Observera att materialet måste vara data - det måste kunna ligga till grund för forskning eller analys, snarare än att vara resultatet av en analys. Figurer och tabeller som innehåller kompletterande information för forskningsartiklar betraktas inte som data. Noterar att de numeriska data som ligger till grund för figurer i forskningsartiklar ska betraktas som forskningsdata.
Om material inte anses vara forskningsdata ska forskaren kontaktas och hänvisas till ett annat repositorie (t.ex. Zenodo).

Krav: Filer ska kontrolleras för virus.

Tips! Det är viktigt att bifogade filer inte innehåller virus. Det är att rekommendera att använda ett antivirusprogram för att automatiskt skanna av de filer som skickas in. Om du misstänker att data innehåller virus ska din IT avdelning kontaktas.

Krav: Filer ska finnas i lämpliga format för återanvändning och långtidsbevarande. Om data och/eller filformat är väldigt specifika för forskningsområdet och kräver särskild programvara (eventuellt också proprietär) för att öppnas och användas, kan det i undantagsfall vara tillräckligt att forskaren intygar filernas riktighet och vilka format som är lämpligast.

Tips! I första hand ska öppna och icke-proprietära filformat användas. Ta gärna hjälp av SND:s guider om olika datatyper för lämpliga format för långtidslagring. Ofta kan data som ursprungligen finns i något proprietärt format som kräver särskild programvara för att öppnas konverteras till ett filformat som är mer öppet format som mer lämpar sig för långtidslagring. Med hänsyn till återanvändning kan det vara bra att dela data i flera format, t.ex. både spss-fil och csv-fil.