Åtgärder

Uppfylla krav och rekommendationer

Från DAU-handboken

Här finns tips för hur dokumentet Krav och rekommendationer för data och metadata i SND:s forskningsdatakatalog kan uppfyllas. Punkterna för krav och rekommendationerna listas i samma ordning som i kravbeskrivningen, efter varje punkt följer ett tips eller förslag på hur kravet/rekommendationen kan uppfyllas.

Detta är en levande text som fylls på och omarbetas allt eftersom. Inspel från DAU-medarbetare tas tacksamt emot.

Krav för metadata och dokumentation

Krav: Obligatoriska metadatafält i DORIS:s formulär ska vara ifyllda och beskrivna så utförligt som möjligt för det aktuella fallet. Obligatoriska metadatafält ska också vara beskrivna på båda svenska och engelska, med undantag för fältet Titel.

Tips! De strukturerade metadatafält som finns i DORIS syftar främst till att göra data sökbara och ge grundläggande information om vad data innehåller och dess sammanhang. Obligatoriska metadatafält ska vara angivna innan posten publiceras i SND:s forskningsdatakatalog.
Vilka fält som är obligatoriska avgörs av vald metadataprofil i formuläret. Kontrollerade vokabulär och nyckelordslistor översätts automatiskt i DORIS medan fritextfält kräver manuell översättning. Översättningarna behöver inte vara exakta, men likvärdig information ska finnas på båda språken. Vid längre texter kan en hänvisning till den engelska katalogposten vara aktuellt, men en inledning bör finnas även på svenska.
Det är möjligt för både forskare och DAU att skicka vidare en databeskrivning utan att alla obligatoriska fält är ifyllda. På så sätt behöver inte arbetet stanna upp utan vi kan hjälpas åts med att ta fram rätt information innan publicering.
På sidan Kontroll av metadata finns information om vad som bör tänkas för specifika metadatafält.
Som rekommendation bör även icke-obligatoriska metadatafält vara ifyllda i så stor utsträckning som möjligt.

Krav: Metadata ska innehålla länkar/referenser till artiklar och/eller andra publikationer, i den mån det finns.

Tips! Hänvisningar till publikationer som är kopplade till data beskrivs i avsnittet Publikationer och relationer i DORIS. Viktigaste är att ange referenser till publikationer som beskriver data och hur de är framtagna, men det rekommenderas även att länka till publikationer som är baserade på datasetet.
Det är möjligt att i DORIS söka och hämta metadata för publikationer i SwePub. Det är obligatoriskt att ange titel och referens för publikationen, det som anges i fältet för referens är det som blir synligt i blivande katalogposten. Att ange årtal det gör möjligt att kunna filtrera på år i katalogposten, om det finns många publikationer. Ange gärna PID för publikationen, om det finns.

Krav: Externa länkar ska, i den mån det finns, vara av typen persistenta identifierare.

Tips! Länkar som leder till externa källor, exempelvis till publikationer, hemsidor eller relaterade resurser ska så långt som möjligt vara av typen persistenta länkar. De kan t.ex. vara av typen DOI, handle eller URN:er. Saknas persistent länk kan ex. vanlig URL användas. URL har dock inte samma garanti för långsiktighet då en webbadress kan flyttas, ändras eller tas bort. Om URL:er används kan de behöva kontrolleras kontinuerligt så att de fungerar.

Krav: Tillhörande dokumentation som är relevant för att förstå och återanvända det aktuella datasetet ska delas tillsammans med data och metadata. Information om materialets framtagande, bearbetning och sammanhang bör finnas med.

I de fall databeskrivningen omfattas av ett dataset som delas med avseende på en specifik artikel (eller annan publikation) kan kravet om tillhörande dokumentation frångås, villkorat att den aktuella artikeln/publikationen:

  • är öppen och fritt tillgänglig
  • är länkad till i databeskrivningen med en persistent identifierare (PID)
  • innehåller all information som krävs för att data ska gå att förstå och återanvända, så att resultat ska kunna återskapas oberoende andra resurser.
Tips! Tillhörande dokumentation är mycket viktigt för att data ska återanvändas för ny forskning, för att kunna validera forskning och för att forskningen ska kunna förstås. Med tillhörande dokumentation avses här information i löpande text som inte ryms i de strukturerade metadatafälten och som bifogas data.
Att definiera vad som är tillräcklig dokumentation för återanvändning är beroende av bland annat forskningsområde, typ av data och det specifika forskningsprojektet. Det krävs ofta en bedömning i varje enskilt fall.
Relevant information kan t.ex. sammanfattas i en readme-fil. Här är ett exempel på utformning av en readme-fil, framtagen av Cornell University.
Om en artikel ska ersätta delar av tillhörande dokumentation är det viktigt att det i artikeln finns information om bland annat metod och insamling. Tänk på att variabel- och kodlistor som förklarar själva datafilerna oftast inte finns med i den vetenskapliga artikeln, eller i dess supplementary materials, så detta behöver delas tillsammans med datafilerna.
Ibland behöver data finnas tillgängliga innan en artikel publiceras. I undantagsfall kan man därför behöva publicera databeskrivningen utan länk till artikeln. Rekommendationen är då att ange artikelns titel i DORIS följt av “under review” och uppdatera databeskrivningen med länk till artikeln så snart det finns.

Rekommendationer för metadata och dokumentation

Rekommendation: Ej obligatoriska men för forskningsområdet viktiga metadatafält bör vara beskrivna i så stor utsträckning som möjligt.

Tips! Det är bra om det finns så mycket information som möjligt om ett datamaterial då det både ökar förståbarheten och sökbarheten. På så vis fler kan hitta materialet och sedan bedöma om data kan vara användbara för dem.
För att uppnå detta är det bra att försöka hjälpa forskarna så mycket som möjligt med att metadataberika. En del saker kan man enkelt lägga till själv som granskare, t.ex. ORCID och fler nyckelord. Om bra tillhörande dokumentation finns med kan man också oftast fylla på med information från dokumentationen om datainsamling, tidsperioder osv. Är det svårt att avgöra om det är rätt information, kan man ta fram förslag och skicka till forskaren.
Det är viktigt att dokumentera vilka ändringar som görs och det är viktigt att informera forskaren om vilka ändringar som är gjorda. Forskaren ska ge sitt godkännande till ändringarna, vilket sen kan noteras i anteckningsfältet i DORIS. I anteckningsfunktionen kan man t.ex. klistra in mailkonversationer med forskaren.
På den här sidan finns mer detaljerad information om olika metadatafält.

Rekommendation: Metadata och tillhörande dokumentation bör, i så hög grad som möjligt, vara förståbara för forskare från andra ämnesområden. För högt specialiserade material kan det vara rimligt att acceptera en snävare målgrupp för materialet (t.ex. genetiska data).

Tips! Huruvida den här rekommendationen kan uppnås påverkas i praktiken av hur mycket tid forskaren har för att ta fram dokumentation som är begriplig även för dem utanför området. Fältet Beskrivning bör innehålla information som på ett relativt enkelt sätt förklarar datas sammanhang, men variabellistor och readme-filer kan vara svårare att göra allmänt begripliga.
Datas omfattning kan också påverka huruvida mindre ämnesspecifik dokumentation är okej. Ett större och mer omfattande dataset från ett avslutat projekt kan vara mer relevant att beskriva för en bredare målgrupp än ett mindre och mer avgränsat dataset framtaget för en specifik artikel.

Rekommendation: Metadata för dataset som publiceras i samband med en specifik artikel bör vara beskrivna så att resultaten i artikeln kan replikeras.

Tips! Data som delas med syfte att kunna validera forskningsresultat bör vara beskrivna så utförligt att replikering är möjlig. Detta kan göras genom att exempelvis kontrollera att eventuella tabeller eller diagram i artikeln kan återskapas av data och tillhörande dokumentation. I granskningen kan man ställa detta som en direkt fråga till forskaren: Kan resultaten i artikeln återskapas genom de datafiler och den dokumentation som delas?

Rekommendation: Om data delas via någon annan portal/aktör än SND, d.v.s. enbart metadata delas via SND:s forskningsdatakatalog, bör relevant dokumentation finnas hos den andra portalen/aktören eller tillsammans med datafilerna. SND:s PID-policy ska också uppfyllas.

Tips! SND:s forskningsdatakatalog kan även användas för att dela metadata där data redan finns publicerade på en annan portal, genom tillgänglighetsnivån Åtkomst till data via extern aktör/portal. De här databeskrivningarna är svårare att granska utifrån aspekten att man kanske inte alltid har tillgång till datamaterialet (det kan finnas både fritt tillgängligt hos den andra portalen, men det kan också krävas en förfrågan för att ta del av data).
I enlighet med SND:s PID-policy krävs att sådan här data redan har tilldelats en PID, externt och i förväg (undantag kan göras för databaser eller andra typer av mer omfattande dataresurser).

Krav för kontroll av data

Krav: Det material som ska delas och/eller beskrivas ska vara forskningsdata. Med forskningsdata avses här digitalt material som kan ligga till grund för en vetenskaplig analys oavsett forskningsområde.

Tips! Med definitionen ovan menas att även data som inte primärt har samlats in för forskning kan delas i SND:s forskningsdatakatalog om materialet kan komma att användas för vetenskaplig analys (t.ex. långsiktiga miljöövervakningsdata).
Observera att materialet måste vara data - det måste kunna ligga till grund för forskning eller analys, snarare än att vara resultatet av en analys. Figurer och tabeller som innehåller kompletterande information för forskningsartiklar betraktas inte som data. Noterar att de numeriska data som ligger till grund för figurer i forskningsartiklar ska betraktas som forskningsdata.
Om material inte anses vara forskningsdata ska forskaren kontaktas och hänvisas till ett annat repositorie (t.ex. Zenodo).

Krav: Filer ska kontrolleras för virus.

Tips! Det är viktigt att bifogade filer inte innehåller virus. Det är att rekommendera att använda ett antivirusprogram för att automatiskt skanna av de filer som skickas in. Om du misstänker att data innehåller virus ska din IT avdelning kontaktas.

Krav: Filer ska finnas i lämpliga format för återanvändning och långtidsbevarande. Om data och/eller filformat är väldigt specifika för forskningsområdet och kräver särskild programvara (eventuellt också proprietär) för att öppnas och användas, kan det i undantagsfall vara tillräckligt att forskaren intygar filernas riktighet och vilka format som är lämpligast.

Tips! I första hand ska öppna och icke-proprietära filformat användas. Ta gärna hjälp av SND:s guider om olika datatyper för lämpliga format för långtidslagring. Ofta kan data som ursprungligen finns i något proprietärt format som kräver särskild programvara för att öppnas konverteras till ett filformat som är mer öppet format som mer lämpar sig för långtidslagring. Med hänsyn till återanvändning kan det vara bra att dela data i flera format, t.ex. både spss-fil och csv-fil.

Krav: Om särskild programvara krävs ska den medfölja data eller beskrivas på ett sådant sätt att den går att hitta. Programvarans namn och version ska framgå samt ytterligare information som är relevant för återanvändning.

Tips! Information om vilken programvara/mjukvara som behövs för att öppna och använda materialet kan med fördel bifogas databeskrivningen som en readme-fil. Finnas programvaran i en webbtjänst kan denna med fördel länkas till. Det är också fördelaktigt om informationen om särskild programvara finns beskrivet redan i katalogposten så att en återanvändare tidigt får så mycket information som möjligt om vad som krävs för att använda data.

Krav: Har kod eller script använts för att bearbeta eller tolka data ska det framgå och bifogas datafilerna. Information om eventuell programmeringsmiljö, version, och annat som kan vara relevant för återanvändning ska framgå.

Tips! Även information om vilken kod eller script som har använts för att bearbeta data kan med fördel beskrivas i en medföljande txt-fil. Kod/script kan delas via exempelvis GitHub.
Detta kan vara särskilt viktigt att ange om flera datakällor har använts, t.ex. registerdata.

Krav: Leveransen är komplett – den ska innehålla alla data som är avsedda för förmedling i det aktuella fallet.

Tips! Ofta finns information om vilka filer som ska ingå i leveransen i metadatafälten i formuläret under fältet beskrivning. Information om vad som ska ingå kan också finnas i bifogad dokumentation, t.ex. en kodlista eller readme-fil. Om du som granskare misstänker att några filer saknas bör du kontakta forskaren och fråga. Kontrollera också så att det är hela datafiler som har levererats, genom att exempelvis kontrollera att antal variabler eller individer/objekt i datafilen stämmer överens med metadata.
För större forskningsprojekt delas ofta bara en del av det allt datamaterial som produceras inom projektet, eller så delas materialet i omgångar. Så länge materialet går att återanvända kan du fortsätta processen med att publicera det, men forskaren kan alltid uppmuntras att publicera mer än vad som krävs av till exempel en tidskrift, i syfte att underlätta för sekundäranvändare och möjliggöra för nya forskningsfrågor.

Krav: Innehållet i datafilerna ska kontrolleras med avseende på innehåll av personuppgifter eller annan skyddsvärd information. Mer om kontroll för personuppgifter i avsnittet om Juridiska förutsättningar nedan.

Tips kommer...

Rekommendationer för kontroll av data

Rekommendation: Filer (inklusive eventuella mappar) bör vara namngivna på ett konsekvent och begripligt sätt. Detta är särskilt viktigt för omfattande material med många filer. Filnamn, innehåll och relationer mellan filer kan behöva förklaras i ett kompletterande textdokument.

Tips! Generellt har SND CARE inga särskilda krav på vilka namngivning av filer. Oftast brukar filnamnen vara de samma som forskaren har använt. Det man vanligen behöver kontrollera är att filnamnen är någotsånär självförklarande och att det finns en konsekvens i namngivningen när det rör sig om mer omfattande datamaterial. Det kan vara bra att tänka på att filnamnen syns i katalogposten.
Det är viktigt att åtanke att det kan finnas hänvisningar till filer i både tillhörande dokumentation och i strukturerad metadata. Om filnamn ändras bör man observant för detta. Det kan även finnas hänvisningar inne i själva datafilerna och om så är fallet bör man inte ändra filnamn, utan att noga stämma av med forskaren.
Alla ändringar som görs bör som vanligt stämmas av med forskaren och vid behov dokumenteras i anteckningsfältet i DORIS.
OBS! Variabelnamn och liknade inne i datafiler bör absolut inte ändras, om inte forskaren har varit delaktig i beslut om detta.

Rekommendation: Filerna bör vara rensade från ovidkommande information (t.ex. formateringar och exempelvariabler som inte används eller som saknar betydelse för forskningsresultatet). 

Tips! Formateringar inne i datafilen kan t.ex. ställa till problem vid konvertering till andra filformat och göra det svårare vid återanvändning av data genom exempelvis feltolkningar. Exempel på formateringar kan t.ex. vara: färgmarkeringar, formler, makron, infogat material som ex. bilder eller textrutor, i en excel-fil.
Om markeringar behöver finnas kvar i datafilen (ex. färgmarkeringar i textdata) är det viktigt att det finns förklarat vad de betyder/innebär.