Åtgärder

Vad ska göras tillgängligt?

Från DAU-handboken

När ni som personal i en DAU möter en forskare som vill arkivera sitt forskningsmaterial hos ert lärosäte och tillgängliggöra projektets forskningsdata i SND:s forskningsdatakatalog finns det information om vanliga frågor som uppstår på SND:s hemsida: Beskriv och lämna in data - vanliga frågor [hämtad 2019-02-13]

Beroende på vilka forskningsdata ett projekt producerat finns det olika typer av data som kan vara aktuella att tillgängliggöra.

  • Enkäter med frågor och svarsalternativ
  • Uppställning över hur svarsalternativ har kodats
  • Uppställningar över enkätsvar i olika mjukvaror (excel, SPSS, SAS osv)
  • Kommaseparerade data från t.ex. enkätsvar som kan matas in i olika programvara
  • Beskrivningar av aggregationer som gjorts av data för att få fram olika svar
  • Anteckningar och reflektioner som gjorts under analysprocessen
  • Fältanteckningar som gjorts vid insamling av data
  • Beskrivning av vilka verktyg som använts vid insamling av data
  • Beskrivning av hur verktyg kalibrerats
  • Loggböcker som använts vid laboratorieanalyser men också observationer inom olika forskningsområden. Det kan röra sig om allt från klimatforskning till pedagogisk forskning där observationer av klassrumsmiljö kan förekomma, reflektioner över iakttagna fenomen
  • Olika versioner av data som kan utgöras av rådata, bearbetade data
  • Modeller som använts för att bearbeta data eller genererats från data
  • Mjukvara som arbetats fram för att analysera data
  • Programkod eller skript som använts för dataanalys
  • Beskrivning av metoder som använts vid dataanalys och bearbetning
  • Arbetsflöde och process under projektets gång
  • Rensning av data
  • Konvertering mellan olika mätskalor
  • Mätdata m.m.

I SND:s formulär för överlämnande av data finns det olika flikar för forskningsdata och för dokumentation och stödmaterial. En forskare kan behöva resonera kring vad som är vad och hur mycket av materialet som behöver tillgängliggöras. Det är en avvägningsfråga där ni som forskarstöd kan ta hjälp av SND, men också över tid utveckla en fingertoppskänsla. Det kan också vara värt att tänka på att det som är aggregerad data för en forskare kan utgöra rådata för en annan.

Rådata, kalibrerade data, bearbetade data m.m.

När ett forskningsprojekt producerar mycket material kan det uppstå frågor om vilken del av materialet som ska publiceras. Och var hamnar allt det som inte är data? Här kan man råda forskaren att fundera över vilken roll som publikationen av forskningsdata spelar. Att publicera forskningsdata gör det möjligt för andra att återanvända dessa data i andra syften, samt att verifiera resultaten i en artikel genom att reproducera studiens databearbetning.

Man ska alltså publicera tillräckligt mycket data (och metadata och dokumentation) för att göra det möjligt att uppfylla de här båda syftena. Samtidigt ska de data som publiceras vara användbara, relevanta och i rimlig mängd, vilket man säkerställer genom kalibrering, gallring, omformatering och annan bearbetning.

Man kan också fundera över vilken nytta man har av att tillgängliggöra data från olika faser av ett forskningsprojekt. Räcker det med bearbetade data eller finns det någon nytta i att publicera rådata, data från olika faser i projektet osv?

Publicera data från olika delar av forskningsprojektets gång

I vissa fall är det viktigt att en studies hela arbetsflöde som ledde till det slutliga materialet ska kunna förstås av andra. I det här fallet kan det vara viktigt för forskaren att publicera data från olika faser av projektet. Till exempel: råa temperaturmätningar, kalibrerade mätningar och den resulterande temperaturmodellen som skapades av dessa mätningar.

Det är däremot viktigt att inte "överpublicera", utan bara publicera de mest nödvändiga stegen i processen, så att den kan återskapas. Data från steg som lätt kan återskapas av andra behöver inte följa med.

Exempel: Om man vill publicera spatiala data där man har gått in och rensat eller ändrat värden för hand så kan det i vissa (obs! inte alla) fall vara önskvärt att publicera en tidigare version av datamaterialet. Har man istället temperaturdata där den enda bearbetningen var att konvertera Celsius till Kelvin så är det inte lika viktigt att båda versionerna publiceras.

I många fall är det däremot inte rimligt, eller ens önskvärt, att publicera data från olika faser i ett forskningsprojekt, och det räcker med att publicera den slutliga versionen för att uppfylla kraven på publiceringen av en artikel.

Dokumentation och stödmaterial

En fråga som kan uppstå är var gränsen mellan forskningsdata och kringmaterial går. En tumregel är att den dokumentation som behövs för att en annan forskare ska kunna förstå forskningsdata är viktiga att tillgängliggöra. Att en del av materialet som produceras under ett forskningsprojekt inte räknas som data betyder inte att man måste avstå från att publicera det. Om materialet bedöms vara till hjälp med att verifiera eller återanvända de data som publiceras kan det tillgängliggöras som dokumentation. Ett vanligt krav vi ställer på forskare är att de ska lämna in ett dokument med förklaringar till alla variabler/kolumner i ett dataset. Förklaringarna publiceras tillsammans med datamaterialet.

Ett exempel: En forskare vill publicera tabulära data. Forskaren har använt sig av programkod för att implementera en algoritm som omvandlar data till lättolkade tabeller som har publicerats i en bifogad artikel. Även om koden inte räknas som data i det här fallet kan den publiceras vid sidan av datamaterialet i samma katalogpost.