Åtgärder

Skillnad mellan versioner av "Vad ska göras tillgängligt?"

Från DAU-handboken

 
(28 mellanliggande versioner av 5 användare visas inte)
Rad 1: Rad 1:
'''Draft'''
== Vad ska laddas upp i SND:s webbformulär? ==
När en forskare hör av sig för att deponera sina data kan frågan om vilka data ska egentligen deponeras uppstå. Olika projekt kan producera väldigt olika data, men några generella riktlinjer gäller för de flesta, om inte alla, projekt:


=== Rådata, kalibrerade data, bearbetade data, mm. ===
Det finns information om vanliga frågor som uppstår på SND:s hemsida: [https://snd.gu.se/sv/beskriv-och-lamna-in-data/faq Beskriv och lämna in data - vanliga frågor] [hämtad 2019-02-13] som kan vara till hjälp i mötet med en forskare som vill tillgängliggöra forskningsdata i SND:s forskningsdatakatalog.
Forskningsdatas formen kan bero på olika faktorer, som forskningsområde, projektmål, osv. Olika saker kan räknas som forskningsdata beroende på forskningsprojektet, till exempel:
* Rådata
* Bearbetade data
* Mjukvaror
* Kod
* Algoritmer
* Modeller
* Metoder


Många beteckningar kan sättas på material som produceras i olika faser av ett forskningsprojekt, och frågan kan uppstå om vilken del av dessa material räknas som data, samt vilken del av det som kallas för data ska publiceras. Här ska man råda forskaren att fundera över rollerna publikation av forskningsdata spela. Att publicera forskningsdata möjliggör för andra att verifiera resultaten som presenteras i en artikel genom att reproducerbara dem. Att publicera forskningsdata gör det också möjligt för andra att återanvända data i andra syften.  
I SND:s webbformulär där forskare kan beskriva och ladda upp data så laddas forskningsdata upp under en flik (Data, insamling& åtkomst) och all tillhörande dokumentation laddas upp under en annan flik (Dokumentationsfiler). Formuläret är stort och svårt att överblicka så ibland laddar forskarna upp data på fel ställe. Det är inte hela världen, men då behöver DAU-medarbetare kontrollera att rätt filer ligger på rätt plats. Vad som är vad varierar från projekt till projekt och det går därför inte att säga vad den exakta skillnaden är. Det är en avvägningsfråga där ni som [[Stöd till forskare|forskarstöd]] är välkomna att ta hjälp av SND vid behov.


Samtidigt ska det data som publiceras vara användbart, genom skaplig kalibrering, gallring, omformatering och andra bearbetningsprocesser.
Generellt sett så kan man säga att forskningsdata är det digitala material som har samlats in eller skapats för att användas till vetenskapliga analyser. Forskningsdata kan bestå av:


Man fundera över vilken nytta man har av att tillgängliggöra data från olika faser av ett forskningsprojekt. Räcker det med bearbetade data, eller finns det nytta i att publicera rådata, data från olika faser i projektet, osv?
* Tabeller
* Ljudfiler och videofiler
* Mätdata av olika slag
* Resultat från experiment
* Observationer från fältarbete
* Bilder
* GIS-data
* Mer eller mindre komplexa databaser
* 3D-modeller (antingen färdiga modeller eller rådata som har använts för att generera en modell)
* Svar från enkätundersökningar
* Text (t.ex. transkriberingar av olika slag)
* Programkod
* M.m.


Ett exempel: ...
När ett forskningsprojekt producerar mycket material kan det uppstå frågor om vilken del av materialet som ska publiceras. Man ska alltså publicera tillräckligt mycket data (och metadata och dokumentation) för att andra ska kunna återanvända dessa data i andra syften, samt att verifiera resultaten i en artikel genom att reproducera studiens databearbetning. Samtidigt ska de data som publiceras vara användbara, relevanta och i rimlig mängd, vilket man säkerställer genom kalibrering, gallring, omformatering och annan bearbetning.  


Man kan också fundera över vilken nytta man har av att tillgängliggöra data från olika faser av ett forskningsprojekt. Räcker det med bearbetade data eller finns det någon nytta i att publicera rådata, data från olika faser projektet o.s.v.?  Det kan också vara värt att tänka på att det som är aggregerad data för en forskare kan utgöra rådata för en annan.
=== Publicera data från olika delar av forskningsprojektets gång===
I vissa fall är det viktigt att arbetsflöden som ledde till det slutliga materialet ska kunna förstås av andra. I dessa fall kan det vara viktigt för forskaren att publicera data från olika faser av projektet. Till exempel: råa temperaturmätningar, kalibrerade mätningar och den resulterande temperaturmodellen som skapades av dessa mätningar.
Det är däremot viktigt att bara publicera de mest nödvändiga stegen i processen, så att den kan återskapas. Data från steg som lätt kan återskapas av andra behöver inte följa med.
Exempel: Om man vill publicera [[spatiala data]] där man har gått in och rensat eller ändrat värden för hand så kan det i vissa (obs! inte alla) fall vara önskvärt att publicera en tidigare version av datamaterialet. Har man istället temperaturdata där den enda bearbetningen var att konvertera Celsius till Kelvin så är det inte lika viktigt att båda versionerna publiceras.
I många fall är det däremot inte rimligt, eller ens önskvärt, att publicera data från olika faser i ett forskningsprojekt, och det räcker med att publicera den slutliga versionen för att uppfylla kraven på publiceringen av en artikel.


=== Dokumentation och stödmaterial ===
=== Dokumentation och stödmaterial ===
Att en del av materialet som produceras under ett forskningsprojekt inte räknas som data betyder inte att man ska avstå från att publicera det. Om en del av eller hela materialet bedöms vara av hjälp för att verifiera eller återanvända de data som publiceras kan det också tillgängliggöras som dokumentation i samband med att själva data publiceras.


Ett exempel: En forskare vill publicera sina tabulära data. Forskaren har använt sig av kod för att implementera en algoritm för att omvandla sina data till lätt tolkade tabeller som publicerades i artikeln. Även om koden inte kan räknas som data kan den publiceras vid sidan av datamaterialet under samma katalogpost.
Var går gränsen mellan forskningsdata och kringmaterial? En tumregel är att den dokumentationen som behövs för att en annan forskare ska kunna förstå forskningsdata är viktig att tillgängliggöra.  
Dokumentationen kan bestå av:
 
* Kodböcker
* Frågeformulär
* Loggböcker
* Rapporter
* Beskrivningar av metoder som använts vid dataanalys och bearbetning
* Beskrivningar av hur data har kodats och rensats
* M.m.


=== Arbetsflödet ===
Om materialet bedöms vara ett stöd för att verifiera eller återanvända data kan det tillgängliggöras som dokumentation. Ett vanligt krav vi ställer på forskare är att de ska lämna in ett dokument med förklaringar till alla variabler/kolumner i ett dataset. Förklaringarna publiceras tillsammans med datamaterialet.  
I vissa fall är det viktigt att hela arbetsflödet som ledde till det slutliga materialet kan förstås av andra. I det fallet kan det vara viktigt för forskaren att deponera samma data fast från olika faser av projektet. Till exempel, råa temperaturmätningar, kalibrerade mätningar, och en resultaten från en temperaturmodell som använder dessa mätningar. I


ska man deponera allt eller bara tillräckligt för att kunna förstå arbetsflödet (är det väldigt månda steg som ger små skillnader i data och resulterar i stora mängder av data kan man kanske röja mellanstegen som inte är så viktiga)
Ett exempel: En forskare vill publicera tabulära data. Forskaren har använt sig av programkod för att implementera en algoritm som omvandlar data till lättolkade tabeller som har publicerats i en bifogad artikel. Även om koden inte räknas som data i det här fallet kan den publiceras vid sidan av datamaterialet i samma katalogpost.
Bara finaldata som krävs av artikeln?
Ladda upp viktig dokumentation så att datamaterialet kan återanvändas

Nuvarande version från 1 juni 2020 kl. 06.19

Vad ska laddas upp i SND:s webbformulär?

Det finns information om vanliga frågor som uppstår på SND:s hemsida: Beskriv och lämna in data - vanliga frågor [hämtad 2019-02-13] som kan vara till hjälp i mötet med en forskare som vill tillgängliggöra forskningsdata i SND:s forskningsdatakatalog.

I SND:s webbformulär där forskare kan beskriva och ladda upp data så laddas forskningsdata upp under en flik (Data, insamling& åtkomst) och all tillhörande dokumentation laddas upp under en annan flik (Dokumentationsfiler). Formuläret är stort och svårt att överblicka så ibland laddar forskarna upp data på fel ställe. Det är inte hela världen, men då behöver DAU-medarbetare kontrollera att rätt filer ligger på rätt plats. Vad som är vad varierar från projekt till projekt och det går därför inte att säga vad den exakta skillnaden är. Det är en avvägningsfråga där ni som forskarstöd är välkomna att ta hjälp av SND vid behov.

Generellt sett så kan man säga att forskningsdata är det digitala material som har samlats in eller skapats för att användas till vetenskapliga analyser. Forskningsdata kan bestå av:

  • Tabeller
  • Ljudfiler och videofiler
  • Mätdata av olika slag
  • Resultat från experiment
  • Observationer från fältarbete
  • Bilder
  • GIS-data
  • Mer eller mindre komplexa databaser
  • 3D-modeller (antingen färdiga modeller eller rådata som har använts för att generera en modell)
  • Svar från enkätundersökningar
  • Text (t.ex. transkriberingar av olika slag)
  • Programkod
  • M.m.

När ett forskningsprojekt producerar mycket material kan det uppstå frågor om vilken del av materialet som ska publiceras. Man ska alltså publicera tillräckligt mycket data (och metadata och dokumentation) för att andra ska kunna återanvända dessa data i andra syften, samt att verifiera resultaten i en artikel genom att reproducera studiens databearbetning. Samtidigt ska de data som publiceras vara användbara, relevanta och i rimlig mängd, vilket man säkerställer genom kalibrering, gallring, omformatering och annan bearbetning.

Man kan också fundera över vilken nytta man har av att tillgängliggöra data från olika faser av ett forskningsprojekt. Räcker det med bearbetade data eller finns det någon nytta i att publicera rådata, data från olika faser projektet o.s.v.? Det kan också vara värt att tänka på att det som är aggregerad data för en forskare kan utgöra rådata för en annan.


Publicera data från olika delar av forskningsprojektets gång

I vissa fall är det viktigt att arbetsflöden som ledde till det slutliga materialet ska kunna förstås av andra. I dessa fall kan det vara viktigt för forskaren att publicera data från olika faser av projektet. Till exempel: råa temperaturmätningar, kalibrerade mätningar och den resulterande temperaturmodellen som skapades av dessa mätningar.

Det är däremot viktigt att bara publicera de mest nödvändiga stegen i processen, så att den kan återskapas. Data från steg som lätt kan återskapas av andra behöver inte följa med.

Exempel: Om man vill publicera spatiala data där man har gått in och rensat eller ändrat värden för hand så kan det i vissa (obs! inte alla) fall vara önskvärt att publicera en tidigare version av datamaterialet. Har man istället temperaturdata där den enda bearbetningen var att konvertera Celsius till Kelvin så är det inte lika viktigt att båda versionerna publiceras.

I många fall är det däremot inte rimligt, eller ens önskvärt, att publicera data från olika faser i ett forskningsprojekt, och det räcker med att publicera den slutliga versionen för att uppfylla kraven på publiceringen av en artikel.

Dokumentation och stödmaterial

Var går gränsen mellan forskningsdata och kringmaterial? En tumregel är att den dokumentationen som behövs för att en annan forskare ska kunna förstå forskningsdata är viktig att tillgängliggöra. Dokumentationen kan bestå av:

  • Kodböcker
  • Frågeformulär
  • Loggböcker
  • Rapporter
  • Beskrivningar av metoder som använts vid dataanalys och bearbetning
  • Beskrivningar av hur data har kodats och rensats
  • M.m.

Om materialet bedöms vara ett stöd för att verifiera eller återanvända data kan det tillgängliggöras som dokumentation. Ett vanligt krav vi ställer på forskare är att de ska lämna in ett dokument med förklaringar till alla variabler/kolumner i ett dataset. Förklaringarna publiceras tillsammans med datamaterialet.

Ett exempel: En forskare vill publicera tabulära data. Forskaren har använt sig av programkod för att implementera en algoritm som omvandlar data till lättolkade tabeller som har publicerats i en bifogad artikel. Även om koden inte räknas som data i det här fallet kan den publiceras vid sidan av datamaterialet i samma katalogpost.