Åtgärder

Skillnad mellan versioner av "Kontroll av data"

Från DAU-handboken

(Skapade sidan med '== Överlämning av data == Så fort datamaterial lämnas till DAU genom Mitt SND blir det möjligt att ladda ner datamaterialet för kontroll. Storleksgränsen på datamater...')
 
 
(109 mellanliggande versioner av 10 användare visas inte)
Rad 1: Rad 1:
== Överlämning av data ==
== Överlämning av data ==


Så fort datamaterial lämnas till DAU genom Mitt SND blir det möjligt att ladda ner datamaterialet för kontroll. Storleksgränsen datamaterial som lämnas in på det här sättet är just nu på 100Mb, men kommer utökas. Det innebär att för närvarande måste större datamängderlämnas in till DAU:en på ett annat sätt, till exempel via extern hårddisk. I takt med att varje DAU tillämpar egna lagringslösningar kommer denna gräns höjas och andra lösningar för större material kan komma på plats.
Så fort en forskare har laddat upp ett datamaterial i DORIS formulär kan DAU ladda ner filerna för kontroll. Storleksgränsen för datamaterial som laddas upp i formuläret är i dagsläget 500 MB per uppladdad fil. Större filer laddas upp till SND via STFP-konto.
Kontroll av data


Det är viktigt att forskningsdata som förmedlas genom SND:s forskningsdatakatalog kan förstås och återanvändas av andra. För att garantera detta behöver ett antal åtgärder som redovisas nedan genomföras.
==Checklista för kontroll av data==
Du hittar [[Checklista: kontroll av data]] här.


Forskningsdata som laddas ned eller förmedlas via SND:s forskningsdataportal ska ha genomgått följande kontroller:
Här finns sidor om olika typer av data: [[Datatyper]]


== Kontroll av data ==
Det är viktigt att forskningsdata som tillgängliggörs genom SND:s forskningsdataportal kan förstås och återanvändas av andra. Forskningsdata som laddas ner eller förmedlas via forskningsdataportalen ska därför ha genomgått följande kontroller:
      
      
* Kontroll att leveransen är komplett: Leveransen innehåller alla data avsedda för förmedling tillsammans med dokumentation som är nödvändig för återanvändning.
* '''Kontroll av att leveransen är komplett''': Leveransen innehåller alla data som är tänkta att förmedlas tillsammans med den dokumentation som behövs för att data ska kunna återanvändas.
* Viruskontroll: Levererade filer innehåller inga virus.
* '''Viruskontroll''': Levererade filer innehåller inte virus.
* Kontroll av läsbarhet: Levererade filer går att öppna och läsa.
* '''Kontroll av läsbarhet''': Levererade filer går att öppna och läsa.
* Filerna är i ett lämpligt format för återanvändning och tillgängliggörande.
* '''Filerna är i ett lämpligt format''' för återanvändning och tillgängliggörande. Filer som inte har lämpligt format kan konverteras till ett mer lämpligt format. (lägg in länk till hemsidan ang filformat)
* Originalversionen av data finns sparad på en säker lagringsyta.
* '''Originalversionen av data finns sparad''' på en säker lagringsyta.


Rent praktiskt kan man göra så här:
== Rent praktiskt kan du göra så här: ==


# Öppna studien via SND:s gränssnitt
===1. Ladda ner beskrivna data===
# Ladda ner filer och kontrollera om:
Om forskaren skickade in sina data via DORIS kan du öppna databeskrivningen i [https://doris.snd.gu.se/ DORIS] och ladda ner filerna. Filerna hamnar också automatiskt DAU:ens lagringsyta, om det finns en egen lagringsyta kopplad till DORIS. Om forskaren lämnade in data något annat sätt ska datamaterialet laddas upp lagringsytan.<br>
       
Saknas lärosätesspecifik lagring kopplad till DORIS så lagras filerna tillsvidare på SND:s lagringsyta.<br>
      * Kompletthet, förståbarhet, dokumentation. Är datasetet tillräckligt komplett för att det ska vara möjligt att förstå vad det innefattar?
      * Alla filer går att öppna. Är det för många filer kan man göra ett urval. Öppna gärna alla olika filtyper. En annan lösning kan vara att skriva en script som testar att alla filer i en mapp går att öppna. Denna lösning är dock lämpligast när alla filer delar samma eller några få filformat, och kan vara olika svår att genomföra beroende på filformatet.
*        Finns alla nödvändiga filer? Information om kompletthet kan fås från metadata om datasetet och dokumentationen. Ofta deponeras bara en del av datamaterialet som producerades under forskningsprojektet. Så länge
*        materialet går att återanvända kan man fortsätta processen med att publicera det, men forskaren kan alltid uppmanas att publicera mer än vad som krävs av till exempel tidskriften i syfte att ge data mer rättvisa och underlätta för sekundäranvändare.
*        Finns det tillräckligt med metadata för att kunna publicera materialet? Minimikraven för publicering av metadata SND:s forskningsdatakatalog uppfylls automatiskt genom att obligatoriska fält är ifyllda, men det är upp till varje DAU att se om det behövs mer metadata. Även om det går att publicera datamaterialet med befintliga metadata kan det vara värt att be forskaren komplettera fält som anses vara viktiga för återanvändning. Ibland kan metadata kompletteras från dokumentationen men det beror arbetssättet och arbetsmängd DAU:en - Hur mycket förväntas forskaren göra vs hur mycket förväntas DAU:en göra.
*        Finns det tillräcklig dokumentation? Vad som är tillräcklig information kan skilja sig åt mellan olika ämnesområden. Inom arkeologi kan lämplig dokumentation vara en artikel, en undersökningsrapport eller annat material som ger kontext till datamaterialet och som beskriver metodiken bakom datainsamlandet/skapandet. Det är viktigt att det finns dokumentation som beskriver innehållet av datamaterialet - t.ex. fältbeskrivningar om det finns tabulära data, beskrivningar av fotografier, osv. I de fall data består av enkätundersökningar eller intervjuer är det av stort värde att de questionnaire som har använts och ligger till grund för ingående variabler i datasetet finns tillgängliga.
*        Data som laddas upp via Mitt SND kontrolleras för virus automatiskt.


Kontroll av läsbarhet
===2. Kontrollera data ===
Man kontrollerar data för att säkerställa att levererad data går att förstå och kan återanvändas av sekundäranvändare. Några frågor att ställa sig kan vara: Är datasetet tillräckligt komplett för att det ska vara möjligt att förstå vad det innehåller? Är det sannolikt att en sekundärforskare kan återanvända materialet?


Forskningsmaterial som deponeras vid SND ska lagras på sådant sätt att framtida användning möjliggörs. Detta innebär att åtgärder görs på flera plan. Bitstream: Läsbarhet – att lagringsmedium är kompatibel med gällande hårdvara eller migreras vid behov. Filnivå: Format – att teckentabeller, komprimeringsalgoritmer och binärkod är läsbar och begriplig, samt att formatet är kompatibelt med operativsystemet Representation: Att den samling filer som tillsammans utgör en för oss användare begriplig enhet bevaras, exv. innehållsbeskrivning (t.ex. webbsida, foto, text).
Varje datamaterial är unikt, den här bedömningen måste ske från fall till fall.
Kontroll av förstårbarhet


Förutom rådata är det nödvändigt att den dokumentation som genererats under en forskningsprocess, och som är nödvändig för att i framtiden kunna förstå forskningsmaterialet, levereras tillsammans med data. Exempel på dokumentation är kodböcker, frågeformulär, publikationer, undersökningsrapporter och tekniska rapporter.
==== Finns alla nödvändiga filer? ====
Information om att leveransen är komplett kan fås från metadata om datasetet och tillhörande dokumentation.
Ibland kan det vara svårt att avgöra från befintliga metadata i formuläret om allt finns inskickat. Ett dataset kan innehålla flera datafiler och om detaljer om vad som ingår i datapaketet saknas vid överlämnandet så måste man kontakta forskaren för bekräftelse och/eller förklaring om de olika dataseten och tillhörande dokumentation. Vid kontakt med forskare är det bra att uppmuntra till att beskriva innehållet av datamaterialet och dokumentationen så noggrant som möjligt.
 
Ofta överlämnas bara en del av det datamaterial som produceras under forskningsprojekt. Så länge materialet går att återanvända kan du fortsätta processen med att publicera det, men forskaren kan alltid uppmuntras att publicera mer än vad som krävs av till exempel en tidskrift, i syfte att underlätta för sekundäranvändare och möjliggöra för nya forskningsfrågor. Har forskaren laddat upp all data som hör till projektet/studien, eller tänker hen ladda upp flera dataset i framtiden? Det kan vara värt att förklara för forskaren att det går att skapa flera dataset under samma beskrivning. Risken finns att flera databeskrivningar skapas med överlappande datainnehåll.


Notera att kravet är att data måste finnas lagrade på en säker lagringsyta. Däremot föreligger inget krav från SND på någon särskild lagringslösning, eftersom ansvaret för lagring ligger på respektive lärosäte. Observera att för certifiering finns det särskilda krav lagringslösningar och strukturer vilka SND kan rådge kring om så önskas.
==== Går filerna att öppna? ====
Om studien innehåller väldigt många filer kan du göra ett urval, men se gärna till att öppna några filer av varje filtyp.
 
=====Filformat för publicering av data och för långtidslagring=====
När data publiceras ska de vara i ett så öppet format som möjligt, för att göra det enkelt att ta del av data. Öppna filformat är en öppen standard, det vill säga:
 
# formatet baseras på en öppen standard
# är oberoende av plattform/en specifik programvara
# är öppet dokumenterat, och
# underhålls av en oberoende organisation. <br>
 
 
Många filformat är låsta till olika grad. Några är väldokumenterade och plattform-oberoende, men underhålls av en privat aktör. Andra är helt låsta till en plattform (oftast programvaror som formatets ägare ger ut). Några format är öppna, men är så dåligt dokumenterade att de inte riktigt räknas som öppna. <br>
Det är alltid bäst att data i öppna format som lätt kan användas av andra. Om inte detta är fallet kan man be forskaren konvertera till något mer öppet, om det går. Ibland går det inte att konvertera inkomna data, grund av krångliga format. I dessa fall är det ett val mellan att publicera data i ett krångligt format som bara kan användas av andra experter eller att inte alls publicera.<br>
I vissa fall kan man få data i format som inte är det mest öppna formatet, men som är en de facto standard, dvs. formatet används av och stöd av de flesta aktörerna inom forskningsområdet. I dessa fall får man avväga för- och nackdelarna med att konvertera till ett mer öppet format för publicering.<br>
Alla frågor som ställs för publiceringsformat är också relevanta för format för långtidslagring. Här kan man också föredra text-baserade format för att göra det enklare för framtida användare att läsa in data. Riksarkivet föreslår ett antal [https://riksarkivet.se/medium-och-formatval#Allm%C3%A4nna kriterier för arkivbeständiga format], och dataformat som uppfyller dessa kriterier kan anses också vara lämpliga för långtidsbevarande.<br>
SND har publicerat en generell lista över rekommenderade filformat för överlämning av data: https://snd.gu.se/sv/filformat
Läs våra best practice guider för mer information om format och hantering av olika typer av data: https://snd.gu.se/sv/datahantering/guider
 
=====Filnamn och mapp- eller databasstruktur=====
Förutom att kunna öppna filer behöver man också kunna förstå vad filerna innehåller och kunna navigera i mappstrukturen eller databasen om en sådan finns. Räcker nuvarande filnamn för att kunna förstå deras innehåll? Finns det en mappstruktur, och i så fall, går den att navigera och förstå? I båda fall kan informationen vara en del i en dokumentationsfil, eller även finnas i fil- och mapp-namnen.
 
==== Finns det tillräckligt med metadata för att kunna publicera och återanvända materialet?====
Minimikraven av metadata för publicering i SND:s forskningsdataportal uppfylls automatiskt om alla obligatoriska fält i databeskrivningen fylls i, men det är upp till dig att avgöra om det behövs mer metadata. För även om det går att publicera datamaterialet med endast obligatoriska metadata, så kan det vara värt att be forskaren komplettera databeskrivningen så att det blir lättare för en sekundäranvändare att hitta studien och förstå dess innehåll. Ibland kan du komplettera med metadata från tillhörande dokumentation, men kom ihåg att det som kan innebära en stor arbetsinsats för dig kanske inte är särskilt svårt eller tidskrävande för forskaren, eller vice versa (ibland går det enklast och snabbast att själv komplettera studiebeskrivningen).
 
<span id="dokumentation"></span>
 
==== Finns det tillräcklig dokumentation?====
Vad som är tillräckligt dokumentation varierar från fall till fall och kan t.ex. skilja sig åt mellan olika ämnesområden och typer av data. Dokumentationen är ofta nödvändig för att en sekundäranvändare ska kunna förstå forskningsmaterialet. Exempel dokumentation är kodböcker, frågeformulär, publikationer, undersökningsrapporter och tekniska rapporter, beskrivningar av fotografier.
 
En viktig del av dokumentationen är ofta den tillhörande artikel eller rapport som publiceras i samband med publikationen av data. Man kan räkna artikeln som en del av dokumentationen om den på något sätt förklarar datamaterialets innehåll. '''Det är dock viktigt att artikeln går att nå, det vill säga att den finns öppet tillgänglig'''. Är artikeln hos ett förlag som kräver prenumeration behöver de delar från artikeln som beskriver data sparas ner tillsammans med datafilerna.
 
Lär mer om tillhörande dokumentation [[Dokumentation|här]].

Nuvarande version från 25 augusti 2023 kl. 12.20

Överlämning av data

Så fort en forskare har laddat upp ett datamaterial i DORIS formulär kan DAU ladda ner filerna för kontroll. Storleksgränsen för datamaterial som laddas upp i formuläret är i dagsläget 500 MB per uppladdad fil. Större filer laddas upp till SND via STFP-konto.

Checklista för kontroll av data

Du hittar Checklista: kontroll av data här.

Här finns sidor om olika typer av data: Datatyper

Kontroll av data

Det är viktigt att forskningsdata som tillgängliggörs genom SND:s forskningsdataportal kan förstås och återanvändas av andra. Forskningsdata som laddas ner eller förmedlas via forskningsdataportalen ska därför ha genomgått följande kontroller:

  • Kontroll av att leveransen är komplett: Leveransen innehåller alla data som är tänkta att förmedlas tillsammans med den dokumentation som behövs för att data ska kunna återanvändas.
  • Viruskontroll: Levererade filer innehåller inte virus.
  • Kontroll av läsbarhet: Levererade filer går att öppna och läsa.
  • Filerna är i ett lämpligt format för återanvändning och tillgängliggörande. Filer som inte har lämpligt format kan konverteras till ett mer lämpligt format. (lägg in länk till hemsidan ang filformat)
  • Originalversionen av data finns sparad på en säker lagringsyta.

Rent praktiskt kan du göra så här:

1. Ladda ner beskrivna data

Om forskaren skickade in sina data via DORIS kan du öppna databeskrivningen i DORIS och ladda ner filerna. Filerna hamnar också automatiskt på DAU:ens lagringsyta, om det finns en egen lagringsyta kopplad till DORIS. Om forskaren lämnade in data på något annat sätt ska datamaterialet laddas upp på lagringsytan.
Saknas lärosätesspecifik lagring kopplad till DORIS så lagras filerna tillsvidare på SND:s lagringsyta.

2. Kontrollera data

Man kontrollerar data för att säkerställa att levererad data går att förstå och kan återanvändas av sekundäranvändare. Några frågor att ställa sig kan vara: Är datasetet tillräckligt komplett för att det ska vara möjligt att förstå vad det innehåller? Är det sannolikt att en sekundärforskare kan återanvända materialet?

Varje datamaterial är unikt, så den här bedömningen måste ske från fall till fall.

Finns alla nödvändiga filer?

Information om att leveransen är komplett kan fås från metadata om datasetet och tillhörande dokumentation.

Ibland kan det vara svårt att avgöra från befintliga metadata i formuläret om allt finns inskickat. Ett dataset kan innehålla flera datafiler och om detaljer om vad som ingår i datapaketet saknas vid överlämnandet så måste man kontakta forskaren för bekräftelse och/eller förklaring om de olika dataseten och tillhörande dokumentation. Vid kontakt med forskare är det bra att uppmuntra till att beskriva innehållet av datamaterialet och dokumentationen så noggrant som möjligt.

Ofta överlämnas bara en del av det datamaterial som produceras under forskningsprojekt. Så länge materialet går att återanvända kan du fortsätta processen med att publicera det, men forskaren kan alltid uppmuntras att publicera mer än vad som krävs av till exempel en tidskrift, i syfte att underlätta för sekundäranvändare och möjliggöra för nya forskningsfrågor. Har forskaren laddat upp all data som hör till projektet/studien, eller tänker hen ladda upp flera dataset i framtiden? Det kan vara värt att förklara för forskaren att det går att skapa flera dataset under samma beskrivning. Risken finns att flera databeskrivningar skapas med överlappande datainnehåll.

Går filerna att öppna?

Om studien innehåller väldigt många filer kan du göra ett urval, men se gärna till att öppna några filer av varje filtyp.

Filformat för publicering av data och för långtidslagring

När data publiceras ska de vara i ett så öppet format som möjligt, för att göra det enkelt att ta del av data. Öppna filformat är en öppen standard, det vill säga:

  1. formatet baseras på en öppen standard
  2. är oberoende av plattform/en specifik programvara
  3. är öppet dokumenterat, och
  4. underhålls av en oberoende organisation.


Många filformat är låsta till olika grad. Några är väldokumenterade och plattform-oberoende, men underhålls av en privat aktör. Andra är helt låsta till en plattform (oftast programvaror som formatets ägare ger ut). Några format är öppna, men är så dåligt dokumenterade att de inte riktigt räknas som öppna.
Det är alltid bäst att få data i öppna format som lätt kan användas av andra. Om inte detta är fallet kan man be forskaren konvertera till något mer öppet, om det går. Ibland går det inte att konvertera inkomna data, på grund av krångliga format. I dessa fall är det ett val mellan att publicera data i ett krångligt format som bara kan användas av andra experter eller att inte alls publicera.
I vissa fall kan man få data i format som inte är det mest öppna formatet, men som är en de facto standard, dvs. formatet används av och stöd av de flesta aktörerna inom forskningsområdet. I dessa fall får man avväga för- och nackdelarna med att konvertera till ett mer öppet format för publicering.
Alla frågor som ställs för publiceringsformat är också relevanta för format för långtidslagring. Här kan man också föredra text-baserade format för att göra det enklare för framtida användare att läsa in data. Riksarkivet föreslår ett antal kriterier för arkivbeständiga format, och dataformat som uppfyller dessa kriterier kan anses också vara lämpliga för långtidsbevarande.
SND har publicerat en generell lista över rekommenderade filformat för överlämning av data: https://snd.gu.se/sv/filformat Läs våra best practice guider för mer information om format och hantering av olika typer av data: https://snd.gu.se/sv/datahantering/guider

Filnamn och mapp- eller databasstruktur

Förutom att kunna öppna filer behöver man också kunna förstå vad filerna innehåller och kunna navigera i mappstrukturen eller databasen om en sådan finns. Räcker nuvarande filnamn för att kunna förstå deras innehåll? Finns det en mappstruktur, och i så fall, går den att navigera och förstå? I båda fall kan informationen vara en del i en dokumentationsfil, eller även finnas i fil- och mapp-namnen.

Finns det tillräckligt med metadata för att kunna publicera och återanvända materialet?

Minimikraven av metadata för publicering i SND:s forskningsdataportal uppfylls automatiskt om alla obligatoriska fält i databeskrivningen fylls i, men det är upp till dig att avgöra om det behövs mer metadata. För även om det går att publicera datamaterialet med endast obligatoriska metadata, så kan det vara värt att be forskaren komplettera databeskrivningen så att det blir lättare för en sekundäranvändare att hitta studien och förstå dess innehåll. Ibland kan du komplettera med metadata från tillhörande dokumentation, men kom ihåg att det som kan innebära en stor arbetsinsats för dig kanske inte är särskilt svårt eller tidskrävande för forskaren, eller vice versa (ibland går det enklast och snabbast att själv komplettera studiebeskrivningen).

Finns det tillräcklig dokumentation?

Vad som är tillräckligt dokumentation varierar från fall till fall och kan t.ex. skilja sig åt mellan olika ämnesområden och typer av data. Dokumentationen är ofta nödvändig för att en sekundäranvändare ska kunna förstå forskningsmaterialet. Exempel på dokumentation är kodböcker, frågeformulär, publikationer, undersökningsrapporter och tekniska rapporter, beskrivningar av fotografier.

En viktig del av dokumentationen är ofta den tillhörande artikel eller rapport som publiceras i samband med publikationen av data. Man kan räkna artikeln som en del av dokumentationen om den på något sätt förklarar datamaterialets innehåll. Det är dock viktigt att artikeln går att nå, det vill säga att den finns öppet tillgänglig. Är artikeln hos ett förlag som kräver prenumeration behöver de delar från artikeln som beskriver data sparas ner tillsammans med datafilerna.

Lär mer om tillhörande dokumentation här.