Åtgärder

Kontroll av data

Från DAU-handboken

Version från den 15 maj 2019 kl. 10.30 av Olof (diskussion | bidrag) (länkar till datatyper)

Överlämning av data

Så fort en forskare har lämnat över ett datamaterial till DAU genom Mitt SND blir det möjligt för DAU att ladda ner datamaterialet för kontroll. Storleksgränsen för datamaterial som lämnas in på det här sättet är i dagsläget 100 MB per uppladdad fil. Det innebär att större filer för närvarande måste lämnas in till DAU:en på andra sätt, t.ex. via en extern hårddisk eller Box-konto. I takt med att varje DAU tillämpar egna lagringslösningar kommer filstorleksgränsen att höjas och andra lösningar för större material kan komma på plats.

Notera att kravet är att data måste finnas lagrade på en säker lagringsyta. Däremot ställer SND inte krav på någon särskild lagringslösning eftersom ansvaret för lagring ligger på respektive lärosäte. För certifiering via CoreTrustSeal (se även Internationella samarbeten ) finns det däremot särskilda krav på lagringslösningar och strukturer, och vid önskemål kan SND ge information och råd om dessa lösningar.

Kontroll av data

Det är viktigt att forskningsdata som tillgängliggörs genom SND:s forskningsdataportal kan förstås och återanvändas av andra. Forskningsdata som laddas ner eller förmedlas via forskningsdataportalen ska därför ha genomgått följande kontroller:

  • Kontroll av att leveransen är komplett: Leveransen innehåller alla data som är tänkta att förmedlas tillsammans med den dokumentation som behövs för att data ska kunna återanvändas.
  • Viruskontroll: Levererade filer innehåller inte virus.
  • Kontroll av läsbarhet: Levererade filer går att öppna och läsa.
  • Filerna är i ett lämpligt format för återanvändning och tillgängliggörande. Filer som inte har lämpligt format kan konverteras till ett mer lämpligt format.
  • Originalversionen av data finns sparad på en säker lagringsyta.


Rent praktiskt kan du göra så här:

1. Ladda ner beskrivna data

Om forskaren skickade in sina data via Mitt SND kan du öppna studien via Mitt SND och ladda ner filerna (Se bild 1). Mer info om nuvarande mappstrukturen för data som laddas ner på det här sättet finns på Rutiner för lagring av deponerade data. Filerna hamnar också automatiskt på DAU:ens lagringsyta. Om forskaren lämnade in data på något annat sätt ska datamaterialet laddas upp på lagringsytan.

2. Kontrollera data

Man kontrollerar data för att säkerställa att levererad data går att förstå och kan återanvändas av sekundäranvändare. Några frågor att ställa sig kan vara: Är datasetet tillräckligt komplett för att det ska vara möjligt att förstå vad det innehåller? Är det sannolikt att en sekundärforskare kan återanvända materialet?

Varje datamaterial är unikt, så den här bedömningen måste ske från fall till fall.

Finns alla nödvändiga filer?

Information om att leveransen är komplett kan fås från metadata om datasetet och tillhörande dokumentation.

Ibland kan det vara svårt att avgöra från befintliga metadata i formuläret om allt finns inskickat. Ett dataset kan innehålla flera datafiler och om detaljer om vad som ingår i datapaketet saknas vid överlämnandet så måste man kontakta forskaren för bekräftelse och/eller förklaring om de olika dataseten och tillhörande dokumentation. Vid kontakten med forskarna ska DAU uppmuntra forskare att beskriva innehållet av datamaterialet och dokumentationen så noggrant som möjligt för att undvika misstag vid leveransen av alla nödvändiga filer.

Ett exempel: En forskargrupp lämnar in ett dataset med 6 stora tabulära (t.ex. SPSS, Stata eller Excel) filer. I beskrivningen står det inte tydligt hur många filer som ingår i leveransen och DAU:en även ser att några av dem har liknande namn och variabler vilket gör att hen misstänker att det handlar om samma filer och undrar vad skillnaden mellan dem är. Efter återkoppling med forskaren får DAU veta att datasetet är indelat i tre grupper (efter ämne) och varje av dessa tre grupper (dvs. tre datafiler) har ett duplikat där string variabler är borttagna eller omkodade.

Ofta överlämnas bara en del av det datamaterial som producerades under forskningsprojektet. Så länge materialet går att återanvända kan du fortsätta processen med att publicera det, men forskaren kan alltid uppmuntras att publicera mer än vad som krävs av till exempel för en tidskrift, i syfte att underlätta för sekundäranvändare. Har forskaren laddat upp allt data som hör till projektet/studien, eller tänker hen ladda upp flera dataset i framtiden? Det kan vara värt att förklara för forskaren att det går att skapa flera dataset under samma beskrivning. Risken finns att flera databeskrivningar skapas med överlappande datainnehåll.

Är leveransen fri från virus?

Tanken är att det ska finnas en centraliserad lösning för viruskontroll i framtiden, men tills dess behöver DAU:er lösa problemet med sina egna IT-avdelningar.

Går filerna att öppna?

Om studien innehåller väldigt många filer kan du göra ett urval, men se gärna till att öppna någon/några filer av varje filtyp.

Filformat för publicering av data och för långtidslagring

Behöver man ladda ner någon ny programvara för att kunna öppna filerna? När data publiceras ska det vara i ett så öppet format som möjligt, för att göra det lätt tillgängligt för både experter och allmänheten. Det är också viktigt att formatet är väldokumenterat och att det inte är låst till någon specifik programvara som kan kosta mycket pengar och kanske inte längre uppdateras efter ett par år. Man vill alltså gärna få in data i öppna filformat. Öppna filformat är en öppen standard, det vill säga:

  1. formatet baseras på en öppen standard
  2. är oberoende av plattform/en specifik programvara
  3. är öppet dokumenterat, och
  4. underhålls av en oberoende organisation.

Många filformat är låsta till olika grad. Några är väldokumenterade och plattform-oberoende, men underhålls av en privat aktör. Andra är helt låsta till en plattform (oftast programvaror som formatets ägare ger ut). Några format är öppna, men är så dåligt dokumenterade att de inte riktigt räknas som öppna. Det är alltid bäst att få data i öppna format som kan lätt användas av andra. Om inte detta är fallet kan man be forskaren konvertera till något mer öppet, om det går. Ibland går det inte att konvertera inkomna data, på grund av krångliga format. I dessa fall är det ett val mellan att publicera data i ett krångligt format som bara kan användas av andra experter eller att inte alls publicera. I vissa fall kan man få data i format som inte är det mest öppna formatet, men som är en de facto standard, dvs. formatet används av och stöd av de flesta aktörerna inom forskningsområdet. I dessa fall får man avväga för- och nackdelarna med att konvertera till ett mer öppet format för publicering. Det finns två anledningar till varför man vill att forskarna ska deponera i öppna format eller minst i de facto standarder. Den första, publicering av återanvändbara data som har diskuterats. Den andra är att data behöver även lagras i ett format som är lämpligt för långtidsbevaring. Alla frågor som ställs för publiceringsformat är också relevanta för format för långtidslagring. Här kan man också föredra text-baserade format för att göra det enklare för framtida användare att läsa in data. Riksarkivet föreslår ett antal kriterier för arkivbeständiga format, och dataformat som uppfyller dessa kriterier kan anses också vara lämpliga för långtidsbevarande. SND har publicerat en generell lista över rekommenderade filformat för överlämning av data: https://snd.gu.se/sv/filformat Läs våra best practice guider för mer information om format och hantering av olika typer av data: https://snd.gu.se/sv/datahantering/guider

Filnamn och mapp- eller databasstruktur

Att kunna öppna filer innebär också att man kan förstå vad filerna innehåller och att man kan navigera mappstrukturen eller databasen om en sådan finns. Räcker nuvarande filnamn för att kunna förstå deras innehåll? Finns det en mappstruktur, och i så fall, går den att navigera och förstå? I båda fall kan informationen vara en del av en dokumentationsfil, eller även finnas i fil- och mapp-namnen.

Finns det tillräckligt med metadata för att kunna publicera och återanvända materialet?

Minimikraven för publicering av metadata i SND:s forskningsdataportal uppfylls automatiskt om alla obligatoriska fält i databeskrivningen fylls i, men det är upp till dig att avgöra om det behövs mer metadata. För även om det går att publicera datamaterialet med endast obligatoriska metadata, så kan det vara värt att be forskaren komplettera databeskrivningen så att det blir lättare för en sekundäranvändare att hitta studien. Ibland kan du komplettera med metadata från tillhörande dokumentation, men kom ihåg att det som kan innebära en stor arbetsinsats för dig kanske inte är särskilt svårt eller tidskrävande för forskaren, eller vice versa (ibland går det enklast och snabbast att själv komplettera studiebeskrivningen).

Finns det tillräcklig dokumentation?

Vad som är tillräckligt kan skilja sig åt mellan olika ämnesområden och typer av data. Dokumentationen är ofta nödvändig för att en sekundäranvändare ska kunna förstå forskningsmaterialet. Exempel på dokumentation är kodböcker, frågeformulär, publikationer, undersökningsrapporter och tekniska rapporter, beskrivningar av fotografier.

Några exempel på vilken dokumentation skulle behövas för olika datatyper:

Tabelldata: Här är det viktigt att varje variabel/kolumn är tydligt beskriven. Ofta används förkortningar som header för varje kolumn i en tabelldatabas, och det är viktigt att dessa förkortningar förklaras med en kort beskrivning (det kan räcka med ett fullständigt alternativ till en förkortning som används som kolumn-header, t.ex. ’CORINE 2012 Land cover type code’ istället för ’COR_TYPE’). En annan sak man ska kolla är att varje variabel/kolumn är ifylld på samma sätt. T.ex. alla datum i en kolumn som heter 'date of sampling' ska ha samma format.
Bilder: En stor samling bilder kan behöva dokumenteras på olika sätt, och mycket dokumentation kan också räknas som metadata. Det är viktigt att bilderna har tydliga filnamn. Filnamnen kan t.ex. vara en beskrivning av bilden eller en kod som kan tolkas med hjälp av en kodlista. Om bilderna är uppdelade i olika mappar är det viktigt att mappstrukturen är tydlig och att varje mapp har namngetts på ett sätt som gör det enkelt att navigera och förstå innehållet i olika mappar. 
Texter:
Geospatiala data: Här förväntar man sig en förklaring av innehållet av de data som lämnas in. Dokumentationen kan finnas som en del av datamaterialet eller som separata textfiler. Det kan vara svårt att öppna spatiala data och kolla att all information finns för att kunna förstå datamaterialet, så det är viktigt att kommunicera med forskaren för att försäkra sig om att datamaterialet går att använda med dess befintliga dokumentation. Några saker man kan fråga om är:
# Finns det information om projektion och koordinatsystem?
# Finns det kolumndata som behöver tydligt beskrivas (spatiala data kan innehålla kolumndata)?

En viktig del av dokumentationen är ofta den tillhörande artikel eller rapport som publiceras i samband med publikationen av data. Man kan räkna artikeln som en del av dokumentationen om den på något sätt förklarar datamaterialets innehåll.