Filhantering hos SND
Från DAU-handboken
På den här sidan kan du läsa om arbetsgången för hantering av filer för inkomna databeskrivningar hos SND.
Under dataflödespiloten kopplades lärosätesspecifika ytor till SND:s system, och filhanteringen på dessa ytor har samma upplägg som för SND och bör hanteras enligt SND:s rutin. Gäller följande:
- Göteborgs universitet
- Högskolan i Borås
- Högskolan i Halmstad
- KTH
- Malmö universitet
- Polarforskningssekretariatet
- SLU
Det finns inte några fastställda rutiner för hur dessa processer ska se ut när de mer permamenta lagringslösningarna finns på plats.
Mappstruktur för inkomna databeskrivningar
Databeskrivningar och de filer som kommer in via DORIS läggs i en automatiskt skapad mappstruktur. De DAU:er som har egna ytor kvar sedan dataflödespiloten behöver kunna hantera mappstrukturen för att kunna skicka vidare kurerade data till SND.
Grunden utgörs av tre huvudmappar: Bearbetning, Staging och Distribution.
Bearbetning: Har en direktkoppling till formuläret och för varje ny databeskrivning som skapas i tillkommer här en mapp med databeskrivningens ID (den orangea mappen i bilen). Det är här som det manuella arbetet med att granska data, konvertera filformat och förbereda filer för tillgängliggörande sker.
Staging: När en databeskrivning publiceras i SND-katalogen flyttas automatiskt hela filpaketet till Staging-ytan. I SND-kontorets rutiner ingår att data långtidslagras på en särskild yta avsedd för just långtidslagring det och när filpaketen hamnar på Staging är de redo att manuellt flyttas till ”SND-arkivet”.
Distribution: Den delen av lagringen som har en direktkoppling till SND-katalogen. Här finns de filer/delar av databeskrivningens filpaket som ska vara direkt tillgängligt i katalogen, både datafiler och dokumentationsfiler.
Bilden nedan visar SND:s mappstruktur (utan detaljerade undermappar).
Inkommande data
För alla påbörjade databeskrivningar i DORIS skapas en mapp med databeskrivningens ID (se mappstrukturen i bilden ovan).
När filer laddas upp i formuläret hamnar de i mappen original (se bild nedanför). Datafiler och annat som laddas upp under avsnitt 5 i formuläret lägga i mappen datasets, innehåller databeskrivningen flera dataset skapas flera undermappar efter antalet dataset (i bilden mapparna 1 och 2). För första versionen av data skapas också undermappen V1. Filer som laddas upp under avsnitt 7 läggs i documents.
Det avtal som signeras i samband med att databeskrivningen skickas in till SND läggs automatiskt i mappen internal (se mappstrukturen i bilden ovan).
I mappen metadata läggs metadatafiler i json-format.
Under granskning
När datafilerna granskas och färdigställs för tillgängliggörande behövs en del manuellt arbete.
Undermapparna för dataset och version (i bilden mapparna 1, 2 och V1, V2) behöver skapas manuellt. Datafiler ska ligga i motsvarande mapp under datasets.
Ett tips är att kopiera hela paketet från original.
Vad gäller dokumentationsfiler ska de ligga på olika ställen beroende på typ av fil:
- filer som ska förmedlas tillsammans med datafiler ska finnas i versionsmappen under datasets
- filer som ska synas publikt i katalogposten (under rubriken Tillhörande dokumentation) ska ligga i mappen public_document
- filer som enbart är av intern karaktär, ex. avtal, mailkonversationer, juridiska underlag, ska ligga i mappen internal.
Det här innebär att samma fil kan ligga på två ställen, t.ex. både i datasets och i public_documents. Det innebär också att man behöver ta hänsyn till tillgänglighetsnivå för data när man planerar för dokumentationsfilerna.
Exempel 1: Data är tillgängliga via beställning. Datafilerna och den tillhörande dokumentationen läggs tillsammans i mappen dataset, för att lämnas ut tillsammans vid en beställning. En del tillhörande dokumentation kan öka förståbarheten av datas innehåll redan innan man har tillgång till datafilerna, ex. variabellista, kodbok, frågeformulär och metodbeskrivning. Dessa filer bör då också finnas i mappen public_documents så att de är nåbara direkt i katalogen.
Exempel 2: Data är direkt nerladdningsbara i katalogen. Datafilerna och tillhörande dokumentation läggs tillsammans i mappen dataset. För den här tillgänglighetsnivån blir allt innehåll datasetsmappen synlig i katalogposten. Därför behöver inte dokumentationsfilerna läggas även i public_documents, det skulle bara innebära att det finns dubbletter av dokumenten/filerna i katalogposten.
Filformat för långtidslagring
I samband med granskning av data ingår att se till att data och dokumentationsfiler finns i format som lämpar sig för långtidslagring. Alla filer i versionsmappen under datasets bör finnas i ett sådant format, så långt det är möjligt.
Dokumentationsfiler är lämpliga att spara som PDF/A eller som .txt, vilket lämpliga format för både tillgängliggörande och långtidslagring.
För datafiler kan det vara aktuellt att dela och spara filerna i flera olika format, då olika format kan täcka olika behov. Varje fil bör finnas i ett eller flera format som lämpar sig för förmedling/återanvändning och för långtidslagring. Det kan innebära att det i vissa fall finns data i flera olika format och i vissa fall enbart i ett format (beroende på typ av data osv). Exempelvis kan data för en enkätundersökning sparas både som .csv-fil och som .spss-fil, där .csv-filen täcker båda behoven för långtidsbevarande och förmedling (tillsammans med kodbok), medan .spss-filen täcker behovet av en lättanvänd förmedlingsfil. Ett annat exempel är bildfiler som endast sparas i .png, då det var formatet de levererades i, vilket täcker behoven för långtidslagring.
Vilket eller vilka format data ska finnas i behöver alltså avgöras från fall till fall.
Filnamn
Det är viktigt med tydliga filnamn. Filnamnen som är skapade av forskaren bör behållas så långt det är möjligt, då de eventuellt används för att hänvisa till data. Stäm gärna av med forskaren om det finns ett behov av att byta till ett tydligare filnamn.
Om samma fil finns på flera språk ange gärna språk i filnamnet (ex. questionnarie2018_swe.pdf och questionnarie2018_eng.pdf).
Det är viktigt att arbetet med datafiler görs klart innan man går vidare med publicering av databeskrivningen.
Publicera databeskrivning
När databeskrivningen publiceras i SND-katalogen flyttas hela databeskrivningens mappaket (automatiskt) från Bearbetning till Staging.
Detta visar att datapaketet är redo för långtidslagring i SND-arkivet (manuell process att flytta filer dit).
Till mappen Distribution kopieras automatiskt den senaste versionen av varje dataset samt de filer som ligger i public_documents. Det är ytan under Distribution som har kontakt med SND-katalogen.
Uppdatering av publicerad databeskrivning
När en publicerad databeskrivnings sätts under redigering för att uppdateras skapas en ny tom mappstruktur med databeskrivningens ID under Bearbetning.
De nya filerna läggs i mapparna V2 och i documents.
Granskning av uppdaterad databeskrivning
Datahanteringen för granskningsprocessen vad gäller uppdateringar av publicerade databeskrivningar kräver samma manuella process som för nya databeskrivningar.
Filerna flyttas manuellt till relevant mapp. Sedan tidigare finns mappen V1 under datasets så där fyller man på med även V2.
Som tidigare så visas alla filer som ligger i public_documents upp i katalogen i samband med publicering. Därför behöver man här kontrollera så att filerna i mappen stämmer med den versionen av data man delar. Flytta de dokumentationsfiler som inte längre ska synas publikt till V1-mappen.
Viktigt! Se till att filhanteringen är färdig innan du går vidare till att publicera den uppdaterade katalogposten!
Publicering av uppdaterad databeskrivning
Återigen flyttas hela mappaketet för databeskrivningen från Bearbetning till Staging. För överflyttning till SND-arkivet behövs en manuell handläggning och kontroll.
Filer som ska vara direkt synliga/nerladdningsbara i katalogen kopieras till Distribution, på samma sätt som vid publicering av nya databeskrivningar.
Rutin för uppdatering av tillhörande dokumentation (mappen public_documents) behöver testas med verkliga fall för att veta hur detta bäst hanteras. Det finns en automatisk regel som säger att om det tillkommen en ny fil med samma filnamn som en fil som redan ligger i mappen, kommer den gamla filen att ersättas med den nya filen. Allting i mappen syns i katalogen och om någonting inte längre ska synas så behövs det hanteras manuellt.
Filhantering för databeskrivningar under sluten referensgranskning (closed review)
Om forskaren markerat att data ska göras tillgängligt för sluten referensgranskning (Closed Review) så ska data hanteras som vanligt. Systemet känner automatiskt av om fältet är ifyllt i formuläret (se bilden nedan) visar då upp de filer som ska synas i katalogen, utan att någon distributionsmapp är skapad. (Datafiler i datasets för databeskrivningar som har tillgänglighetsnivån beställning visas inte upp.)
Lösningar för långtidslagring
I nuläget finns det ingen fast lösning för långtidslagring av forskningsdata som kommer att användas av alla DAU:er på alla lärosäten.
Svensk Nationell Datatjänst använder för närvarande SNIC (Swedish National Infrastructure for Computing) för att lagra forskningsdata som deponeras och tillgängliggörs av forskare via SND.
I framtiden planeras en mer omfattande lösning via SUNET (Swedish University Computer Network) där noder byggs upp på flera lärosäten. Även lärosäten utan egen nod ska kunna köpa kapacitet i denna lösning.