Filhantering hos SND
Från DAU-handboken
På den här sidan kan du läsa om arbetsgången för hantering av filer för inkomna databeskrivningar hos SND. Under dataflödespiloten kopplades lärosätesspecifika ytor till SND:s system, och filhanteringen på dessa ytor har samma upplägg som för SND och bör hanteras enliigt SND:s rutin. Det finns inte några fastställda rutiner för hur dessa processer ska se ut när de mer permamenta lagringslösniongarna finns på plats.
Mappstruktur för inkomna databeskrivningar
Databeskrivningar och de filer som kommer in via DORIS läggs i en automatiskt skapad mappstruktur. De DAU:er som har egna ytor kvar sedan dataflödespiloten behöver kunna hantera mappstrukturen för att kunna skicka vidare kurerade data till SND.
Grunden utgörs av tre huvudmappar: Bearbetning, Staging och Distribution.
Bearbetning: Har en direktkoppling till formuläret och för varje ny databeskrivning som skapas i tillkommer här en mapp med databeskrivningens ID (den orangea mappen i bilen). Det är här som det manuella arbetet med att granska data, konvertera filformat och förbereda filer för tillgängliggörande sker.
Staging: När en databeskrivning publiceras i SND-katalogen flyttas automatiskt hela filpaketet till Staging-ytan. I SND-kontorets rutiner ingår att data långtidslagras på en särskild yta avsedd för just långtidslagring det och när filpaketen hamnar på Staging är de redo att manuellt flyttas till ”SND-arkivet”.
Distribution: Den delen av lagringen som har en direktkoppling till SND-katalogen. Här finns de filer/delar av databeskrivningens filpaket som ska vara direkt tillgängligt i katalogen, både datafiler och dokumentationsfiler.
Bilden nedan visar SND:s mappstruktur (utan detaljerade undermappar).
Inkommande data
För alla påbörjade databeskrivningar i DORIS skapas en mapp med databeskrivningens ID (se mappstrukturen i bilden ovan).
När filer laddas upp i formuläret hamnar de i mappen original. Datafiler och annat som laddas upp under avsnitt 5 i formuläret lägga i mappen datasets, innehåller databeskrivningen flera dataset skapas flera undermappar efter antalet dataset (i bilden mapparna 1 och 2). För första versionen av data skapas också undermappen V1.
Filer som laddas upp under avsnitt 7 läggs i documents.
Det avtal som signeras i samband med att databeskrivningen skickas in till SND läggs automatiskt i mappen internal (se bild på föregående sida).
I mappen metadata läggs metadatafiler i json-format.
Under granskning
När datafilerna granskas och färdigställs för tillgängliggörande behövs en del manuellt arbete.
Undermapparna för dataset och version (i bilden mapparna 1, 2 och V1, V2) behöver skapas manuellt. Datafiler ska ligga i motsvarande mapp under datasets.
Ett tips är att kopiera hela paketet från original.
Vad gäller dokumentationsfiler ska de ligga på olika ställen beroende på typ av fil:
- filer som ska förmedlas tillsammans med datafiler ska finnas i versionsmappen under datasets
- filer som ska synas publikt i katalogposten (under rubriken Tillhörande dokumentation) ska ligga i mappen public_document
- filer som enbart är av intern karaktär, ex. avtal, mailkonversationer, juridiska underlag, ska ligga i mappen internal.
Samma fil kan ligga på två ställen, t.ex. både i datasets och i public_documents.
Filformat för långtidslagring
I samband med granskning av data ingår att se till att data och dokumentationsfiler finns i format som lämpar sig för långtidslagring. Alla filer i versionsmappen under datasets bör finnas i ett sådant format, så långt det är möjligt.
Dokumentationsfiler är lämpliga att spara som PDF/A eller som .txt, vilket lämpliga format för både tillgängliggörande och långtidslagring.
För datafiler kan det vara aktuellt att dela och spara filerna i flera olika format, då olika format kan täcka olika behov. Varje fil bör finnas i ett eller flera format som lämpar sig för förmedling/återanvändning och för långtidslagring. Det kan innebära att det i vissa fall finns data i flera olika format och i vissa fall enbart i ett format (beroende på typ av data osv). Exempelvis kan data för en enkätundersökning sparas både som .csv-fil och som .spss-fil, där .csv-filen täcker båda behoven för långtidsbevarande och förmedling (tillsammans med kodbok), medan .spss-filen täcker behovet av en lättanvänd förmedlingsfil. Ett annat exempel är bildfiler som endast sparas i .png, då det var formatet de levererades i, vilket täcker behoven för långtidslagring.
Vilket eller vilka format data ska finnas i behöver alltså avgöras från fall till fall.
Det är viktigt att arbetet med datafiler görs klart innan man går vidare med publicering av databeskrivningen.
Publicera databeskrivning
När databeskrivningen publiceras i SND-katalogen flyttas hela databeskrivningens mappaket (automatiskt) från Bearbetning till Staging.
Detta visar att datapaketet är redo för långtidslagring i SND-arkivet (manuell process att flytta filer dit).
Till mappen Distribution kopieras automatiskt den senaste versionen av varje dataset samt de filer som ligger i public_documents.
Det är ytan under Distribution som har kontakt med SND-katalogen.
Uppdatering av publicerad databeskrivning
När en publicerad databeskrivnings sätts under redigering för att uppdateras skapas en ny tom mappstruktur med databeskrivningens ID under Bearbetning. De nya filerna läggs i mapparna V2 och i documents.
Granskning av uppdaterad databeskrivning
Datahanteringen för granskningsprocessen vad gäller uppdateringar av publicerade databeskrivningar kräver samma manuella process som för nya databeskrivningar.
Filerna flyttas manuellt till relevant mapp. Sedan tidigare finns mappen V1 under datasets så där fyller man på med även V2.
Som tidigare så visas alla filer som ligger i public_documents upp i katalogen i samband med publicering. Därför behöver man här kontrollera så att filerna i mappen stämmer med den versionen av data man delar. Flytta de dokumentationsfiler som inte längre ska synas publikt till V1-mappen.
Viktigt! Se till att filhanteringen är färdig innan du går vidare till att publicera den uppdaterade katalogposten!
Publicering av uppdaterad databeskrivning
Återigen flyttas hela mappaketet för databeskrivningen från Bearbetning till Staging. För överflyttning till SND-arkivet behövs en manuell handläggning och kontroll.
Filer som ska vara direkt synliga/nerladdningsbara i katalogen kopieras till Distribution, på samma sätt som vid publicering av nya databeskrivningar.
Rutin för uppdatering av tillhörande dokumentation (mappen public_documents) behöver testas med verkliga fall för att veta hur detta bäst hanteras. Det finns en automatisk regel som säger att om det tillkommen en ny fil med samma filnamn som en fil som redan ligger i mappen, kommer den gamla filen att ersättas med den nya filen. Allting i mappen syns i katalogen och om någonting inte längre ska synas så behövs det hanteras manuellt.
Filhantering för databeskrivningar under sluten referensgranskning (closed review)
Om forskaren markerat att data ska göras tillgängligt för sluten referensgranskning (Closed Review) så ska data hanteras som vanligt. Systemet känner automatiskt av om fältet är ifyllt i formuläret (se bilden nedan) visar då upp de filer som ska synas i katalogen, utan att någon distributionsmapp är skapad. (Datafiler i datasets för databeskrivningar som har tillgänglighetsnivån beställning visas inte upp.)
Nuvarande lagringsrutiner på SND
Data och metadata som deponeras hos SND via överlämningsformuläret efter att de blivit accepterade av SND hamnar i SND:s interna management system (SIMS) som inkommande data. Via SIMS kan man direkt exportera metadata till en ny studie med nytt studienummer i systemet samt skapa en bearbetningsyta med data på en så kallad ”Staging”-mapp som används internt på SND. De ursprungliga datafilerna och dokumenten, eller de så kallade SIP-filerna (Submission Information Package), exporteras automatiskt till den här studiemappen på Staging-ytan i en mapp som heter ”Original”. Datasamordnare på SND skapar manuellt ett AIP (Archival Information Package) utifrån de ursprungliga datafilerna i en annan mapp som innehåller version 1.0 av studien. Eventuella senare versioner av datan skapas i nya mappar med respektive versionsnummer. Datafilerna och tillhörande dokumentation med den version av filpaketet som blir förmedlingsbar, eller de så kallade DIP-filerna (Dissemination Information Package), läggs in i en mapp som heter ”Distribution”.
När mappen med alla dataset i studien är färdig och studien har publicerats i SND:s forskningsdatakatalog flyttas den till SND:s arkiv som för närvarande underhålls av SNIC i väntan på en framtida lagringslösning.
Stycket kommer att uppdateras inom kort.
Lösningar för långtidslagring
I nuläget finns det ingen fast lösning för långtidslagring av forskningsdata som kommer att användas av alla DAU:er på alla lärosäten.
Svensk Nationell Datatjänst använder för närvarande SNIC (Swedish National Infrastructure for Computing) för att lagra forskningsdata som deponeras och tillgängliggörs av forskare via SND. För tillfället kan detta vara ett förslag för andra lärosäten under dataflödespiloten. SND kan hjälpa med att upprätta en tillfällig SNIC-yta som kan användas under datapilotens gång, tills en mer permanent lösning hittas.
I framtiden planeras en mer omfattande lösning via SUNET (Swedish University Computer Network) där noder byggs upp på flera lärosäten. Även lärosäten utan egen nod ska kunna köpa kapacitet i denna lösning.