Skillnad mellan versioner av "Filhantering hos SND"
Från DAU-handboken
Sara (diskussion | bidrag) |
Sara (diskussion | bidrag) |
||
Rad 75: | Rad 75: | ||
<br> | <br> | ||
[[Fil:Inkommande ny version.PNG|right|300px|caption]] | |||
===Uppdatering av publicerad databeskrivning=== | ===Uppdatering av publicerad databeskrivning=== | ||
När en publicerad databeskrivnings sätts under redigering för att uppdateras skapas en ny tom mappstruktur med databeskrivningens ID under ''Bearbetning''. De nya filerna läggs i mapparna ''V2'' och i ''documents''. | När en publicerad databeskrivnings sätts under redigering för att uppdateras skapas en ny tom mappstruktur med databeskrivningens ID under ''Bearbetning''. De nya filerna läggs i mapparna ''V2'' och i ''documents''. | ||
===Granskning av uppdaterad databeskrivning=== | ===Granskning av uppdaterad databeskrivning=== |
Versionen från 29 maj 2020 kl. 07.29
På den här sidan kan du läsa om arbetsgången för hantering av filer för inkomna databeskrivningar hos SND. Under dataflödespiloten kopplades lärosätesspecifika ytor till SND:s system, och filhanteringen på dessa ytor har samma upplägg som för SND och bör hanteras enliigt SND:s rutin. Det finns inte några fastställda rutiner för hur dessa processer ska se ut när de mer permamenta lagringslösniongarna finns på plats.
Mappstruktur för inkomna databeskrivningar
Databeskrivningar och de filer som kommer in via DORIS läggs i en automatiskt skapad mappstruktur. De DAU:er som har egna ytor kvar sedan dataflödespiloten behöver kunna hantera mappstrukturen för att kunna skicka vidare kurerade data till SND.
Grunden utgörs av tre huvudmappar: Bearbetning, Staging och Distribution.
Bearbetning: Har en direktkoppling till formuläret och för varje ny databeskrivning som skapas i tillkommer här en mapp med databeskrivningens ID (den orangea mappen i bilen). Det är här som det manuella arbetet med att granska data, konvertera filformat och förbereda filer för tillgängliggörande sker.
Staging: När en databeskrivning publiceras i SND-katalogen flyttas automatiskt hela filpaketet till Staging-ytan. I SND-kontorets rutiner ingår att data långtidslagras på en särskild yta avsedd för just långtidslagring det och när filpaketen hamnar på Staging är de redo att manuellt flyttas till ”SND-arkivet”.
Distribution: Den delen av lagringen som har en direktkoppling till SND-katalogen. Här finns de filer/delar av databeskrivningens filpaket som ska vara direkt tillgängligt i katalogen, både datafiler och dokumentationsfiler.
Bilden nedan visar SND:s mappstruktur (utan detaljerade undermappar).
Inkommande data
För alla påbörjade databeskrivningar i DORIS skapas en mapp med databeskrivningens ID (se mappstrukturen i bilden ovan).
När filer laddas upp i formuläret hamnar de i mappen original. Datafiler och annat som laddas upp under avsnitt 5 i formuläret lägga i mappen datasets, innehåller databeskrivningen flera dataset skapas flera undermappar efter antalet dataset (i bilden mapparna 1 och 2). För första versionen av data skapas också undermappen V1.
Filer som laddas upp under avsnitt 7 läggs i documents.
Det avtal som signeras i samband med att databeskrivningen skickas in till SND läggs automatiskt i mappen internal (se bild på föregående sida).
I mappen metadata läggs metadatafiler i json-format.
Under granskning
När datafilerna granskas och färdigställs för tillgängliggörande behövs en del manuellt arbete.
Undermapparna för dataset och version (i bilden mapparna 1, 2 och V1, V2) behöver skapas manuellt. Datafiler ska ligga i motsvarande mapp under datasets.
Ett tips är att kopiera hela paketet från original.
Vad gäller dokumentationsfiler ska de ligga på olika ställen beroende på typ av fil:
- filer som ska förmedlas tillsammans med datafiler ska finnas i versionsmappen under datasets
- filer som ska synas publikt i katalogposten (under rubriken Tillhörande dokumentation) ska ligga i mappen public_document
- filer som enbart är av intern karaktär, ex. avtal, mailkonversationer, juridiska underlag, ska ligga i mappen internal.
Samma fil kan ligga på två ställen, t.ex. både i datasets och i public_documents.
Filformat för långtidslagring
I samband med granskning av data ingår att se till att data och dokumentationsfiler finns i format som lämpar sig för långtidslagring. Alla filer i versionsmappen under datasets bör finnas i ett sådant format, så långt det är möjligt.
Dokumentationsfiler är lämpliga att spara som PDF/A eller som .txt, vilket lämpliga format för både tillgängliggörande och långtidslagring.
För datafiler kan det vara aktuellt att dela och spara filerna i flera olika format, då olika format kan täcka olika behov. Varje fil bör finnas i ett eller flera format som lämpar sig för förmedling/återanvändning och för långtidslagring. Det kan innebära att det i vissa fall finns data i flera olika format och i vissa fall enbart i ett format (beroende på typ av data osv). Exempelvis kan data för en enkätundersökning sparas både som .csv-fil och som .spss-fil, där .csv-filen täcker båda behoven för långtidsbevarande och förmedling (tillsammans med kodbok), medan .spss-filen täcker behovet av en lättanvänd förmedlingsfil. Ett annat exempel är bildfiler som endast sparas i .png, då det var formatet de levererades i, vilket täcker behoven för långtidslagring.
Vilket eller vilka format data ska finnas i behöver alltså avgöras från fall till fall.
Det är viktigt att arbetet med datafiler görs klart innan man går vidare med publicering av databeskrivningen.
Publicera databeskrivning
När databeskrivningen publiceras i SND-katalogen flyttas hela databeskrivningens mappaket (automatiskt) från Bearbetning till Staging.
Detta visar att datapaketet är redo för långtidslagring i SND-arkivet (manuell process att flytta filer dit).
Till mappen Distribution kopieras automatiskt den senaste versionen av varje dataset samt de filer som ligger i public_documents.
Det är ytan under Distribution som har kontakt med SND-katalogen.
Uppdatering av publicerad databeskrivning
När en publicerad databeskrivnings sätts under redigering för att uppdateras skapas en ny tom mappstruktur med databeskrivningens ID under Bearbetning. De nya filerna läggs i mapparna V2 och i documents.
Granskning av uppdaterad databeskrivning
Datahanteringen för granskningsprocessen vad gäller uppdateringar av publicerade databeskrivningar kräver samma manuella process som för nya databeskrivningar.
Filerna flyttas manuellt till relevant mapp. Sedan tidigare finns mappen V1 under datasets så där fyller man på med även V2.
Som tidigare så visas alla filer som ligger i public_documents upp i katalogen i samband med publicering. Därför behöver man här kontrollera så att filerna i mappen stämmer med den versionen av data man delar. Flytta de dokumentationsfiler som inte längre ska synas publikt till V1-mappen.
Viktigt! Se till att filhanteringen är färdig innan du går vidare till att publicera den uppdaterade katalogposten!
Publicering av uppdaterad databeskrivning
Återigen flyttas hela mappaketet för databeskrivningen från Bearbetning till Staging. För överflyttning till SND-arkivet behövs en manuell handläggning och kontroll.
Filer som ska vara direkt synliga/nerladdningsbara i katalogen kopieras till Distribution, på samma sätt som vid publicering av nya databeskrivningar.
Rutin för uppdatering av tillhörande dokumentation (mappen public_documents) behöver testas med verkliga fall för att veta hur detta bäst hanteras. Det finns en automatisk regel som säger att om det tillkommen en ny fil med samma filnamn som en fil som redan ligger i mappen, kommer den gamla filen att ersättas med den nya filen. Allting i mappen syns i katalogen och om någonting inte längre ska synas så behövs det hanteras manuellt.
Filhantering för databeskrivningar under sluten referensgranskning (closed review)
Om forskaren markerat att data ska göras tillgängligt för sluten referensgranskning (Closed Review) så ska data hanteras som vanligt. Systemet känner automatiskt av om fältet är ifyllt i formuläret (se bilden nedan) visar då upp de filer som ska synas i katalogen, utan att någon distributionsmapp är skapad. (Datafiler i datasets för databeskrivningar som har tillgänglighetsnivån beställning visas inte upp.)
Lösningar för långtidslagring
I nuläget finns det ingen fast lösning för långtidslagring av forskningsdata som kommer att användas av alla DAU:er på alla lärosäten.
Svensk Nationell Datatjänst använder för närvarande SNIC (Swedish National Infrastructure for Computing) för att lagra forskningsdata som deponeras och tillgängliggörs av forskare via SND.
I framtiden planeras en mer omfattande lösning via SUNET (Swedish University Computer Network) där noder byggs upp på flera lärosäten. Även lärosäten utan egen nod ska kunna köpa kapacitet i denna lösning.