Åtgärder

Skillnad mellan versioner av "Filhantering hos SND"

Från DAU-handboken

 
(39 mellanliggande versioner av 4 användare visas inte)
Rad 1: Rad 1:
På den här sidan kan du läsa om arbetsgången för hantering av filer för inkomna databeskrivningar hos SND. Under [[dataflödespiloten]] kopplades lärosätesspecifika ytor till SND:s system, och filhanteringen på dessa ytor har samma upplägg som för SND och bör hanteras enliigt SND:s rutin. Det finns inte några fastställda rutiner för hur dessa processer ska se ut när de mer permamenta lagringslösniongarna finns på plats.
== Filhantering ==


__TOC__
Lärosäten och forskande organisationer inom SND-nätverket kommer allt närmare egen lokal lagring för forskningsdata med koppling till DORIS och forskningsdatakatalogen via lagrings-API:et. Dokumentet [https://doi.org/10.5281/zenodo.10124920 ''Mapp- och filstruktur för SND CARE''] går igenom hur filhantering hanteras på SND-kontoret, vilket kan fungera som underlag för hur filer hanteras lokalt vid lärosätet. Viktigt att poängtera att filhantering är organisationens egna ansvar, och att dokumentet endast erbjuder ett vägledande exempel.  
 
== Mappstruktur för inkomna databeskrivningar ==
Databeskrivningar och de filer som kommer in via DORIS läggs i en automatiskt skapad mappstruktur. De DAU:er som har egna ytor kvar sedan dataflödespiloten behöver kunna hantera mappstrukturen för att kunna skicka vidare kurerade data till SND.
 
Grunden utgörs av tre huvudmappar: Bearbetning, Staging och Distribution.
 
[[Fil:Bearbetning staging distribution.PNG|none|500px|caption]]
 
 
'''Bearbetning:''' Har en direktkoppling till formuläret och för varje ny databeskrivning som skapas i tillkommer här en mapp med databeskrivningens ID (den orangea mappen i bilen). Det är här som det manuella arbetet med att granska data, konvertera filformat och förbereda filer för tillgängliggörande sker.<br>
'''Staging:''' När en databeskrivning publiceras i SND-katalogen flyttas automatiskt hela filpaketet till Staging-ytan. I SND-kontorets rutiner ingår att data långtidslagras på en särskild yta avsedd för just långtidslagring det och när filpaketen hamnar på Staging är de redo att manuellt flyttas till ”SND-arkivet”.<br>
 
'''Distribution:''' Den delen av lagringen som har en direktkoppling till SND-katalogen. Här finns de filer/delar av databeskrivningens filpaket som ska vara direkt tillgängligt i katalogen, både datafiler och dokumentationsfiler. <br>
 
Bilden nedan visar SND:s mappstruktur (utan detaljerade undermappar).
 
[[Fil:Mappstruktur.PNG|850px|none|caption]]
 
 
 
===Inkommande data===
 
För alla påbörjade databeskrivningar i DORIS skapas en mapp med databeskrivningens ID (se mappstrukturen i bilden ovan).<br>
När filer laddas upp i formuläret hamnar de i mappen ''original'' (se bild nedanför). Datafiler och annat som laddas upp under avsnitt 5 i formuläret lägga i mappen datasets, innehåller databeskrivningen flera dataset skapas flera undermappar efter antalet dataset (i bilden mapparna ''1'' och ''2''). För första versionen av data skapas också undermappen ''V1''. Filer som laddas upp under avsnitt 7 läggs i ''documents''. <br>
 
Det avtal som signeras i samband med att databeskrivningen skickas in till SND läggs automatiskt i mappen ''internal'' (se mappstrukturen i bilden ovan).<br>
 
I mappen ''metadata'' läggs metadatafiler i json-format.<br>
 
[[Fil:Inkommande_data.PNG|none|300px|caption]]
<br>
 
===Under granskning===
 
När datafilerna granskas och färdigställs för tillgängliggörande behövs en del manuellt arbete. <br>
 
Undermapparna för dataset och version (i bilden mapparna ''1, 2'' och ''V1, V2'') behöver skapas manuellt. Datafiler ska ligga i motsvarande mapp under ''datasets''.<br>
 
Ett tips är att kopiera hela paketet från ''original''.  <br>
 
 
[[Fil:Under granskning.PNG|none|400px|caption]]
 
 
Vad gäller dokumentationsfiler ska de ligga på olika ställen beroende på typ av fil:
* filer som ska förmedlas tillsammans med datafiler ska finnas i versionsmappen under ''datasets''
* filer som ska synas publikt i katalogposten (under rubriken Tillhörande dokumentation) ska ligga i mappen ''public_document''
* filer som enbart är av intern karaktär, ex. avtal, mailkonversationer, juridiska underlag, ska ligga i mappen ''internal''.<br>
 
Det här innebär att samma fil kan ligga på två ställen, t.ex. både i datasets och i public_documents. Det innebär också att man behöver ta hänsyn till tillgänglighetsnivå för data när man planerar för dokumentationsfilerna. <br>
 
Exempel 1: Data är tillgängliga via beställning. Datafilerna och den tillhörande dokumentationen läggs tillsammans i mappen dataset, för att lämnas ut tillsammans vid en beställning. En del tillhörande dokumentation kan öka förståbarheten av datas innehåll redan innan man har tillgång till datafilerna, ex. variabellista, kodbok, frågeformulär och metodbeskrivning. Dessa filer bör då också finnas i mappen public_documents så att de är nåbara direkt i katalogen. <br>
 
Exempel 2:  Data är direkt nerladdningsbara i katalogen. Datafilerna och tillhörande dokumentation läggs tillsammans i mappen dataset. För den här tillgänglighetsnivån blir allt innehåll datasetsmappen synlig i katalogposten. Därför behöver inte dokumentationsfilerna läggas även i public_documents, det skulle bara innebära att det finns dubbletter av dokumenten/filerna i katalogposten.  
<br>
====Filformat för långtidslagring====
 
I samband med granskning av data ingår att se till att data och dokumentationsfiler finns i format som lämpar sig för långtidslagring. Alla filer i versionsmappen under datasets bör finnas i ett sådant format, så långt det är möjligt.<br>
 
'''Dokumentationsfiler''' är lämpliga att spara som PDF/A eller som .txt, vilket lämpliga format för både tillgängliggörande och långtidslagring.<br>
För '''datafiler''' kan det vara aktuellt att dela och spara filerna i flera olika format, då olika format kan täcka olika behov. Varje fil bör finnas i ett eller flera format som lämpar sig för förmedling/återanvändning och för långtidslagring. Det kan innebära att det i vissa fall finns data i flera olika format och i vissa fall enbart i ett format (beroende på typ av data osv). Exempelvis kan data för en enkätundersökning sparas både som .csv-fil och som .spss-fil, där .csv-filen täcker båda behoven för långtidsbevarande och förmedling (tillsammans med kodbok), medan .spss-filen täcker behovet av en lättanvänd förmedlingsfil. Ett annat exempel är bildfiler som endast sparas i .png, då det var formatet de levererades i, vilket täcker behoven för långtidslagring. <br>
 
Vilket eller vilka format data ska finnas i behöver alltså avgöras från fall till fall.
 
====Filnamn====
Det är viktigt med tydliga filnamn. Filnamnen som är skapade av forskaren bör behållas så långt det är möjligt, då de eventuellt används för att hänvisa till data. Stäm gärna av med forskaren om det finns ett behov av att byta till ett tydligare filnamn.
<br>
Om samma fil finns på flera språk ange gärna språk i filnamnet (ex. questionnarie2018_swe.pdf och questionnarie2018_eng.pdf).
<br>
<br>
'''Det är viktigt att arbetet med datafiler görs klart innan man går vidare med publicering av databeskrivningen.'''
 
===Publicera databeskrivning===
 
När databeskrivningen publiceras i SND-katalogen flyttas hela databeskrivningens mappaket (automatiskt) från ''Bearbetning'' till ''Staging''.
 
[[Fil:Bearbetning till staging.PNG|300px|none|caption]]<br>
 
Detta visar att datapaketet är redo för långtidslagring i SND-arkivet (manuell process att flytta filer dit). <br>
 
Till mappen ''Distribution'' kopieras automatiskt den senaste versionen av varje dataset samt de filer som ligger i ''public_documents''.
Det är ytan under ''Distribution'' som har kontakt med SND-katalogen.
 
[[Fil:Distribution.PNG|none|300px|caption]]
 
<br>
 
===Uppdatering av publicerad databeskrivning===
 
När en publicerad databeskrivnings sätts under redigering för att uppdateras skapas en ny tom mappstruktur med databeskrivningens ID under ''Bearbetning''. <br>
De nya filerna läggs i mapparna ''V2'' och i ''documents''.
 
[[Fil:Inkommande ny version.PNG|none|300px|caption]]
 
<br>
 
===Granskning av uppdaterad databeskrivning===
 
Datahanteringen för granskningsprocessen vad gäller uppdateringar av publicerade databeskrivningar kräver samma manuella process som för nya databeskrivningar.<br>
 
Filerna flyttas manuellt till relevant mapp. Sedan tidigare finns mappen ''V1'' under ''datasets'' så där fyller man med även ''V2''. <br>
 
Som tidigare så visas alla filer som ligger i ''public_documents'' upp i katalogen i samband med publicering. Därför behöver man här kontrollera så att filerna i mappen stämmer med den versionen av data man delar. Flytta de dokumentationsfiler som inte längre ska synas publikt till ''V1-mappen''. 
 
'''Viktigt! Se till att filhanteringen är färdig innan du går vidare till att publicera den uppdaterade katalogposten!'''
 
[[Fil:Granskning_ny_version.PNG|350px|none|caption]]<br>
 
===Publicering av uppdaterad databeskrivning===
 
Återigen flyttas hela mappaketet för databeskrivningen från ''Bearbetning'' till ''Staging''. För överflyttning till SND-arkivet behövs en manuell handläggning och kontroll.<br>
Filer som ska vara direkt synliga/nerladdningsbara i katalogen kopieras till ''Distribution'', på samma sätt som vid publicering av nya databeskrivningar. <br>
 
Rutin för uppdatering av tillhörande dokumentation (mappen ''public_documents'') behöver testas med verkliga fall för att veta hur detta bäst hanteras. Det finns en automatisk regel som säger att om det tillkommen en ny fil med samma filnamn som en fil som redan ligger i mappen, kommer den gamla filen att ersättas med den nya filen. Allting i mappen syns i katalogen och om någonting inte längre ska synas så behövs det hanteras manuellt.<br>
 
[[Fil:Publicera_ny_version.PNG|400px|none|caption]]<br>
 
===Filhantering för databeskrivningar under sluten referensgranskning (closed review)===
Om forskaren markerat att data ska göras tillgängligt för sluten referensgranskning (Closed Review) så ska data hanteras som vanligt. Systemet känner automatiskt av om fältet är ifyllt i formuläret (se bilden nedan) visar då upp de filer som ska synas i katalogen, utan att någon distributionsmapp är skapad. (Datafiler i datasets för databeskrivningar som har tillgänglighetsnivån beställning visas inte upp.)
 
[[Fil:Sluten referensgranskning.PNG|800px|none|caption]]


== Lösningar för långtidslagring ==
== Lösningar för långtidslagring ==
I nuläget finns det ingen fast lösning för långtidslagring av forskningsdata som kommer att användas av alla DAU:er på alla lärosäten.
I nuläget finns det ingen fast lösning för långtidslagring av forskningsdata som kommer att användas av alla DAU:er på alla lärosäten.


Svensk Nationell Datatjänst använder för närvarande [https://www.snic.se SNIC (Swedish National Infrastructure for Computing)] för att lagra forskningsdata som deponeras och tillgängliggörs av forskare via SND.
SND är ett certifierat repositorium [https://www.coretrustseal.org/ CoreTrustSeal] för forskningsdata. Den del av verksamheten som är certifierad betecknas SND CARE och omfattar de data som lagras hos SND-kontoret. SND CARE använder en lagringsyta hos Göteborgs universitet (researchstore) för att lagra forskningsdata som deponeras och tillgängliggörs av forskare via SND.  


I framtiden planeras en mer omfattande lösning via [https://www.sunet.se SUNET (Swedish University Computer Network)] där noder byggs upp på flera lärosäten. Även lärosäten utan egen nod ska kunna köpa kapacitet i denna lösning.
I framtiden planeras en mer omfattande lösning via [https://www.sunet.se SUNET (Swedish University Computer Network)] där noder byggs upp på flera lärosäten. Även lärosäten utan egen nod ska kunna köpa kapacitet i denna lösning.

Nuvarande version från 13 december 2023 kl. 13.51

Filhantering

Lärosäten och forskande organisationer inom SND-nätverket kommer allt närmare egen lokal lagring för forskningsdata med koppling till DORIS och forskningsdatakatalogen via lagrings-API:et. Dokumentet Mapp- och filstruktur för SND CARE går igenom hur filhantering hanteras på SND-kontoret, vilket kan fungera som underlag för hur filer hanteras lokalt vid lärosätet. Viktigt att poängtera att filhantering är organisationens egna ansvar, och att dokumentet endast erbjuder ett vägledande exempel.

Lösningar för långtidslagring

I nuläget finns det ingen fast lösning för långtidslagring av forskningsdata som kommer att användas av alla DAU:er på alla lärosäten.

SND är ett certifierat repositorium CoreTrustSeal för forskningsdata. Den del av verksamheten som är certifierad betecknas SND CARE och omfattar de data som lagras hos SND-kontoret. SND CARE använder en lagringsyta hos Göteborgs universitet (researchstore) för att lagra forskningsdata som deponeras och tillgängliggörs av forskare via SND.

I framtiden planeras en mer omfattande lösning via SUNET (Swedish University Computer Network) där noder byggs upp på flera lärosäten. Även lärosäten utan egen nod ska kunna köpa kapacitet i denna lösning.