Åtgärder

Skillnad mellan versioner av "Filhantering hos SND"

Från DAU-handboken

Rad 1: Rad 1:
På den här sidan kan du läsa om arbetsgången för lagring av data som deponeras till DAU under [[dataflödespiloten]]. Det finns inte några fastställda rutiner för hur dessa processer ska se ut efter dataflödespiloten, när DAU:erna tar hand om data från forskare och publicerar databeskrivningar utan att behöva gå genom SND.
På den här sidan kan du läsa om arbetsgången för hantering av filer för inkomna databeskrivningar hos SND. Under [[dataflödespiloten]] kopplades lärosätesspecifika ytor till SND:s system, och filhanteringen på dessa ytor har samma upplägg som för SND och bör hanteras enliigt SND:s rutin. Det finns inte några fastställda rutiner för hur dessa processer ska se ut när de mer permamenta lagringslösniongarna finns på plats.  


__TOC__
== Mappstruktur för inkomna databeskrivningar ==
Databeskrivningar och de filer som kommer in via DORIS läggs i en automatiskt skapad mappstruktur. De DAU:er som har egna ytor kvar sedan dataflödespiloten behöver kunna hantera mappstrukturen för att kunna skicka vidare kurerade data till SND.
Grunden utgörs av tre huvudmappar: Bearbetning, Staging och Distribution.
[[Fil:Bearbetning staging distribution.PNG|none|caption]]
'''Bearbetning:''' Har en direktkoppling till formuläret och för varje ny databeskrivning som skapas i tillkommer här en mapp med databeskrivningens ID (den orangea mappen i bilen). Det är här som det manuella arbetet med att granska data, konvertera filformat och förbereda filer för tillgängliggörande sker.<br>
'''Staging:''' När en databeskrivning publiceras i SND-katalogen flyttas automatiskt hela filpaketet till Staging-ytan. I SND-kontorets rutiner ingår att data långtidslagras på en särskild yta avsedd för just långtidslagring det och när filpaketen hamnar på Staging är de redo att manuellt flyttas till ”SND-arkivet”.<br>
'''Distribution:''' Den delen av lagringen som har en direktkoppling till SND-katalogen. Här finns de filer/delar av databeskrivningens filpaket som ska vara direkt tillgängligt i katalogen, både datafiler och dokumentationsfiler. <br>
Bilden nedan visar SND:s mappstruktur (utan detaljerade undermappar).
[[Fil:Mappstruktur.PNG|none|caption]]
<br>
[[Fil:Inkommande_data.PNG|right|300px|caption]]
===Inkommande data===
För alla påbörjade databeskrivningar i DORIS skapas en mapp med databeskrivningens ID (se mappstrukturen i bilden ovan).<br>
När filer laddas upp i formuläret hamnar de i mappen original. Datafiler och annat som laddas upp under avsnitt 5 i formuläret lägga i mappen datasets, innehåller databeskrivningen flera dataset skapas flera undermappar efter antalet dataset (i bilden mapparna 1 och 2). För första versionen av data skapas också undermappen V1.
Filer som laddas upp under avsnitt 7 läggs i documents. <br>


__TOC__
Det avtal som signeras i samband med att databeskrivningen skickas in till SND läggs automatiskt i mappen internal (se bild på föregående sida).<br>
 
I mappen metadata läggs metadatafiler i json-format.
 
===Under granskning===
När datafilerna granskas och färdigställs för tillgängliggörande behövs en del manuellt arbete. <br>
 
Undermapparna för dataset och version (i bilden mapparna ''1, 2'' och ''V1, V2'') behöver skapas manuellt. Datafiler ska ligga i motsvarande mapp under ''datasets''.<br>
 
Ett tips är att kopiera hela paketet från ''original''.  <br>
 
[[Fil:Under granskning.PNG|right|400px|caption]]
 
Vad gäller dokumentationsfiler ska de ligga på olika ställen beroende på typ av fil:
* filer som ska förmedlas tillsammans med datafiler ska finnas i versionsmappen under ''datasets''
* filer som ska synas publikt i katalogposten (under rubriken Tillhörande dokumentation) ska ligga i mappen ''public_document''
* filer som enbart är av intern karaktär, ex. avtal, mailkonversationer, juridiska underlag, ska ligga i mappen ''internal''.<br>
 
Samma fil kan ligga på två ställen, t.ex. både i ''datasets'' och i ''public_documents''.
 
====Filformat för långtidslagring====
I samband med granskning av data ingår att se till att data och dokumentationsfiler finns i format som lämpar sig för långtidslagring. Alla filer i versionsmappen under datasets bör finnas i ett sådant format, så långt det är möjligt.<br>
 
Dokumentationsfiler är lämpliga att spara som PDF/A eller som .txt, vilket lämpliga format för både tillgängliggörande och långtidslagring.<br>
För datafiler kan det vara aktuellt att dela och spara filerna i flera olika format, då olika format kan täcka olika behov. Varje fil bör finnas i ett eller flera format som lämpar sig för förmedling/återanvändning och för långtidslagring. Det kan innebära att det i vissa fall finns data i flera olika format och i vissa fall enbart i ett format (beroende på typ av data osv). Exempelvis kan data för en enkätundersökning sparas både som .csv-fil och som .spss-fil, där .csv-filen täcker båda behoven för långtidsbevarande och förmedling (tillsammans med kodbok), medan .spss-filen täcker behovet av en lättanvänd förmedlingsfil. Ett annat exempel är bildfiler som endast sparas i .png, då det var formatet de levererades i, vilket täcker behoven för långtidslagring. <br>
 
Vilket eller vilka format data ska finnas i behöver alltså avgöras från fall till fall.
 
'''Det är viktigt att arbetet med datafiler görs klart innan man går vidare med publicering.'''


[[Fil:Mappstruktur.png|miniatyr|Mappstruktur för data som lagras hos SND]]


<span id="mappstruktur"></span>
== Mappstruktur för deponerade data under dataflödespiloten ==
Databeskrivningar som lämnas över via Mitt SND hamnar i en automatiskt skapad mappstruktur. Mappstrukturen innehåller mappar för data, metadata och dokumentation. Bilden till höger innehåller mer information om mappinnehållet. DAU:en behöver kunna hantera mappstrukturen för att kunna skicka vidare kurerade data till SND.


<span style="color: red; text-decoration:">Stycket kommer att uppdateras inom kort.</span>


== Nuvarande lagringsrutiner på SND ==
== Nuvarande lagringsrutiner på SND ==
Rad 18: Rad 69:


<span style="color: red; text-decoration;">Stycket kommer att uppdateras inom kort.</span>
<span style="color: red; text-decoration;">Stycket kommer att uppdateras inom kort.</span>


== Lösningar för långtidslagring ==
== Lösningar för långtidslagring ==

Versionen från 29 maj 2020 kl. 05.35

På den här sidan kan du läsa om arbetsgången för hantering av filer för inkomna databeskrivningar hos SND. Under dataflödespiloten kopplades lärosätesspecifika ytor till SND:s system, och filhanteringen på dessa ytor har samma upplägg som för SND och bör hanteras enliigt SND:s rutin. Det finns inte några fastställda rutiner för hur dessa processer ska se ut när de mer permamenta lagringslösniongarna finns på plats.

Mappstruktur för inkomna databeskrivningar

Databeskrivningar och de filer som kommer in via DORIS läggs i en automatiskt skapad mappstruktur. De DAU:er som har egna ytor kvar sedan dataflödespiloten behöver kunna hantera mappstrukturen för att kunna skicka vidare kurerade data till SND.

Grunden utgörs av tre huvudmappar: Bearbetning, Staging och Distribution.

caption

Bearbetning: Har en direktkoppling till formuläret och för varje ny databeskrivning som skapas i tillkommer här en mapp med databeskrivningens ID (den orangea mappen i bilen). Det är här som det manuella arbetet med att granska data, konvertera filformat och förbereda filer för tillgängliggörande sker.

Staging: När en databeskrivning publiceras i SND-katalogen flyttas automatiskt hela filpaketet till Staging-ytan. I SND-kontorets rutiner ingår att data långtidslagras på en särskild yta avsedd för just långtidslagring det och när filpaketen hamnar på Staging är de redo att manuellt flyttas till ”SND-arkivet”.

Distribution: Den delen av lagringen som har en direktkoppling till SND-katalogen. Här finns de filer/delar av databeskrivningens filpaket som ska vara direkt tillgängligt i katalogen, både datafiler och dokumentationsfiler.

Bilden nedan visar SND:s mappstruktur (utan detaljerade undermappar).

caption


caption

Inkommande data

För alla påbörjade databeskrivningar i DORIS skapas en mapp med databeskrivningens ID (se mappstrukturen i bilden ovan).

När filer laddas upp i formuläret hamnar de i mappen original. Datafiler och annat som laddas upp under avsnitt 5 i formuläret lägga i mappen datasets, innehåller databeskrivningen flera dataset skapas flera undermappar efter antalet dataset (i bilden mapparna 1 och 2). För första versionen av data skapas också undermappen V1. Filer som laddas upp under avsnitt 7 läggs i documents.

Det avtal som signeras i samband med att databeskrivningen skickas in till SND läggs automatiskt i mappen internal (se bild på föregående sida).

I mappen metadata läggs metadatafiler i json-format.

Under granskning

När datafilerna granskas och färdigställs för tillgängliggörande behövs en del manuellt arbete.

Undermapparna för dataset och version (i bilden mapparna 1, 2 och V1, V2) behöver skapas manuellt. Datafiler ska ligga i motsvarande mapp under datasets.

Ett tips är att kopiera hela paketet från original.

caption

Vad gäller dokumentationsfiler ska de ligga på olika ställen beroende på typ av fil:

  • filer som ska förmedlas tillsammans med datafiler ska finnas i versionsmappen under datasets
  • filer som ska synas publikt i katalogposten (under rubriken Tillhörande dokumentation) ska ligga i mappen public_document
  • filer som enbart är av intern karaktär, ex. avtal, mailkonversationer, juridiska underlag, ska ligga i mappen internal.

Samma fil kan ligga på två ställen, t.ex. både i datasets och i public_documents.

Filformat för långtidslagring

I samband med granskning av data ingår att se till att data och dokumentationsfiler finns i format som lämpar sig för långtidslagring. Alla filer i versionsmappen under datasets bör finnas i ett sådant format, så långt det är möjligt.

Dokumentationsfiler är lämpliga att spara som PDF/A eller som .txt, vilket lämpliga format för både tillgängliggörande och långtidslagring.

För datafiler kan det vara aktuellt att dela och spara filerna i flera olika format, då olika format kan täcka olika behov. Varje fil bör finnas i ett eller flera format som lämpar sig för förmedling/återanvändning och för långtidslagring. Det kan innebära att det i vissa fall finns data i flera olika format och i vissa fall enbart i ett format (beroende på typ av data osv). Exempelvis kan data för en enkätundersökning sparas både som .csv-fil och som .spss-fil, där .csv-filen täcker båda behoven för långtidsbevarande och förmedling (tillsammans med kodbok), medan .spss-filen täcker behovet av en lättanvänd förmedlingsfil. Ett annat exempel är bildfiler som endast sparas i .png, då det var formatet de levererades i, vilket täcker behoven för långtidslagring.

Vilket eller vilka format data ska finnas i behöver alltså avgöras från fall till fall.

Det är viktigt att arbetet med datafiler görs klart innan man går vidare med publicering.



Nuvarande lagringsrutiner på SND

Data och metadata som deponeras hos SND via överlämningsformuläret efter att de blivit accepterade av SND hamnar i SND:s interna management system (SIMS) som inkommande data. Via SIMS kan man direkt exportera metadata till en ny studie med nytt studienummer i systemet samt skapa en bearbetningsyta med data på en så kallad ”Staging”-mapp som används internt på SND. De ursprungliga datafilerna och dokumenten, eller de så kallade SIP-filerna (Submission Information Package), exporteras automatiskt till den här studiemappen på Staging-ytan i en mapp som heter ”Original”. Datasamordnare på SND skapar manuellt ett AIP (Archival Information Package) utifrån de ursprungliga datafilerna i en annan mapp som innehåller version 1.0 av studien. Eventuella senare versioner av datan skapas i nya mappar med respektive versionsnummer. Datafilerna och tillhörande dokumentation med den version av filpaketet som blir förmedlingsbar, eller de så kallade DIP-filerna (Dissemination Information Package), läggs in i en mapp som heter ”Distribution”.

När mappen med alla dataset i studien är färdig och studien har publicerats i SND:s forskningsdatakatalog flyttas den till SND:s arkiv som för närvarande underhålls av SNIC i väntan på en framtida lagringslösning.

Stycket kommer att uppdateras inom kort.


Lösningar för långtidslagring

I nuläget finns det ingen fast lösning för långtidslagring av forskningsdata som kommer att användas av alla DAU:er på alla lärosäten.

Svensk Nationell Datatjänst använder för närvarande SNIC (Swedish National Infrastructure for Computing) för att lagra forskningsdata som deponeras och tillgängliggörs av forskare via SND. För tillfället kan detta vara ett förslag för andra lärosäten under dataflödespiloten. SND kan hjälpa med att upprätta en tillfällig SNIC-yta som kan användas under datapilotens gång, tills en mer permanent lösning hittas.

I framtiden planeras en mer omfattande lösning via SUNET (Swedish University Computer Network) där noder byggs upp på flera lärosäten. Även lärosäten utan egen nod ska kunna köpa kapacitet i denna lösning.