Åtgärder

Databaser och kalkylblad

Från DAU-handboken

Version från den 22 februari 2022 kl. 14.15 av Linda Härdelin (diskussion | bidrag) (→‎Best practice)
(skillnad) ← Äldre version | Nuvarande version (skillnad) | Nyare version → (skillnad)

Översikt

Även om databaser och kalkylprogram har olika funktioner så används de olika typerna av applikationer i många fall på liknande sätt för att samla in och lagra data (dvs. i rader och kolumner). Definitionen på vad en databas är varierar beroende på vem man pratar med. Klart är att en databas består av en samling information som hör ihop och är organiserad på så sätt att det är lätt att söka efter och hämta enskilda bitar av information.

Här fokuserar vi på data som genererats, antingen genom den enklaste typen av så kallade kalkylblad (Excel) eller i mer avancerade program för statistisk analys (SPSS, STATA m.fl.). SQL-baserade databaser ingår inte här (t.ex. MySQL, Microsoft SQL Server och PostgreSQL).

Kalkylblad

Kalkylblad är den enklaste formen av databaser och består vanligtvis av ett eller flera blad med tabulerade data (t.ex. Excel). Kalkylblad kan, förutom data, innehålla formler, bilder, diagram och tabeller. Till exempel kan ytterligare värden (t.ex. totalsumman av en kolumn) skapas genom olika formler.

Databaser

I motsats till kalkylblad, som till stor del har samma grundläggande konstruktion, kan databaser delas in i ett antal olika typer baserade på arkitektur.

Hierarkisk databas
är en äldre typ av databasmodell där data lagras i en trädstruktur, dvs. förälder-barn-förhållande. Varje post består av en ”förälder” som sedan kan ha ett eller flera ”barn” med liknande strukturer. Systemet är mycket snabbt på att ta fram enskilda poster och det är enkelt att lägga till/ta bort information, men modellen är minneskrävande och relationsmässigt stelbent.
Rektangulära databaser
liknar kalkylblad i det att tabulerade data är organiserade i horisontella rader med data om det undersökta objektet och vertikala kolumner som representerar en bestämd typ, ett värde eller ett attribut som ska registreras för objektet. I rektangulära databaser kan det finnas en friare definition av vad data är, men även hur data registreras i systemet.
Relationsdatabaser
löser dessa och liknande problem genom att kräva en datastruktur som är fördefinierad genom att gruppera data med liknande attribut till separata tabeller som sedan länkas ihop genom vissa s.k. nyckelfält. Kombinationen av ett eller flera nyckelfält kan generera en nyckel.

Objektorienterade databaser :skapas för lagring av komplexa objekt, t.ex. multimediafiler och CAD-objekt. Data lagras normalt inte i databasen utan som attribut i objekt. När ett program gör ett anrop till en objektdatabas görs sökningen inte alltid direkt i databasen utan programmet ber objektet att utföra en bestämd rutin och leverera ett resultat. Även vanliga data lagras i objektsdatabasen för att underlätta sökningar.

Viktiga egenskaper

I likhet med textdokument förblir databaser och kalkylblad normalt i samma format genom hela skapelseprocessen. Det centrala i databaser och kalkylblad är själva datatabellerna/bladen tillsammans med dokumentation och metadata som beskriver innehållet i och relationerna mellan tabeller och blad.

De grundläggande filelementen som ska bevaras och underhållas är:

Värden
Cellrubriker och själva värdet i cellerna. Det kan finnas flera blad med data eller tabeller.
Bilder
Figurer, diagram och tabeller som finns i kalkylblad. Det är däremot möjligt att länka till externa filer. Det är dock viktigt att vara medveten om att den typen av funktioner kommer mer och mer med nya typer av databaser (t.ex. i Microsoft Access accdb-filer).
Layout
Det är vanligt att framförallt i kalkylblad använda formatering, färger och formatmallar för att ge form åt tabulära data och lyfta fram betydelsen hos delar av datamaterialet. Om man använder sådana layoutfunktioner är det viktigt att bevara denna ytterligare information på något sätt. Det rekommenderas därför att man använder alternativa format, t.ex. PDF/A, parallellt för att bevara utseendet på data, eftersom formatering ofta går förlorad när man exporterar data till textbaserade format.
Relationer
Hos databaser, men även i kalkylblad, är det viktigt att relationer mellan tabeller/blad är väl dokumenterade och begripliga.

Generella kontroller

Bortsett från att säkerställa att viktiga egenskaper hos en fil bevaras vid konvertering från ett format till ett annat, så finns det ett antal kontroller som måste göras innan konverteringen sker. Dessa kontroller säkerställer att viktiga karakteristika hos ett kalkylblad eller en databas bibehålls och inte går förlorade under konverteringsprocessen.

  • Layout och formatering: Användandet av formatering, färger och formatmallar kan innebära problem när man sedan ska migrera data till t.ex. komma- eller tabb-separerade textfiler. Vid kontroll bör man titta efter rubriker som går över flera rader eller kolumner, men också efter information som lyfts fram genom användning av färg, ramar eller andra typsnitt.
  • Tabeller och blad: Man bör gå igenom varje enskild fil för att bedöma vilka tabeller eller blad som ska bevaras och migreras. Kalkylblad kan innehålla flera blad.
  • Formler, queries (urval/förfrågningar), makron: Om en fil innehåller komplexa formler eller urvalsförfrågningar så måste dessa bevaras separat i en textfil så att kalkylbladets funktionalitet kan återskapas vid ett senare tillfälle.
  • Kommentarer och anteckningar: Kontrollera att eventuella kommentarer och anteckningar som finns i en fil kommer med. Dessa måste sparas i en separat fil med tydlig information om vilken fil och vilken cell som kommentaren/anteckningen hör till.
  • Dolda eller skyddade data: Ibland innehåller kalkylblad dolda eller skyddade celler. Dessa celler måste identifieras så att informationen i dem inte går förlorad.
  • Specialtecken eller avgränsare: Ibland kan en databas eller ett kalkylblad innehålla specialtecken eller olika slags avgränsare. Avgränsare som vertikalstreck, kommatecken eller tabseparerare kan innebära problem i en fil när den ska migreras till textdokument. Den typen av tecken måste identifieras tidigt för att ta fram en strategi för att se till att ingen information går förlorad.
  • Länkar: För databaser är det viktigt att relationen mellan olika tabeller är väl dokumenterad. Både databaser och kalkylblad kan innehålla länkar till, eller namn på, filer som lagras separat utanför databasen/kalkylbladet. Om dessa externa filer är en del av projektet så måste det säkerställas att filnamn och filer lagras korrekt.

Kontroller efter migrering

Efter migrering av filer till andra format är det viktigt att genomföra ett antal kontroller för att säkerställa att data inte har förlorats eller blivit korrupta under processen. Dessa kontroller inkluderar:

  • Kontrollera antalet rader efter konvertering.
  • Kontrollera längden på textfälten så att informationen inte har kapats på grund av begränsning i teckenmängd.
  • Kontrollera att alla arbetsblad och tabeller har exporterats.
  • Kontrollera att specialtecken inte har gått förlorade.

Filformat för långtidsbevarande

För majoriteten av databaser och kalkylblad är det rekommenderade formatet för långtidsbevarande avgränsad text (tab, csv osv.). Det finns ibland stilistiska eller funktionella element i databaser och kalkylblad som bara kan bevaras i vissa format. I sådana fall är rekommendationen att ett öppet XML-baserat format, som .ods eller .xlsx, används eller att de delarna av filen dokumenteras och sparas tillsammans med en textbaserad export av data.


Guide

Guide för databaser och kalkylblad