Databaser och kalkylblad
Från DAU-handboken
Databaser och kalkylblad
Även om databaser och kalkylprogram har olika funktioner så används de olika typerna av applikationer i många fall på liknande sätt för att samla in och lagra data (dvs. i rader och kolumner). Definitionen på vad en databas är varierar beroende på vem man pratar med. Klart är att en databas består av en samling information som hör ihop och är organiserad på så sätt att det är lätt att söka efter och hämta enskilda bitar av information men också att kunna ändra på informationen.
Här tar vi huvudsakligen upp den typ av databaser som har fördefinierade programvaror där man som användare matar in de uppgifter man vill ska finnas där varefter man använder de funktioner som finns fördefinierade. Användandet av dessa funktioner kan antingen ske via kommandorad eller via menyer. Data lagras sedan i filer vilka kan exporteras och importeras allt efter behov. Bland dessa program finns allt från den enklaste typen av så kallade kalkylblad (Excel) till dataprogram för statistik analys (SPSS, STATA m.fl.). SQL-baserade databaser ingår inte här (t.ex. MySQL, Microsoft SQL Server och PostgreSQL).
Kalkylblad
Kalkylblad är den enklaste formen av databaser och består vanligtvis av ett eller flera blad med tabulerad data. Kalkylblad kan, förutom data, innehålla formler, bilder, diagram och tabeller. Till exempel kan ytterligare värden (t.ex. totalsumman av en kolumn) skapas genom olika formler.
Databaser
I motsats till kalkylblad, vilka till stor del har samma grundläggande konstruktion och hantering av data, kan databaser delas in i ett antal olika typer baserade på deras arkitektur.
Hierarkisk databas är en äldre typ av databasmodell där data lagras i en trädstruktur, dvs. förälder-barn-förhållande, där varje post består av en ”förälder” som sedan kan ha ett eller flera ”barn” med liknande strukturer. Systemet är mycket snabbt på att ta fram enskilda poster och det är enkelt att lägga till/ta bort information, men modellen är minneskrävande, långsam på fri datasökning samt relationsmässigt stelbent.
Rektangulära databaser liknar kalkylblad i det att tabulerad data är organiserad i horisontella rader innehållande data om det undersökta objektet, och vertikala kolumner som representerar en bestämd typ, ett värde eller ett attribut som ska registreras för objektet. I rektangulära databaser kan det finnas en friare definition av vad data är men även hur data registreras i systemet.
Relationsdatabaser löser dessa och liknande problem genom att kräva en datastruktur som är fördefinierad genom att gruppera ihop data med liknande attribut till separata tabeller vilka sedan länkas ihop genom vissa s.k. nyckelfält. Kombinationen av ett eller flera nyckelfält kan generera en nyckel.
Objektorienterade databaser skapas för lagring av komplexa objekt, som t.ex. multimediafiler och CAD-objekt. Data lagras normalt inte i databasen utan som attribut i objekt. När ett program gör ett anrop till en objektdatabas görs sökningen inte alltid direkt i databasen utan programmet ber objektet att utföra en bestämd rutin och leverera ett resultat. Även vanliga data lagras i objektsdatabasen för att underlätta sökningar.
Viktiga egenskaper
Liksom textdokument förblir databaser och kalkylblad normalt i samma format genom hela skapelseprocessen. Det centrala i databaser och kalkylblad är själva datatabellerna/bladen tillsammans med dokumentation och metadata som beskriver innehållet i och relationerna mellan tabeller och blad.
De grundläggande elementen i en fil som ska bevaras och underhållas är:
- Värden – De faktiska data inom kalkylblad eller databaser inklusive cellrubriker och själva värdet i cellerna. Det kan finnas flera blad med data eller tabeller.
- Bilder – Figurer, diagram och tabeller som finns i kalkylblad. Databaser tillåter sällan infogat material. Det är däremot möjligt att länka till externa filer. Det är dock viktigt att vara medveten om att den typen av funktioner kommer mer och mer med nya typer av databaser (t.ex. i Microsoft Access accdb-filer).
- Layout – För framförallt kalkylblad där formatering och användandet av färger och vissa formatmallar används för att lyfta fram betydelsen hos delar av datamaterialet, blir det viktigt att bevara denna ytterligare information på något sätt. Att använda layoutfunktioner är vanligt när man med hjälp av kalkylblad vill ge form åt tabulär data. Om man i kalkylblad använder sig av funktioner som formatering, färger och formatmallar bör alternativa format, som t.ex. PDF/A, även användas parallellt för att bevara utseendet på data då formateringen oftast går förlorad när man exporterar data till textbaserade format.
- Relationer – Hos databaser, men även för kalkylblad, är det viktigt att relationer mellan tabeller/blad är väl dokumenterade och begripliga.
Generella kontroller
Bortsett från att säkerställa att viktiga egenskaper hos en fil bevaras vid konvertering från ett format till ett annat, så finns det ett antal kontroller som måste göras innan konverteringen sker. Dessa kontroller säkerställer att viktiga karakteristika hos ett kalkylblad eller en databas bibehålls och inte går förlorade under konverteringsprocessen.
- Layout och formatering – Användandet av formatering, färger och formatmallar kan innebära problem när man sedan ska migrera data till t.ex. komma- eller tab-separerade textfiler. Vid kontroll bör man titta efter rubriker som går över flera rader eller kolumner, men också efter information som lyfts fram genom användandet av färg, ramar eller annan font
- Tabeller och blad – Man bör gå igenom varje enskild fil för att bedöma vilka tabeller eller blad som ska bevaras och migreras. Kalkylblad kan innehålla ytterligare blad.
- Formler, queries (urval/förfrågningar), makron – Om en fil innehåller komplexa formler eller urvalsförfrågningar som måste bevaras som fristående resultat måste dessa definieras som uttagsversioner av databasen eller kalkylbladet. Det som då bör bevaras i uttagsfilerna är själva resultaten medan formler och urvalsförfrågningar bör bevaras separat i en textfil så att kalkylbladets funktionalitet kan återskapas vid ett senare tillfälle.
- Kommentarer och anteckningar – Kontrollera att eventuella kommentarer och anteckningar som finns i en fil kommer med. Dessa måste identifieras och sparas i en separat fil med klar information om vilken fil och vilken cell kommentaren/anteckningen tillhör.
- Dolda eller skyddade data – Ibland innehåller kalkylblad dolda eller skyddade celler. Dessa celler måste identifieras så att informationen om dessa och vad de innehåller inte går förlorad.
- Särskilda tecken eller avgränsare – Ibland kan en databas eller ett kalkylblad innehålla specialtecken eller olika slags avgränsare. Avgränsare som vertikalstreck (|), kommatecken eller tabbseparerare kan innebära problem i en fil när den ska migreras till textdokument med avgränsare varför den typen av tecken måste identifieras tidigt så att en strategi kan tas fram så att ingen information går förlorad.
- Länkar – För databaser är det viktigt att relationen mellan olika tabeller är väl dokumenterad. Både databaser och kalkylblad kan innehålla länkar till, eller namn på, filer som lagras separat utanför databasen/kalkylbladet. Om dessa externa filer är en del av projektet så måste det säkerställas att filnamn och filer lagras korrekt.
Kontroller efter migrering
Efter migrering av filer till andra format är det viktigt att genomföra ett antal kontroller för att säkerställa att data inte har förlorats eller blivit korrupta under processen. Dessa kontroller inkluderar:
- Kontrollera antalet rader efter konvertering.
- Kontrollera längden på textfälten så att informationen inte har kapats på grund av begränsning i teckenmängd.
- Kontrollera att alla arbetsblad och tabeller har exporterats.
- Kontrollera att specialtecken inte har gått förlorade.
Filformat för långtidslagring
För majoriteten av databaser och kalkylblad är det rekommenderade formatet för långtidsbevaring avgränsad text (tab, csv, etc). Det finns ibland stilistiska eller funktionella element i databaser och kalkylblad som bara kan bevaras i vissa format. I sådana fall är rekommendationen att ett öppet XML-baserat format, som .ods eller .xlsx, används eller att de delarna av filen dokumenteras och sparas tillsammans med en textbaserad export av data.
Kalkylblad
Föredragna format
- Kommaseparerade värden (.csv)
- MS Excel (.xlsx)
- OpenDocumented Spreadsheet (.ods)
- Tabseparerade värden (.csv)
Accepterade format
- MS Excel (.xls)
- OOXML (.docx, docm)
- PDF/A (.pdf)
Databaser
Föredragna format
- Kommaseparerade värden (.csv)
- SIARD (.siard)
- SQL (.sql)
- Tabseparerade värden (.csv)
Accepterade format
- dBase III eller IV (.dbf)
- Filemaker Pro (.fmp7, .fmp12)
- MS Access (.mdb, .accdb)
- OpenDocument Base (.odb)