Åtgärder

Skillnad mellan versioner av "Databaser och kalkylblad"

Från DAU-handboken

 
(16 mellanliggande versioner av 5 användare visas inte)
Rad 1: Rad 1:
= Databaser och kalkylblad =
== Översikt ==


Även om databaser och kalkylprogram har olika funktioner så används de olika typerna av applikationer i många fall på liknande sätt för att samla in och lagra data (dvs. i rader och kolumner). Definitionen på vad en databas är varierar beroende på vem man pratar med. Klart är att en databas består av en samling information som hör ihop och är organiserad på så sätt att det är lätt att söka efter och hämta enskilda bitar av information men också att kunna ändra på informationen.
Även om databaser och kalkylprogram har olika funktioner så används de olika typerna av applikationer i många fall på liknande sätt för att samla in och lagra data (dvs. i rader och kolumner). Definitionen på vad en databas är varierar beroende på vem man pratar med. Klart är att en databas består av en samling information som hör ihop och är organiserad på så sätt att det är lätt att söka efter och hämta enskilda bitar av information.


Här tar vi huvudsakligen upp den typ av databaser som har fördefinierade programvaror där man som användare matar in de uppgifter man vill ska finnas där varefter man använder de funktioner som finns fördefinierade. Användandet av dessa funktioner kan antingen ske via kommandorad eller via menyer. Data lagras sedan i filer vilka kan exporteras och importeras allt efter behov. Bland dessa program finns allt från den enklaste typen av så kallade kalkylblad (Excel) till dataprogram för statistik analys (SPSS, STATA m.fl.). SQL-baserade databaser ingår inte här (t.ex. MySQL, Microsoft SQL Server och PostgreSQL).
Här fokuserar vi på data som genererats, antingen genom den enklaste typen av så kallade kalkylblad (Excel) eller i mer avancerade program för statistisk analys (SPSS, STATA m.fl.). SQL-baserade databaser ingår inte här (t.ex. MySQL, Microsoft SQL Server och PostgreSQL).


=== Kalkylblad ===
=== Kalkylblad ===


Kalkylblad är den enklaste formen av databaser och består vanligtvis av ett eller flera blad med tabulerad data. Kalkylblad kan, förutom data, innehålla formler, bilder, diagram och tabeller. Till exempel kan ytterligare värden (t.ex. totalsumman av en kolumn) skapas genom olika formler.
Kalkylblad är den enklaste formen av databaser och består vanligtvis av ett eller flera blad med tabulerade data (t.ex. Excel). Kalkylblad kan, förutom data, innehålla formler, bilder, diagram och tabeller. Till exempel kan ytterligare värden (t.ex. totalsumman av en kolumn) skapas genom olika formler.


=== Databaser ===
=== Databaser ===


I motsats till kalkylblad, vilka till stor del har samma grundläggande konstruktion och hantering av data, kan databaser delas in i ett antal olika typer baserade på deras arkitektur.
I motsats till kalkylblad, som till stor del har samma grundläggande konstruktion, kan databaser delas in i ett antal olika typer baserade på arkitektur.


''Hierarkisk databas'' är en äldre typ av databasmodell där data lagras i en trädstruktur, dvs. förälder-barn-förhållande, där varje post består av en ”förälder” som sedan kan ha ett eller flera ”barn” med liknande strukturer. Systemet är mycket snabbt på att ta fram enskilda poster och det är enkelt att lägga till/ta bort information, men modellen är minneskrävande, långsam på fri datasökning samt relationsmässigt stelbent.
;Hierarkisk databas :är en äldre typ av databasmodell där data lagras i en trädstruktur, dvs. förälder-barn-förhållande. Varje post består av en ”förälder” som sedan kan ha ett eller flera ”barn” med liknande strukturer. Systemet är mycket snabbt på att ta fram enskilda poster och det är enkelt att lägga till/ta bort information, men modellen är minneskrävande och relationsmässigt stelbent.


''Rektangulära databaser'' liknar kalkylblad i det att tabulerad data är organiserad i horisontella rader innehållande data om det undersökta objektet, och vertikala kolumner som representerar en bestämd typ, ett värde eller ett attribut som ska registreras för objektet. I rektangulära databaser kan det finnas en friare definition av vad data är men även hur data registreras i systemet.
;Rektangulära databaser :liknar kalkylblad i det att tabulerade data är organiserade i horisontella rader med data om det undersökta objektet och vertikala kolumner som representerar en bestämd typ, ett värde eller ett attribut som ska registreras för objektet. I rektangulära databaser kan det finnas en friare definition av vad data är, men även hur data registreras i systemet.


''Relationsdatabaser'' löser dessa och liknande problem genom att kräva en datastruktur som är fördefinierad genom att gruppera ihop data med liknande attribut till separata tabeller vilka sedan länkas ihop genom vissa s.k. nyckelfält. Kombinationen av ett eller flera nyckelfält kan generera en nyckel.
;Relationsdatabaser :löser dessa och liknande problem genom att kräva en datastruktur som är fördefinierad genom att gruppera data med liknande attribut till separata tabeller som sedan länkas ihop genom vissa s.k. nyckelfält. Kombinationen av ett eller flera nyckelfält kan generera en nyckel.


''Objektorienterade databaser'' skapas för lagring av komplexa objekt, som t.ex. multimediafiler och CAD-objekt. Data lagras normalt inte i databasen utan som attribut i objekt. När ett program gör ett anrop till en objektdatabas görs sökningen inte alltid direkt i databasen utan programmet ber objektet att utföra en bestämd rutin och leverera ett resultat. Även vanliga data lagras i objektsdatabasen för att underlätta sökningar.
Objektorienterade databaser :skapas för lagring av komplexa objekt, t.ex. multimediafiler och CAD-objekt. Data lagras normalt inte i databasen utan som attribut i objekt. När ett program gör ett anrop till en objektdatabas görs sökningen inte alltid direkt i databasen utan programmet ber objektet att utföra en bestämd rutin och leverera ett resultat. Även vanliga data lagras i objektsdatabasen för att underlätta sökningar.


== Viktiga egenskaper ==
== Viktiga egenskaper ==


Liksom textdokument förblir databaser och kalkylblad normalt i samma format genom hela skapelseprocessen. Det centrala i databaser och kalkylblad är själva datatabellerna/bladen tillsammans med dokumentation och metadata som beskriver innehållet i och relationerna mellan tabeller och blad.
I likhet med textdokument förblir databaser och kalkylblad normalt i samma format genom hela skapelseprocessen. Det centrala i databaser och kalkylblad är själva datatabellerna/bladen tillsammans med dokumentation och metadata som beskriver innehållet i och relationerna mellan tabeller och blad.


De grundläggande elementen i en fil som ska bevaras och underhållas är:
De grundläggande filelementen som ska bevaras och underhållas är:


* '''Värden''' – De faktiska data inom kalkylblad eller databaser inklusive cellrubriker och själva värdet i cellerna. Det kan finnas flera blad med data eller tabeller.
;Värden :Cellrubriker och själva värdet i cellerna. Det kan finnas flera blad med data eller tabeller.
* '''Bilder''' – Figurer, diagram och tabeller som finns i kalkylblad. Databaser tillåter sällan infogat material. Det är däremot möjligt att länka till externa filer. Det är dock viktigt att vara medveten om att den typen av funktioner kommer mer och mer med nya typer av databaser (t.ex. i Microsoft Access accdb-filer).
;Bilder :Figurer, diagram och tabeller som finns i kalkylblad. Det är däremot möjligt att länka till externa filer. Det är dock viktigt att vara medveten om att den typen av funktioner kommer mer och mer med nya typer av databaser (t.ex. i Microsoft Access accdb-filer).
* '''Layout''' – För framförallt kalkylblad där formatering och användandet av färger och vissa formatmallar används för att lyfta fram betydelsen hos delar av datamaterialet, blir det viktigt att bevara denna ytterligare information på något sätt. Att använda layoutfunktioner är vanligt när man med hjälp av kalkylblad vill ge form åt tabulär data. Om man i kalkylblad använder sig av funktioner som formatering, färger och formatmallar bör alternativa format, som t.ex. PDF/A, även användas parallellt för att bevara utseendet på data då formateringen oftast går förlorad när man exporterar data till textbaserade format.
;Layout :Det är vanligt att framförallt i kalkylblad använda formatering, färger och formatmallar för att ge form åt tabulära data och lyfta fram betydelsen hos delar av datamaterialet. Om man använder sådana layoutfunktioner är det viktigt att bevara denna ytterligare information på något sätt. Det rekommenderas därför att man använder alternativa format, t.ex. [https://en.wikipedia.org/wiki/PDF/A PDF/A], parallellt för att bevara utseendet på data, eftersom formatering ofta går förlorad när man exporterar data till textbaserade format.
* '''Relationer''' – Hos databaser, men även för kalkylblad, är det viktigt att relationer mellan tabeller/blad är väl dokumenterade och begripliga.
;Relationer :Hos databaser, men även i kalkylblad, är det viktigt att relationer mellan tabeller/blad är väl dokumenterade och begripliga.


=== Generella kontroller ===
=== Generella kontroller ===
Rad 36: Rad 36:
Bortsett från att säkerställa att viktiga egenskaper hos en fil bevaras vid konvertering från ett format till ett annat, så finns det ett antal kontroller som måste göras innan konverteringen sker. Dessa kontroller säkerställer att viktiga karakteristika hos ett kalkylblad eller en databas bibehålls och inte går förlorade under konverteringsprocessen.
Bortsett från att säkerställa att viktiga egenskaper hos en fil bevaras vid konvertering från ett format till ett annat, så finns det ett antal kontroller som måste göras innan konverteringen sker. Dessa kontroller säkerställer att viktiga karakteristika hos ett kalkylblad eller en databas bibehålls och inte går förlorade under konverteringsprocessen.


* '''Layout och formatering''' Användandet av formatering, färger och formatmallar kan innebära problem när man sedan ska migrera data till t.ex. komma- eller tab-separerade textfiler. Vid kontroll bör man titta efter rubriker som går över flera rader eller kolumner, men också efter information som lyfts fram genom användandet av färg, ramar eller annan font
* '''Layout och formatering:''' Användandet av formatering, färger och formatmallar kan innebära problem när man sedan ska migrera data till t.ex. komma- eller tabb-separerade textfiler. Vid kontroll bör man titta efter rubriker som går över flera rader eller kolumner, men också efter information som lyfts fram genom användning av färg, ramar eller andra typsnitt.
* '''Tabeller och blad''' – Man bör gå igenom varje enskild fil för att bedöma vilka tabeller eller blad som ska bevaras och migreras. Kalkylblad kan innehålla ytterligare blad.
* '''Formler, queries (urval/förfrågningar), makron''' – Om en fil innehåller komplexa formler eller urvalsförfrågningar som måste bevaras som fristående resultat måste dessa definieras som uttagsversioner av databasen eller kalkylbladet. Det som då bör bevaras i uttagsfilerna är själva resultaten medan formler och urvalsförfrågningar bör bevaras separat i en textfil så att kalkylbladets funktionalitet kan återskapas vid ett senare tillfälle.
* '''Kommentarer och anteckningar''' – Kontrollera att eventuella kommentarer och anteckningar som finns i en fil kommer med. Dessa måste identifieras och sparas i en separat fil med klar information om vilken fil och vilken cell kommentaren/anteckningen tillhör.
* '''Dolda eller skyddade data''' – Ibland innehåller kalkylblad dolda eller skyddade celler. Dessa celler måste identifieras så att informationen om dessa och vad de innehåller inte går förlorad.
* '''Särskilda tecken eller avgränsare''' – Ibland kan en databas eller ett kalkylblad innehålla specialtecken eller olika slags avgränsare. Avgränsare som vertikalstreck (|), kommatecken eller tabbseparerare kan innebära problem i en fil när den ska migreras till textdokument med avgränsare varför den typen av tecken måste identifieras tidigt så att en strategi kan tas fram så att ingen information går förlorad.
* '''Länkar''' – För databaser är det viktigt att relationen mellan olika tabeller är väl dokumenterad. Både databaser och kalkylblad kan innehålla länkar till, eller namn på, filer som lagras separat utanför databasen/kalkylbladet. Om dessa externa filer är en del av projektet så måste det säkerställas att filnamn och filer lagras korrekt.
==== Kontroller efter migrering ====


Efter migrering av filer till andra format är det viktigt att genomföra ett antal kontroller för att säkerställa att data inte har förlorats eller blivit korrupta under processen. Dessa kontroller inkluderar:
* '''Tabeller och blad:''' Man bör gå igenom varje enskild fil för att bedöma vilka tabeller eller blad som ska bevaras och migreras. Kalkylblad kan innehålla flera blad.


* Kontrollera antalet rader efter konvertering.
* '''Formler, queries (urval/förfrågningar), makron:''' Om en fil innehåller komplexa formler eller urvalsförfrågningar måste dessa bevaras separat i en textfil så att kalkylbladets funktionalitet kan återskapas vid ett senare tillfälle.
* Kontrollera längden på textfälten att informationen inte har kapats på grund av begränsning i teckenmängd.
* Kontrollera att alla arbetsblad och tabeller har exporterats.
* Kontrollera att specialtecken inte har gått förlorade.


== Filformat för långtidslagring ==
* '''Kommentarer och anteckningar:''' Kontrollera att eventuella kommentarer och anteckningar som finns i en fil kommer med. Dessa måste sparas i en separat fil med tydlig information om vilken fil och vilken cell som kommentaren/anteckningen hör till.


För majoriteten av databaser och kalkylblad är det rekommenderade formatet för långtidsbevaring avgränsad text (tab, csv, etc). Det finns ibland stilistiska eller funktionella element i databaser och kalkylblad som bara kan bevaras i vissa format. I sådana fall är rekommendationen att ett öppet XML-baserat format, som .ods eller .xlsx, används eller att de delarna av filen dokumenteras och sparas tillsammans med en textbaserad export av data.
* '''Dolda eller skyddade data:''' Ibland innehåller kalkylblad dolda eller skyddade celler. Dessa celler måste identifieras så att informationen i dem inte går förlorad.


=== Kalkylblad ===
* '''Specialtecken eller avgränsare:''' Ibland kan en databas eller ett kalkylblad innehålla specialtecken eller olika slags avgränsare. Avgränsare som vertikalstreck, kommatecken eller tabseparerare kan innebära problem i en fil när den ska migreras till textdokument. Den typen av tecken måste identifieras tidigt för att ta fram en strategi för att se till att ingen information går förlorad.


''Föredragna format''
* '''Länkar:''' För databaser är det viktigt att relationen mellan olika tabeller är väl dokumenterad. Både databaser och kalkylblad kan innehålla länkar till, eller namn på, filer som lagras separat utanför databasen/kalkylbladet. Om dessa externa filer är en del av projektet så måste det säkerställas att filnamn och filer lagras korrekt.


* Kommaseparerade värden (.csv)
=== Kontroller efter migrering ===
* MS Excel (.xlsx)
* OpenDocumented Spreadsheet (.ods)
* Tabseparerade värden (.csv)


''Accepterade format''
Efter migrering av filer till andra format är det viktigt att genomföra ett antal kontroller för att säkerställa att data inte har förlorats eller blivit korrupta under processen. Dessa kontroller inkluderar:


* MS Excel (.xls)
* Kontrollera antalet rader efter konvertering.
* OOXML (.docx, docm)
* Kontrollera längden på textfälten så att informationen inte har kapats på grund av begränsning i teckenmängd.
* PDF/A (.pdf)
* Kontrollera att alla arbetsblad och tabeller har exporterats.
 
* Kontrollera att specialtecken inte har gått förlorade.
=== Databaser ===


''Föredragna format''
== Filformat för långtidsbevarande ==


* Kommaseparerade värden (.csv)
För majoriteten av databaser och kalkylblad är det rekommenderade formatet för långtidsbevarande avgränsad text (tab, csv osv.). Det finns ibland stilistiska eller funktionella element i databaser och kalkylblad som bara kan bevaras i vissa format. I sådana fall är rekommendationen att ett öppet XML-baserat format, som .ods eller .xlsx, används eller att de delarna av filen dokumenteras och sparas tillsammans med en textbaserad export av data.
* SIARD (.siard)
* SQL (.sql)
* Tabseparerade värden (.csv)


''Accepterade format''


* dBase III eller IV (.dbf)
== Guide ==
* Filemaker Pro (.fmp7, .fmp12)
[https://snd.gu.se/sites/snd.gu.se/files/SND%3B%20Databaser%20och%20kalkylprogram%3B%20En%20guide%20till%20god%20hantering_2017-03-13_0.pdf#overlay-context=sv/datahantering/guider Guide för databaser och kalkylblad]
* MS Access (.mdb, .accdb)
* OpenDocument Base (.odb)

Nuvarande version från 22 februari 2022 kl. 14.15

Översikt

Även om databaser och kalkylprogram har olika funktioner så används de olika typerna av applikationer i många fall på liknande sätt för att samla in och lagra data (dvs. i rader och kolumner). Definitionen på vad en databas är varierar beroende på vem man pratar med. Klart är att en databas består av en samling information som hör ihop och är organiserad på så sätt att det är lätt att söka efter och hämta enskilda bitar av information.

Här fokuserar vi på data som genererats, antingen genom den enklaste typen av så kallade kalkylblad (Excel) eller i mer avancerade program för statistisk analys (SPSS, STATA m.fl.). SQL-baserade databaser ingår inte här (t.ex. MySQL, Microsoft SQL Server och PostgreSQL).

Kalkylblad

Kalkylblad är den enklaste formen av databaser och består vanligtvis av ett eller flera blad med tabulerade data (t.ex. Excel). Kalkylblad kan, förutom data, innehålla formler, bilder, diagram och tabeller. Till exempel kan ytterligare värden (t.ex. totalsumman av en kolumn) skapas genom olika formler.

Databaser

I motsats till kalkylblad, som till stor del har samma grundläggande konstruktion, kan databaser delas in i ett antal olika typer baserade på arkitektur.

Hierarkisk databas
är en äldre typ av databasmodell där data lagras i en trädstruktur, dvs. förälder-barn-förhållande. Varje post består av en ”förälder” som sedan kan ha ett eller flera ”barn” med liknande strukturer. Systemet är mycket snabbt på att ta fram enskilda poster och det är enkelt att lägga till/ta bort information, men modellen är minneskrävande och relationsmässigt stelbent.
Rektangulära databaser
liknar kalkylblad i det att tabulerade data är organiserade i horisontella rader med data om det undersökta objektet och vertikala kolumner som representerar en bestämd typ, ett värde eller ett attribut som ska registreras för objektet. I rektangulära databaser kan det finnas en friare definition av vad data är, men även hur data registreras i systemet.
Relationsdatabaser
löser dessa och liknande problem genom att kräva en datastruktur som är fördefinierad genom att gruppera data med liknande attribut till separata tabeller som sedan länkas ihop genom vissa s.k. nyckelfält. Kombinationen av ett eller flera nyckelfält kan generera en nyckel.

Objektorienterade databaser :skapas för lagring av komplexa objekt, t.ex. multimediafiler och CAD-objekt. Data lagras normalt inte i databasen utan som attribut i objekt. När ett program gör ett anrop till en objektdatabas görs sökningen inte alltid direkt i databasen utan programmet ber objektet att utföra en bestämd rutin och leverera ett resultat. Även vanliga data lagras i objektsdatabasen för att underlätta sökningar.

Viktiga egenskaper

I likhet med textdokument förblir databaser och kalkylblad normalt i samma format genom hela skapelseprocessen. Det centrala i databaser och kalkylblad är själva datatabellerna/bladen tillsammans med dokumentation och metadata som beskriver innehållet i och relationerna mellan tabeller och blad.

De grundläggande filelementen som ska bevaras och underhållas är:

Värden
Cellrubriker och själva värdet i cellerna. Det kan finnas flera blad med data eller tabeller.
Bilder
Figurer, diagram och tabeller som finns i kalkylblad. Det är däremot möjligt att länka till externa filer. Det är dock viktigt att vara medveten om att den typen av funktioner kommer mer och mer med nya typer av databaser (t.ex. i Microsoft Access accdb-filer).
Layout
Det är vanligt att framförallt i kalkylblad använda formatering, färger och formatmallar för att ge form åt tabulära data och lyfta fram betydelsen hos delar av datamaterialet. Om man använder sådana layoutfunktioner är det viktigt att bevara denna ytterligare information på något sätt. Det rekommenderas därför att man använder alternativa format, t.ex. PDF/A, parallellt för att bevara utseendet på data, eftersom formatering ofta går förlorad när man exporterar data till textbaserade format.
Relationer
Hos databaser, men även i kalkylblad, är det viktigt att relationer mellan tabeller/blad är väl dokumenterade och begripliga.

Generella kontroller

Bortsett från att säkerställa att viktiga egenskaper hos en fil bevaras vid konvertering från ett format till ett annat, så finns det ett antal kontroller som måste göras innan konverteringen sker. Dessa kontroller säkerställer att viktiga karakteristika hos ett kalkylblad eller en databas bibehålls och inte går förlorade under konverteringsprocessen.

  • Layout och formatering: Användandet av formatering, färger och formatmallar kan innebära problem när man sedan ska migrera data till t.ex. komma- eller tabb-separerade textfiler. Vid kontroll bör man titta efter rubriker som går över flera rader eller kolumner, men också efter information som lyfts fram genom användning av färg, ramar eller andra typsnitt.
  • Tabeller och blad: Man bör gå igenom varje enskild fil för att bedöma vilka tabeller eller blad som ska bevaras och migreras. Kalkylblad kan innehålla flera blad.
  • Formler, queries (urval/förfrågningar), makron: Om en fil innehåller komplexa formler eller urvalsförfrågningar så måste dessa bevaras separat i en textfil så att kalkylbladets funktionalitet kan återskapas vid ett senare tillfälle.
  • Kommentarer och anteckningar: Kontrollera att eventuella kommentarer och anteckningar som finns i en fil kommer med. Dessa måste sparas i en separat fil med tydlig information om vilken fil och vilken cell som kommentaren/anteckningen hör till.
  • Dolda eller skyddade data: Ibland innehåller kalkylblad dolda eller skyddade celler. Dessa celler måste identifieras så att informationen i dem inte går förlorad.
  • Specialtecken eller avgränsare: Ibland kan en databas eller ett kalkylblad innehålla specialtecken eller olika slags avgränsare. Avgränsare som vertikalstreck, kommatecken eller tabseparerare kan innebära problem i en fil när den ska migreras till textdokument. Den typen av tecken måste identifieras tidigt för att ta fram en strategi för att se till att ingen information går förlorad.
  • Länkar: För databaser är det viktigt att relationen mellan olika tabeller är väl dokumenterad. Både databaser och kalkylblad kan innehålla länkar till, eller namn på, filer som lagras separat utanför databasen/kalkylbladet. Om dessa externa filer är en del av projektet så måste det säkerställas att filnamn och filer lagras korrekt.

Kontroller efter migrering

Efter migrering av filer till andra format är det viktigt att genomföra ett antal kontroller för att säkerställa att data inte har förlorats eller blivit korrupta under processen. Dessa kontroller inkluderar:

  • Kontrollera antalet rader efter konvertering.
  • Kontrollera längden på textfälten så att informationen inte har kapats på grund av begränsning i teckenmängd.
  • Kontrollera att alla arbetsblad och tabeller har exporterats.
  • Kontrollera att specialtecken inte har gått förlorade.

Filformat för långtidsbevarande

För majoriteten av databaser och kalkylblad är det rekommenderade formatet för långtidsbevarande avgränsad text (tab, csv osv.). Det finns ibland stilistiska eller funktionella element i databaser och kalkylblad som bara kan bevaras i vissa format. I sådana fall är rekommendationen att ett öppet XML-baserat format, som .ods eller .xlsx, används eller att de delarna av filen dokumenteras och sparas tillsammans med en textbaserad export av data.


Guide

Guide för databaser och kalkylblad