Dokument och text
Från DAU-handboken
Dokument och text
De vanligaste filtyperna som skapas under ett forskningsprojekt är olika typer av dokument och textfiler. Oavsett typ av forskningsprojekt så kommer, om inte annat, en slutrapport i form av ett textdokument att skrivas. Textdokument kan skapas på flera olika sätt men de flesta skapas via olika ordbehandlingsprogram som t.ex. Microsoft Word eller OpenOffice-baserade program (LibreOffice, Apache OpenOffice, NeoOffice etc.). Förutom att dokument skapas via ordbehandlingsprogram, kan dokument också skapas som ett resultat av digitalisering. Digitalisering av facktidskrifter i syfte att bevara eller tillgängliggöra samlingar skapade före den digitala åldern är oftast den största källan till digitala texter bortsett från de som skapas med ett ordbehandlingsprogram.
Viktiga egenskaper
Viktiga egenskaper, dvs. de grundläggande element i texter och dokument som ska bevaras och underhållas, beskrivs nedan:
- Ord och ordföljd i dokumentet
- Den hierarkiska strukturen i dokumentet (t.ex. olika rubriknivåer)
- Formateringen inom dokumentet (t.ex. fetstil, kursiv stil)
- Sidnumreringen av dokumentet. Detta är viktigt om dokumentet är en rapport eller en avhandling, publicerat eller ej. Om en användare vill citera och referera till dokumentet så måste sidangivelsen vara korrekt. Det gäller att vara extra observant om dokumentet migreras ett flertal gånger
- Infogat material, som bilder och datatabeller. Säkerställ att de bevaras separat
Det finns även egenskaper som inte alltid ses som viktiga att bevara. Däribland fonttyp och fontstorlek (förutsatt att det inte påverkar formatering och sidbrytning). Viktiga egenskaper i ett dokument kan dock förändras beroende på dokumentet som ska bevaras. Oavsett så bör man vid genomgång av ett dokument som ska långtidslagras bedöma vilka av ovanstående element som måste bevaras.
Filformat för långtidslagring
Tittar man på filformat för långtidslagring och arkivering finns det idag en generell rekommendation att använda sig av standardiserade XML-format som Microsofts OOXML (docx) och OpenOffice ODF (odt). ODF använder sig på ett bättre sätt av öppna och existerande standarder som t.ex. SVG (Scalable Vector Graphics). Som komplement till dessa XML-baserade format så kan PDF/A vara ett potentiellt format för långtidslagring men då i huvudsak för dokument som annars bara existerar i PDF-format. Även om PDF/A är ett binärt format så är det en öppen standard där programvara för att kunna läsa filerna är gratis och lätt att hitta, bland annat genom ett ökat tredjepartsstöd.
Föredragna format
- ASCII (.txt)
- MS Word (.docx)
- OpenDocument Text (.odt)
- PDF/A (.pdf)
- Unicode (.txt)
Accepterade format
- MS Word (.doc)
- PDF (.pdf)
- Rich Text Format (.rtf)