Metadatastandarder
Från DAU-handboken
Några exempel på metadatastandarder
DDI
DDI är ett acronym som står för Data Documentation Initiative. Standarden är framtagen av DDI Alliancereliseras engligt ett XML-Schema som innehåller en uppsättning med element för metadata för alla möjliga typer av data.
DDI var från en början speciellt framtaget för att beskriva dataset som kommer från surveyundersökningar. DDI har dock utökats till att täcka in fler typer av data.
Enligt DDI-Aliansens egna definition:
“The Data Documentation Initiative (DDI) is an international standard for describing the data produced by surveys and other observational methods in the social, behavioral, economic, and health sciences. DDI is a free standard that can document and manage different stages in the research data lifecycle, such as conceptualization, collection, processing, distribution, discovery, and archiving. Documenting data with DDI facilitates understanding, interpretation, and use -- by people, software systems, and computer networks. Use DDI to Document, Discover, and Interoperate!”
Olika versioner
DDI Codebook (version 1.x till 2.x)
Lättviktsvarianten. Främst avsedd för att dokumentera enkla surveydata.
DDI Lifecycle (version 3.x)
Kompletta standarden. Designad för att dokumentera data över hela deras livscykel, från konceptualisering till publicering och vidare.
DDI Moving Forward (version 4)
Nästa generation. Designad som en informationsmodell. Större flexibilitet, bättre kommunikation med andra närliggande standarder.
Kontrollerade vokabulär
Förutom metadatastandarden DDI så har DDI-Aliansen tagit fram kontrollerade vokabulär för ett par av metadatafälten. Detta gör att det blir mer enhetligt mellan organisationer för värden i fält så som analysenhet. I DORIS används bland annat dessa kontrollerade vokabulären. Nya versioner och vokabulär är under ständig utveckling.
Mer information om kontrollerade vokabulär
Verktyg som använder DDI
Nesstar Publisher
Nesstar Publisher är ett verktyg för att dokumentera dataset med detaljerad information om dess variabler. Det finns stöd för att beskriva t.ex. kodlistor, missing values och vilka frågetexter som var ursprunget till variablen. Nesstar Publisher kan beskriva data från flera olika format så som SPSS, STATA, Excel och CSV. Metadatan kan exporteras som DDI-XML i version 1.2.2. Det finns även stöd för att generera kodböcker i PDF-format.
Nesstar Publisher är gratis men finns endast för Windows.
Du kan ladda ner Nesstar Publisher gratis på nesstar.com
Colectica for Excel
Colectica for Excel är ett tillägg till Microsoft Excel som ger möjlighet att dokumentera ett dataset direkt i Excel. Metadatan kan sparas direkt i Excel men även exporteras som DDI-XML (version 3.2). Jämfört med funktionaliteten i Nesstar Publisher så är Colectica for Excel ganska begränsad men har en lägre inlärningströskel för dom som redan är bekanta med Excel.
Det går även exportera en enklare kodbok som PDF, HTML och RTF (formaterad text kompatibel med t.ex. Microsoft Word).
Mer infromation och nedladdning finns på colectica.com
Fler verktyg
Fler verktyg finns listade på DDI-Aliansens hemsida
Dublin Core
Dublin Core är en metadatastandard med definitioner av metadata-element för beskrivning av informationsresurser. Det finns i princip ingen begränsning för vilken typ av resurs som kan beskrivas med hjälp av Dublin Core. Grunduppsättningen består av 15 metadataelement, Dublin Core Metadata Element Set (DCMES), som är fastställda i flera standarder, bl.a. RFC 5013 och ISO 15836-2009.
Dessa är:
- Titel
- Upphovsman
- Ämne och nyckelord
- Beskrivning
- Utgivare
- Medarbetare
- Datum
- Resurstyp
- Format
- Identifierare
- Källa
- Språk
- Relation
- Täckning
- Rättigheter
Qualified Dublin Core
Qualified Dublin Core, som är en utökad variant av Dublin Core, innehåller ytterligare tre element (eng. Audience, Provenance and RightsHolder) och flera vidareutvecklade/förfinade element. Dublin Core kan bland annat användas för att beskriva resurser som länkade data och på den semantiska webben, men betraktas som otillräckligt för att beskriva t.ex. arkivinformation i tillräckligt stor utsträckning.
META-SHARE
META-SHARE är en metadatastandard som är utvecklad för att beskriva språkdata. META-SHARE kan också användas för att beskriva verktyg och tjänster som tillämpas för bearbetningen av språkdata. META-SHARE bygger på Dublin Core (DC), men är betydligt mer omfattande och anpassad till språkresurser. META-SHARE-modellen är uppbyggd av följande enheter:
- själva resursen, dvs. språkdata och tekniska verktyg
- personer som har koppling till studien/projektet
- projektet (administrativa metadata om projektet)
- publikationer med koppling till resursen
- licensen
Själva språkresursen står i centrum för META-SHARE och för att metadata ska kunna anpassas till den resurs som beskrivs så förgrenar sig standarden i nio riktningar:
- Lexikala resurser
- Språkbeskrivningar (t.ex. ordlistor)
- Verktyg och tjänster
- Korpusar
- Textkorpusar
- Ljudkorpusar
- Bildkorpusar
- Videokorpusar
- Text-numeriska korpusar
- Ngramkorpusar
Vill du veta mer om META-SHARE så hittar du det här: http://www.meta-share.org/knowledgebase/overviewOfTheMetadataModel
Förenklat kan man säga att standarden är strukturerad enligt bilden nedan: