Vad ska göras tillgängligt?
Från DAU-handboken
När en forskare hör av sig för att deponera sina data kan frågan uppstå om vilka data ska egentligen deponeras. Olika projekt kan producera väldigt olika data, men några generella riktlinjer gäller för de flesta, om inte alla, projekt:
Rådata, kalibrerade data, bearbetade data m.m.
Forskningsdatas format kan bero på olika faktorer, som forskningsområde, syfte och projektmål. Olika material kan räknas som forskningsdata beroende på forskningsprojektet, till exempel rådata, bearbetade data, modeller, mjukvaror, kod, algoritmer och metoder.
När ett forskningsprojekt producerar mycket material kan det uppstå frågor om vilken del av detta material som ska betraktas som forskningsdata och hur mycket av det som kallas för data som ska publiceras. Var hamnar allt det som inte är data? Det här är frågor som kan vara mer eller mindre lättbesvarade, beroende på projekt och material. Här kan man råda forskaren att fundera över vilken roll som publikationen av forskningsdata spelar. Att publicera forskningsdata gör det möjligt för andra att återanvända dessa data i andra syften, samt att verifiera resultaten i en artikel genom att reproducera studiens databearbetning.
Man ska alltså publicera tillräckligt mycket data (och metadata och dokumentation) för att göra det möjligt att uppfylla de här båda syftena. Samtidigt ska de data som publiceras vara användbara, relevanta och i rimlig mängd, vilket man säkerställer genom rimlig kalibrering, gallring, omformatering och annan bearbetning.
Man kan också fundera över vilken nytta man har av att tillgängliggöra data från olika faser av ett forskningsprojekt. Räcker det med bearbetade data eller finns det någon nytta i att publicera rådata, data från olika faser i projektet osv?
Att publicera data från olika delar av forskningsprojektets gång
I vissa fall är det viktigt att hela arbetsflödet som ledde till det slutliga materialet ska kunna förstås av andra. I det här fallet kan det vara viktigt för forskaren att publicera data från olika faser av projektet. Till exempel: råa temperaturmätningar, kalibrerade mätningar, och den resulterande temperaturmodellen som skapades av dessa mätningar.
Det är viktigt att inte 'överpublicera', och endast publicera de mest nödvändiga stegen i processen, så att den kan återskapas. Data från steg som kan lätt återskapas av andra behöver inte följa med.
Till exempel: Om man vill publicera spatiala data där man gick in och röjde eller ändrade värden för hand så kan det vissa (obs. inte alla) fall vara önskvärt att publicera en tidigare version av datamaterialet. Har man istället temperaturdata där den enda bearbetningen som gjordes var att konvertera Celsius till Kelvin så är det inte lika viktigt att både versionerna publiceras.
I många fall är det däremot inte rimligt, eller ens önskvärt, att publicera data från olika faser i ett forskningsprojekt.
Dokumentation och stödmaterial
Att en del av materialet som produceras under ett forskningsprojekt inte räknas som data betyder inte att man måste avstå från att publicera det. Om materialet bedöms vara till hjälp med att verifiera eller återanvända de data som publiceras kan det tillgängliggöras som dokumentation. Ett vanligt krav vi ställer på forskare är att de ska lämna in ett dokument med förklaringar till alla variabler/kolumner i ett dataset. Förklaringarna publiceras tillsammans med datamaterialet.
Ett exempel: En forskare vill publicera tabulära data. Forskaren har använt sig av programkod för att implementera en algoritm som omvandlar data till lättolkade tabeller som har publicerats i en bifogad artikel. Även om koden inte räknas som data i det här fallet kan den publiceras vid sidan av datamaterialet i samma katalogpost.