Korp

Information om Korp

https://spraakbanken.gu.se/korp

Korp är en samling av flera korpusar som finns vid Språkbanken på Göteborgs universitet, en nationell enhet placerad vid Göteborgs universitets humanistiska fakultet. Språkbankens uppdrag är att samla in, utveckla och tillgängliggöra språkresurser (till exempel korpusar, lexikon etc) åt forskare och allmänheten. Resurserna används av forskare i och utanför Sverige. De används också mycket av allmänheten, eftersom huvuddelen av resurserna är fritt åtkomliga. På språkbankens hemsida finns mer information. Språkbankens verktyg ingår också i Swe-Clarin som är den svenska delen av CLARIN (Common Language Resources and Technology Infrastructure) en internationell infrastruktur för e-vetenskap inom humaniora och samhällsvetenskap. Swe-Clarin gör språkbaserade material tillgängliga som forskningsdata med hjälp av avancerade bearbetningsverktyg och andra resurser. En grundtanke är att den ökande mängden text och tal – samtida och historiskt – som digitalt forskningsmaterial möjliggör nya former av e-vetenskap och nya sätt att tackla gamla forskningsfrågor.

Lathund

I Korp väljer man att söka i alla eller i ett urval av korpusar med hjälp av korpusväljaren. Totalt innehåller Korp i dagsläget 237 korpusar, den växer hela tiden.

13 av Korps korpusar innehåller skyddat data. Pekar man på dem med musen så får man information om vem man ska kontakta för att eventuellt kunna ta del av datan.

Ovanför korpusarna finns det en tidslinje med staplar, som ger en överblick över materialets fördelning över tid. Markerade korpusar syns som blå staplar, medan ej markerade syns som grå. Allt material innehåller inte information om tid, och därför finns det längst till höger även en röd stapel, som representerar allt odaterat material.

Dokumentationsmöjligheter

Korp är i första hand är ett sökverktyg och ett analysprogram, och medger få möjligheter för god metadatahantering och dokumentation. Detta måste göras i ett annat program, eller i någon annan form av noteringsapplikation. Korp är en infrastruktur för i första hand språkvetenskaplig forskning på textmaterial, som är försedda med metadata.

Resultatvyn, som visas först efter att en sökning har utförts, är uppdelad i fyra olika avdelningar: KWIC (står för "keyword in context"), Statistik, Ordbild samt Karta. Längst ner på sidan under KWIC-raderna, finns möjligheten att exportera den aktuella sidans träffar i olika format för nedladdning. Även statistiktabeller är möjliga att exportera. Längst ner på sidan, under tabellen, finns möjligheten att exportera statistiktabellen i olika format för nedladdning.

Det som är data för en forskare kan vara metadata för en annan forskare. I Korp blir detta tydligt. För den forskare som är intresserad av innehållet i texterna blir uppmärkningen som t.ex. ordform metadata. För den forskare som studerar grammatik är ordet i sig ointressant men informationen och uppmärkningen av ordet är det som är forskningsdata.

Filtyper som stöds i Korp

Resultat av sökning och analyser i Korp kan föras över och bearbetas i något annat program för textanalys. Vilken filtyp man väljer att konvertera materialet från Korp till blir alltså beroende av vilket program som används för vidare analys.

Filer kan överföras till andra program antingen som CSV eller TSV. Båda är textfilsformat. CSV står för Comma-separated values och innebär att värdena separeras av ett separatortecken, till exempel komma [ , ] eller kolon [ : ]. Med TSV eller Tab-separated values separeras värdena av en tab [ ]. Båda formaten används när data ska flyttas mellan program. CSV kan ibland orsaka problem när det är texter som ska överföras eftersom tecken som komma eller kolon kan förekomma i själva texten. Detta undviker man med TSV. Istället kan man få problem att skilja tabbarna från mellanslag, särskilt om man redigerar filen för hand. En fördel med CSV och TSV är att de oftast kan öppnas direkt i t.ex. Excel.

Båda formaten kan rekommenderas för långtidslagring av data. Observera att det finns flera olika CSV-format. Dessa kan bete sig olika beroende på i vilken miljö man öppnar filen.

Att öppna och spara en fil

I Korp finns möjlighet att spara en sida ur en träfflista som CSV eller TSV med antingen “en mening per rad” eller “ett token per rad med annotationer”. Det går inte att öppna några filer i Korp så som det ser ut för en vanlig användare, utan inmatning sker med hjälp av sökning i databasen. Forskare kan kontakta Språkbanken (eller Swe-Clarin) för att undersöka möjlighet att lägga in korpusar i Korp. Information om filformat och hur dessa filer ska vara strukturerade fås i kontakten med Språkbanken. Vilka metadata som ska följa med korpusen bestäms av forskaren.

Källor

Språkbanken (2018). Korp Användarhandledning

SND (2018). Bas Online

SND (2017). Databaser och kalkylblad: En guide till god hantering

Författare: Ida Ahlström, Andrea Carozzi Bjurström, Stina Högvik Hansson & Kristina Lönn

Senast uppdaterad: 2018-05-25