KH Coder
Från DAU-handboken
Information om KH Coder
KH Coder är ett fritt program, licensierat under GNU General Public License, och kan användas för kvantitativ analys av texter med fokus på innehållsanalys och text mining. Programmet är ursprungligen utvecklat för analys av japanska, men kan även användas för katalanska, kinesiska (förenklad), nederländska, engelska, franska, tyska, italienska, koreanska, portugisiska, ryska, slovenska och spanska. Funktionaliteten kan variera något beroende på språk utifrån att olika resurser används för processning av data.
Programmet kan köras på Windows, Mac och Linux. I Windows är installation gratis och automatiserad. På Mac kostar motsvarande funktion 36 USD. Man kan också installera manuellt på Mac och Linux. Java och Stanford POS Tagger måste finnas installerat för analys av engelsk text. KH Coder använder sig av R, MySQL och Perl för att processa och analysera data. På Linux och Mac installerar man relevanta paket och moduler av dessa manuellt utifrån vad programmet efterfrågar för att fungera. Funktionaliteten kan variera något beroende på operativsystem.
KH Coder kan extrahera enstaka ord eller fraser från en textmassa och resultat kan presenteras som frekvenslistor i tabellform, som Keyword in context eller grafiskt med visualisering av nätverk och kluster som visar förekomst, närhet och andra relationer eller kopplingar mellan ord i textmassan. Det går även att rikta analysen mot vissa avsnitt av en text, förutsatt att struktur och delar i textmassan är definierade. Man kan lägga till variabler och egen kod som definierar parametrar för analys av text. Det går även att ange SQL-kommandon direkt i programmet och man kan skapa tilläggskod i form av Perl-script. De senare läggs i mappen “plugin_en”.
(En kortfattad beskrivning av programmet: vad kan det användas till för forskningsändamål (Ofta är detta bredare än vad programmets skapare avser; tänk brett), vilken övergripande funktionalitet har det, vilka olika licenser finns och vad skiljer dem åt, vilka datatyper är det lämpat för och vad kan man göra med dessa.)
Lathund
Beskrivningen för version 3.Alpha.16 av KH Coder.
Dokumentationsmöjligheter
För KH Coder finns ingen självklar eller automatisk lösning för dokumentation, utan det måste lösas genom att spara och berika de filer som används i programmet. Ett förslag är att lägga till kommentarer i textfilerna för att förklara innehållet, samt att skapa en readme-fil med komplettterande information. För att dokumentera det arbete man utfört så kan man spara följande: den analyserade filen i .txt, lista med stoppord i .txt, kodningsregler (vilka finns som separata filer i .txt), variabler (återigen separat fil, dessa ska vara komma- eller tabbseparerade), egna perlscript (ligger i plugin_en-mappen), relevanta analysresultat i passande format enligt nedan, och själva MySQL-databasen i vilken allt förarbete finns registrerat.
(Här tar man upp vilka möjligheter programmet erbjuder för att dokumentera beslut, koder eller annat på objektsnivå. Viktigt att nämna är också i vilken mån det går att exportera dokumentationen. Ofta är dessa funktioner avsedda för annat men kan användas till dokumentation - viss fantasi kan krävas.)
Filtyper som stöds i KH Coder
Filer med text som ska analyseras måste vara rena textfiler (format .txt) Det finns även möjlighet att omvandla excel- och csv-filer till textfiler.
Export av data är möjligt i formaten .txt, csv, tabbseparerad och SPSS syntax file. Finns även särskild csv-variant för programmet WordMiner.
Frekvenslistor med variabler och KWIC-analyser liksom matriser kan exporteras till csv eller xlsx. Det går även att exportera variabellistor till csv eller xlsx.
Beroende på vilken visualisering det handlar om kan sådana sparas som: .pdf (behöver sparas om till PDF/A vid bevarande) .eps (prorietärt format för vectorbilder som dock är öppet dokumenterat) .svg (öppet vektorbildformat) .png (öppet rasterbildformat) .graphml (XML-format för grafer) .net (Pajek grafformat bestående av ren text) .html .csv .r (R scriptformat) .emf
(Vilka filformat kan importeras i programmet och vilka kan programmet exportera. Om det har egna filformat så är det viktigt att undersöka om de egentligen är vanliga format som skulle kunna användas till att återskapa/utvinna information. (Som t.ex. att Elans .EAF-format är ett .XML-format ur vilket information kan utvinnas med viss ansträngning.))
Att öppna och spara en fil
(Kort information om hur man gör för att utföra de mest grundläggande handlingarna i programmet, så att det går att komma igång och att man inte riskerar att förlora sitt arbete.)
Utvecklaren har publicerat två artiklar täckandes en tutorial av de centrala funktionerna (länkar i referenserna). De rekommenderas även om de bygger på version 3.Alpha.8.
Öppna programmet. Gå till projekt i menyn. Välj config vid Stop words för att definiera eventuella stop-ord som inte ska tas med i analysen. Skapa ett nytt “projekt” och ange vilken fil/data som ska hanteras. Välj sedan Pre-Processing i menyn. Via Tools i menyn kan man skapa frekvenslistor för ord, översikter som visar Keyword in context (KWIC) och göra visuella analyser som visar relationer och förekomster för ord och fraser.
När ett nytt projekt startas skapas en dedikerad MySQL-databas för sparande av alla projektdata. Projektinformation såsom namn på målfilen, beskrivningen och namnet på MySQL-databasen sparas i en .csv-fil i config/projects-mappen där KH Coder är installerat.
KH Coder har inget rent sparkommando att använda under arbetets gång. Resultat av förbehandling sparas automatiskt i nämnda MySQL-databas. Användaren behöver därför bara spara kodningsregler, variabler och de analysresultat som är intressanta, utöver databasen.
När man vill spara/dokumentera sitt arbete använder man istället exportfunktionen (med ursprungligt syfte att kunna flytta hela arbetet från en dator till en annan). All data i MySQL-databasen skrivs till en textfil. Denna, tillsammans med målfilen och en fil med projektinformation, komprimeras till en zipfil med .khc som filändelse (som dock kan öppnas som .zip-fil om man vill åt beståndsdelarna).
Referenser
Higuchi Koichi - A Two-Step Approach to Quantitative Content Analysis : KH Coder Tutorial using Anne of Green Gables (Part I): http://www.ritsumei.ac.jp/file.jsp?id=325881
Higuchi Koichi - A Two-Step Approach to Quantitative Content Analysis : KH Coder Tutorial using Anne of Green Gables (Part II): http://www.ritsumei.ac.jp/file.jsp?id=346128
Higuchi Koichi - KH Coder 3 Reference Manual: http://khcoder.net/en/manual_en_v3.pdf
Författare: (Mattias Persson, Agnes Holme, Björn Ericsson, Oskar Westergren och Christer Lagvik)
Senast uppdaterad: (2019-04-08)