Arkistosta korpukseksi ja korpuksesta editioksi - Käsikirjoitukset ja ensipainokset kokoon talkoilla

Wikipediaa ei kuulu tutkijan luotettavimpiin tiedonlähteisiin. Siitä huolimatta nykyisin kirjoitetaan tuskin ainuttakaan humanistis-yhteiskuntatieteellistä kirjaa tai artikkelia, jonka tekemiseen ei olisi missään vaiheessa, suoraan tai välillisesti, hyödynnetty tätä joukkoistamalla syntynyttä sanakirjaa, jota rahoitetaankin merkittävästi suurten käyttäjämäärien antamilla pienillä lahjoituksilla.

Monissa muissakin tutkijan työtä helpottavissa hankkeissa käytetään joukkovoimaa. Yksi nerokkaimmista hankkeista on reCAPTCHA, joka palvelee sekä kuvavarmennusmekanismina (CAPTCHA, Completely Automated Public Turing test to tell Computers and Humans Apart) että automaattisen tekstintunnistuksen apuna. Kuvatunnistusta voi käyttää vuorovaikutteisilla verkkosivuilla varmentamassa, että sivuja ei yritetä muokata automaattisilla ohjelmilla. reCAPTCHA-palvelussa kuvavarmennuksessa käytetään kahta skannattua ja epäselvää sanaa, joista toinen on järjestelmän tiedossa ja johon varmennus perustuu, mutta toinen sana on peräisin OCR-luetuista (OCR, Optical Character Recognition) vanhoista lehdistä ja kirjoista, joiden tekstintunnistuksen laatua halutaan parantaa. reCAPTCHA-palvelua käytetään joka päivä yli 100 miljoonaa kertaa eli tällä tavoin tarkistettujen sanojen määrä vastaa yli tuhannen romaanin tarkistamista sana sanalta.

Joukkoistamisesta tai talkoistamisesta (engl. crowdsourcing) puhutaan tavallisesti silloin, kun luodaan Wikipedian tai reCAPTCHAn kaltaisia jyhkeitä verkossa toimivia järjestelmiä, joita valtavat ihmismassat käyttävät eri puolilla maailmaa, mutta vapaaehtoistyötä voi tehdä pienimuotoisemminkin, pihatalkoiden tapaan. Suomalaisen Kirjallisuuden Seurassa (SKS) tällaista pientä talkoohanketta kokeiltiin 2011–2012, kun kirjailija Aleksis Kiven (1834–1872) teosten varhaisista painoksista ja niistä säilyneistä käsikirjoituksista tarvittiin digitaaliset tekstit, transkriptiot, kriittisten editioiden toimittamista varten. Hanke osoitti, miten pienelläkin vaivalla ja lyhyessäkin ajassa voi syntyä hyviä tuloksia. Mikä parasta, työn hedelmät voivat tulevaisuudessa tuottaa myös uusia koko tiedeyhteisöä tai laajempaakin käyttäjäkuntaa hyödyntäviä hankkeita.

Digitaalisista kuvista transkriptioiksi

Syksyllä 2006 Suomalaisen Kirjallisuuden Seurassa aloitti toimintansa uusi yksikkö Edith – suomalaisen kirjallisuuden kriittiset editiot (www.edith.fi) jonka tarkoituksena on laatia tekstikriittisesti toimitettuja ja runsaasti kommentoituja tieteellisiä laitoksia suomalaisen kirjallisuuden klassikoista. Editiot julkaistaan sekä painettuina kirjoina että avoimesti verkossa julkaistavina digitaalisina editioina. Tähän mennessä ovat ilmestyneet painettu ja digitaalinen kriittinen editio Aleksis Kiven komediasta Nummisuutarit (Nummi et al. 2010; Nummi et al. 2011) sekä painettu editio kirjailijan kirjeistä (Niemi et al. 2012). Editioiden sarja jatkuu Kiven näytelmillä ja muulla tuotannolla ja etenee myöhemmin myös muihin suomalaisiin kirjailijoihin.

Syksyllä 2011 SKS oli tekemässä kyselyä jäsenilleen. Koska edellisen kyselyn vastauksissa jäsenet olivat toivoneet, että he voisivat jotenkin auttaa seuran toimintaa, seura päätti tällä kertaa tarjota jäsenilleen mahdollisuutta osallistua joihinkin seuran hankkeisiin. Yhtenä mahdollisuutena jäsenille tarjottiin Aleksis Kivi -talkoita, joissa kirjoitettaisiin kirjailijan Seitsemän veljestä -romaanin ensipainosta sähköiseen muotoon. Tavoitteena oli, että osa laajasta, yli 300-sivuisesta fraktuuralla painetusta romaanista saataisiin tällä tavoin transkriboitua jatkojalostusta varten. Kiinnostus talkootyöhön oli kuitenkin sen verran laajaa – hankkeeseen ilmoittautui yli 30 SKS:n jäsentä, kaukaisimmillaan Afrikasta käsin – että mukaan täytyi jo alkuvaiheissa ottaa mukaan myös Kiven muiden teosten varhaisia painoksia.

Kokeilun alussa oli selvää, ettemme voi edellyttää seuran jäsenistön kirjoittavan Kiven teoksia suoraan XML-muotoon (eXtensible Markup Language) saati noudattavan merkinnöissä käyttämäämme kansainvälistä TEI-standardia (Text Encoding Initiative). Tässä hankkeessa ei myöskään olisi ollut järkevää rakentaa erillistä www-pohjaista järjestelmää talkoolaisten ja hankkeen vetäjien työvälineeksi. Siksi hanke päätettiin toteuttaa niin, että talkoolaiset saavat kirjoittaa aineistot niillä tekstinkäsittelyohjelmilla, joita he ovat tottuneet käyttämään, ja tiedostot kulkevat sähköpostin liitteinä.

Toinen alussa asetettu tavoite oli edetä pienin askelin, jotta saisimme työn eri vaiheista kokemusta ja voisimme sujuvoittaa niitä. Näin ollen emme pyrkineet värväämään mahdollisimman laajaa talkoojoukkoa emmekä liioin mainostaneet hanketta seuran jäsenistön ulkopuolella.

Talkoiden toteuttamista helopotti suuresti se, että SKS oli jo 2007 julkaissut verkossa laajan aineistokokonaisuuden Tiet lähteisiin – Aleksis Kivi SKS:ssa (www.finlit.fi/kivi). Se sisältää digitaalisina kuvina pääosan Kiven teosten ensipainoksista sekä erillisen digitaalisen arkiston kirjailijan kaikesta säilyneestä arkistoaineistosta, teoskäsikirjoituksista kirjeisiin ja muuhun arkistoaineistoon. Digitaalisen arkiston ja kirjaston ansiosta kukin saattoi kirjoittaa transkriptioita verkossa saatavilla olevista kuvista eikä meidän tarvinnut lähettää kuvia kenellekään erikseen tai pyytää talkoolaisia työskentelemään arkistoissa tai kirjastoissa.

Kiven tuotannon digitaalisen arkiston ja kirjaston erilaiset käyttötavat ja -mahdollisuudet eivät olleet tiedossa niitä perustettaessa, mutta ne ovat palvelleet kriittisten editioiden toimittamista jo usean vuoden ajan ja talkoiden myötä ne edelleen edistivät editiohankkeiden toteutusta merkittävästi.

Talkoista kohti kriittisiä editioita

Koska Aleksis Kivi -talkoot etenivät nopeasti ja työn jälki oli laadukasta, päätimme kokeilla menetelmää Kiven käsikirjoitustenkin transkriboinnissa. Prosessi eteni samantapaisesti kuin painettujen tekstien osalta lukuun ottamatta käsikirjoituksissa olevien sisäisten varianttien eli tekstiin kynällä tehtyjen muutosten merkitsemistä (ks. kuva 1).

Kiven "Pohjatuuli"-runon säkeitä kuvamuodossa. SKS KIA, Aleksis Kiven arkisto. Runoelmia 2. Saatavissa: http://www.finlit.fi/kivi/index.php?pagename=kivendigiaineisto&set=02_runoelmia2&item=4​

Koska lopullisena päämääränä oli saada tekstit TEI-muotoisiksi XML-tiedostoiksi, kehitimme yksinkertaisen merkintätavan, jolla talkoolaiset saattoivat merkitä tekstiin lisättyjä tai siitä poistettuja kohtia xml-tunnisteiden (tagien) tapaan. Poistettujen tekstikohtien alkuun pyysimme lisäämään hakasulje-merkin sekä kirjaimen P ( [P ) ja loppuun saman merkin peilikuvana ( P] ) (ks. kuva 2).

"Pohjatuulen" säkeitä talkoolaisten kirjoittamana txt-muodossa.​

Lisäyksille ja sanajärjestysmuutoksille kehitimme vastaavat merkintätavat. Lopuksi nämä väliaikaiset merkinnät oli helppo muuntaa automaattisesti niitä vastaaviksi TEI-elementeiksi (ks. kuva 3). Siinä vaiheessa aineiston saattoi myös validoida xml-editorilla ja siten varmentaa, että kaikki merkinnät ovat muodoltaan virheettömiä.

Kuva 3. Talkoolaisten kirjoittamat säkeet XML/TEI-muotoon konvertoituna.​​​​

Kaikkein vaikeaselkoisimpia käsikirjoituksia emme antaneet talkoolaisille, vaikka he yleensä selviytyivät vaikeistakin tapauksista. Tässä vaiheessa osa alkuperäisistä talkoolaisista oli jo jättäytynyt pois, mutta meillä ei ollut enää tarvetta kasvattaa tekijöiden määrää. Monet työskentelivät Kiven parissa erittäin omistautuneesti; parhaimmillaan yksi talkoolainen kirjoitti sähköiseen muotoon 250 sivua Kiven käsikirjoitusten ja ensipainosten tekstejä.

Hankkeen avulla halusimme saada sellaisen aineiston, jossa on enää joitakin yksittäisiä pieniä virheitä. Tarkistustyövaiheita emme kuitenkaan halunneet teettää talkoolaisilla, koska arvioimme, että aktiivinen transkribointi on heille innostavampaa ja palkitsevampaa työtä kuin tarkistaminen. Siksi päätimme tilata samoista tekstikatkelmista vähintään kaksi transkriptiota eri henkilöiltä ja verrata saatuja tekstejä koneellisesti merkki merkiltä. Tämä kollaatioksi kutsuttu työvaihe paljastaisi, missä kohdissa tekstit poikkeavat toisistaan, ja poikkeavat tekstikohdat tarkistamalla aineistosta saisi lähes virheetöntä. Kollaatiotarkistusten tukena voi käyttää myös verkosta saatavia Kiven teosten tekstejä, vaikka ne ovatkin pitkälti kieleltään modernisoituja ja siten aiheuttavat paljon vääriä hälytyksiä. Vastaavaa menetelmää on käytetty muun muassa saksalaisen Heinrich Heine -portaalin aineiston tuottamisessa.

Transkriptioiden vertailun olemme tehneet Juxta-nimisellä vapaasti verkosta ladattavalla kollaatio-ohjelmalla. Sen avulla voi katsoa kahta tekstiversiota rinnakkain siten, että se näyttää värjättynä kaikki sellaiset tekstialueet, joissa tekstit poikkeavat toisistaan. Ohjelmalla on mahdollista vertailla myös useampia tekstiversioita yhdellä kertaa, mutta virheiden etsimisessä kahden version kollatointi yhdellä kertaa osoittautui tehokkaammaksi.

Vaikka talkoissa tuotetut transkriptiot vastaavat jo lähes täydellisesti alkuperäislähteiden tekstejä, niitä pitää vielä tarkistaa myöhemmissä työvaiheissa, sillä kollaatio ei paljasta sellaisia virheitä, joita talkoolaiset ovat tehneet samoihin tekstikohtiin. Etenkin silloin, kun alkuperäistekstit sisältävät kirjoitus- tai ladontavirheitä, jotka tässä vaiheessa tulisi kopioida sellaisenaan, tekstiä tulee helposti korjattua huomaamatta. Esimerkiksi vasta myöhemmissä tarkistuksissa olemme havainneet, että Seitsemän veljeksen ensipainoksessa esiintyvä ladontavirheestä johtuva nimimuoto Äapo on vahingossa korjattu kaikkiin transkriptioihin Aapoksi.

Nopeasti edenneiden talkoiden ansiosta saimme käyttöömme kirjailijan kaikista käsikirjoituksista ja varhaisista painoksista hyvälaatuiset sähköiset tekstit, joita voimme käyttää kriittisten editioiden pohjateksteinä. Aineiston avulla voimme myös vertailla Kiven kielen ortografista eli sanojen kirjoitusasua koskevaa vaihtelua sekä etsiä tiettyjen sanojen ja kirjallisten motiivien esiintymiä kirjailijan eri teoksissa. Lisäksi aineiston valmistuminen editioiden sarjan toimittamisen alkupuolella helpottaa koodaustapojen yhdenmukaistamisessa, koska tekstiaineistosta on mahdollista tuottaa erilaisia koosteita Oxygen-editoriohjelmalla ja tiedostojen kokonaisuutta voi validoida koneellisesti.

Aleksis Kivi -talkoiden loppuvaiheessa SKS:lla oli mahdollisuus työstää kaikki talkoissa syntyneet sekä muut Kiven teoksista tehdyt transkriptiot XML/TEI-muotoiseksi Aleksis Kivi -korpukseksi. Se on ensimmäinen Kiven koko tuotannosta tehty sähköinen korpus, joka noudattaa alkuperäislähteiden ortografiaa ja sisältää myös tiedot käsikirjoituksissa olevista tekstimuutoksista. Korpus sisältää transkriptiot 70 kirjeestä, 12 painetusta teoksesta tai teoskatkelmasta, 11 näytelmän tai proosateoksen käsikirjoituksesta, reilusta 70 runokäsikirjoituksesta sekä yli kymmenestä lehdissä painetusta runosta.

Talkoiden myötävaikutuksella syntynyt Aleksis Kivi -korpus päätettiin luovuttaa FIN-CLARIN-hankkeelle julkaistavaksi suomalaisessa CSC:n Kielipankissa. Sitä kautta aineistot tulevat myös muiden tutkijoiden käyttöön ennen kuin editiohankkeet ovat valmistuneet. Kielipankissa julkaistuja Kivi-aineistoja on mahdollista hyödyntää työvälineenä myös kriittisessä editoinnissa.

Miksi hanke onnistui?

Aleksis Kivi -talkoiden onnistumisessa auttoi luultavasti se, että 1831 perustetulla Suomalaisen Kirjallisuuden Seuralla on pitkät perinteet erilaisesta vapaaehtoistyöhön pohjautuvasta toiminnasta, kuten kansanperinneaineiston keräämisestä. Toisaalta Aleksis Kivi koetaan merkittäväksi ja mielenkiintoiseksi kirjailijaksi, minkä vuoksi ihmiset ovat valmiita käyttämään aikaansa kirjailijan tekstien parissa. Tämän valmiiksi suotuisan lähtötilanteen lisäksi talkoiden järjestelyissä pyrittiin aktiivisesti huolehtimaan osallistujien motivaatiosta eri keinoin.

Talkoiden alkuvaiheessa arvioimme, miten hanke toimisi mielekkäimmin vapaaehtoisten näkökulmasta. Oletimme, että on mielekkäintä antaa tehtäväksi aina suppeahkoja, noin 20 sivun laajuisia tehtäväkokonaisuuksia: määrämittaisten palojen valmiiksi saaminen on palkitsevampaa kuin saada ohjeeksi kirjoittaa "niin pitkälle kuin jaksaa". Näille osatehtäville annoimme selkeän määräpäivän, joka oli kaikille osallistujille sama ja johon oli annettu aikaa muutama kuukausi. Kaikille yhteiset deadlinet mahdollistivat sen, että määräpäivän lähestyessä saatoimme muistuttaa talkoolaisia kootusti ja lähettää koko joukolle yhteisiä väliraportteja hankkeen etenemisestä. Näiden päävaiheiden sisällä saatoimme kuitenkin antaa nopeimmille ja innokkaimmille mahdollisuuden ottaa uusia tehtäviä. ”Jos transkribointi-sormi vielä syyhyää, meiltä saa lisääkin…” oli yksi vakiofraaseista kiittäessämme talkoolaisia heiltä saamistamme aineistoista. Lisäaikaa toivoneillekin saatoimme hyvin antaa myöhemmän räätälöidyn deadlinen. Yhteisten välietappien ansiosta hanke tuntui innostavammalta myös meille hankkeen vetäjille.

Myös työ itsessään koettiin palkitsevaksi. 1800-luvulla kirjoitetun käsikirjoituksen tai fraktuuralla painetun tekstin kirjoittaminen pakottaa keskittymään kirjailijan kieleen sanan ja kirjaimen tarkkuudella, mikä vie kirjailijan kieleen syvemmälle kuin tavallisesti lukiessa. Etenkin käsikirjoitusten kirjoittaminen on usein positiivisesti haasteellista. Osallistujien into ja sitoutuneisuus välittyivät heidän sähköposteistaan. Niissä kerrottiin innostuneesti Kiven kielen koskettavuudesta, palattiin Kiveen liittyviin henkilökohtaisiin muistoihin tai ihmeteltiin omaan urakkaan sisältyneitä Kiven teosten yksityiskohtia. Sitoutuneisuutta kuvastaa erään talkoolaisen pahoittelut sitä, että hän ei pysty vähään aikaan osallistumaan täysipainoisesti talkoisiin lastenlasten hoidon, parveke- ja ikkunaremontin sekä mahdollisen pallolaajennusleikkauksen vuoksi.

Aleksis Kivi -talkoot osoittivat, että pienessäkin joukossa on voimaa ja että talkoistaminen ei välttämättä vaadi sen käyttöön räätälöityjä IT-järjestelmiä. Kivi-hankkeen erikoispiirteenä oli pyrkimys painottaa määrän ja nopeuden sijaan virheetöntä lopputulosta. Jos tavoitteena olisi saada transkriptioita laajasta aineistosta mahdollisimman nopeasti, kollaatiotarkistuksia ei kannattaisi tehdä ainakaan hankkeen alkuvaiheessa. Vapaaehtoisia on mahdollisuus saada paljonkin, mikäli työ koetaan mielekkääksi.

Avoimet aineistot myös osoittivat tukevan toisiaan. Talkoita olisi ollut hankala järjestää, ellei SKS olisi aiemmin julkaissut Kiven teosten ensipainoksia ja käsikirjoituksia digitaalisina kuvina verkossa. Hankkeen myötä valmistunut Aleksis Kivi -korpus (SKS) puolestaan tarjoaa yhden uuden työvälineen, jota voi käyttää kriittisten editioiden tekemisessä.

Artikkeli on julkaistu aiemmin otsikolla "Transkribering av manuskript och förstaupplagor med talkokrafter" teoksessa Historia i en digital värld. Toim. Jessica Parland von Essenin ja Kenneth Nyberg. Saatavissa: http://digihist.se/

 

Sakari Katajamäki

 

Kirjoittaja työskentelee toimituspäällikkönä Suomalaisen Kirjallisuuden Seuran yksikössä Edith – suomalaisen kirjallisuuden kriittiset editiot.

 

Kirjallisuutta

Aleksis Kivi -korpus (SKS). Toim. Sakari Katajamäki, Ossi Kokko, Elina Kela.
FIN-CLARIN: Finnish Language Resource Infrastructure / CSC – Tieteen tekniikan keskus: Kielipankki 2013. Saatavissa: http://www.finlit.fi/fi/tutkimus/edith/aleksis-kivi-korpus-sks#.VAxmrGPolOI (korpuksen esittely) sekä https://korp.csc.fi/ (korpus).

Hallamaa, Olli – Tuomas Heikkilä – Hanna Karhu – Sakari Katajamäki – Ossi Kokko – Veijo Pulkkinen: Tekstuaalitieteiden sanasto. [On-line.] Helsinki: Suomalaisen Kirjallisuuden Seura 2010. Saatavissa: http://tekstuaalitieteidensanasto.finlit.fi:8080/.

Katajamäki, Sakari & Ossi kokko: "Mieltä ylentävää askaretta. Aleksis Kivi sähköistyy talkoovoimin". Hiidenkivi 4/2012, 30–31.

Niemi, Juhani (päätoimittaja) – Sakari Katajamäki – Ossi Kokko – Petri Lauerma – Jyrki Nummi (toim.): Kivi, Aleksis, Kirjeet. Kriittinen editio. Suomalaisen Kirjallisuuden Seuran Toimituksia 1386, Tiede. Helsinki: SKS 2012.

Nummi, Jyrki (päätoimittaja) – Sakari Katajamäki – Ossi Kokko – Petri Lauerma (toim.): Kivi, Aleksis, Nummisuutarit. Komedia viidessä näytöksessä. Kriittinen editio. Suomalaisen Kirjallisuuden Seuran Toimituksia 1284, Tiede. Helsinki: SKS 2010.

Nummi, Jyrki (päätoimittaja) – Sakari Katajamäki – Ossi Kokko – Petri Lauerma (toim.): Kivi, Aleksis, Nummisuutarit. Komedia viidessä näytöksessä. Kriittinen editio. [On-line.] Helsinki: Suomalaisen Kirjallisuuden Seura, 2011. Saatavissa: http://elias.finlit.fi/nummisuutarit/. URN: NBN:fi:sks-201105261000

Tiet lähteisiin – Aleksis Kivi SKS:ssa. (Ilkka Välimäki, päätoimitus; Eeva-Liisa Haanpää; Satu Heikkinen; Irma-Riitta Järvinen; Sakari Katajamäki; Klaus Krohn ja Tarja Soiniola). Helsinki: SKS 10.10.2007. URL: http://www.finlit.fi/kivi/

CC 4.0 BY

Tämä teos on lisensoitu Creative Commons Nimeä 4.0 kansainvälinen -lisenssillä