Valodnieki un programmētāji modernizē Latviešu valodas seno tekstu korpusu „SENIE”

Valodnieki un programmētāji modernizē
Latviešu valodas seno tekstu korpusu „SENIE”

Latviešu valodas seno tekstu korpuss „SENIE” ir izveidots 2002. gadā, kļūstot par pirmo brīvi pieejamo latviešu valodas korpusu akadēmiskiem mērķiem. Sākotnēji tā izveidē bija iesaistīta LU Matemātikas un informātikas institūta Mākslīgā intelekta laboratorija (LU MII MIL) un LU Humanitāro zinātņu fakultātes Baltu valodniecības katedra, laika gaitā par svarīgu partneri kļuvis LU Latviešu valodas institūts.

Pakāpeniski korpuss „SENIE” ir izaudzis par respektablu korpusu ar septiņdesmit četriem 16.‒18. gadsimta avotiem, kuru izmanto pētnieki ne vien Latvijā, bet arī ārpus tās, jo vienuviet tiek piedāvātas gan elektroniskās bibliotēkas (teksts un faksimils), gan korpusa iespējas (konkordance, indeksi, meklēšana). Jāpiebilst, ka korpusa veidošana un papildināšana ar jauniem avotiem notikusi dažādu projektu laikā, arī šobrīd ar VPP „Latviešu valoda” atbalstu turpinās jaunu korpusa avotu sagatavošana.

Ņemot vērā tā laika tehniskās iespējas, visi teksti tika digitalizēti, pārnesot tos no gotiskās rakstības antīkvā, izmantojot dažādas aizstājējzīmes un zīmju kombinācijas. Tā, piemēram, garais nepārsvītrotais ſ korpusā ir aizstāts ar paragrāfa zīmi §, â aizstāts ar divu zīmju kombināciju a^. Līdz ar to korpusa lietotājiem, meklējot kādu formu korpusā, jāzina ne tikai latviešu seno tekstu rakstības, bet arī korpusa rakstu zīmju īpatnības. Piemēram, meklējot vārdu čūska, viens no variantiem, ko ievadīt meklēšanas lodziņā, varētu būt Tśchuhśka. Speciālistiem tas, protams, nesagādā ļoti lielas grūtības, bet, vēloties korpusa lietotāju loku paplašināt, nācās meklēt citus risinājumus.

2017. gadā ar LU Akadēmiskās attīstības projekta atbalstu visi tobrīd korpusā esošie avoti tika konvertēti arī Unicode formātā, tiesa, meklēšanu šajā formātā nenodrošinot.

Korpusam svinot savu pilngadību, pērn tika izlemts padarīt to vēl vairāk pieejamu lietotājiem un modernizēt, pārnesot to uz jaunu platformu (Sketch Engine) un izveidojot modernu meklēšanas sistēmu, kurā meklējamo vārdu vai tā daļu iespējams ierakstīt mūsdienu rakstībā. Darbs noris projektā „Humanitāro zinātņu digitālie resursi: integrācija un attīstība” (Nr. VPP-IZM-DH-2020/1-0001), kas tiek īstenots Valsts pētījumu programmā „Humanitāro zinātņu digitālie resursi”, sadarbojoties valodniekiem Everitai Andronovai (LU MII MIL), Annai Frīdenbergai, Renātei Siliņai-Piņķei, Elgai Skrūzmanei, Antai Trumpai, Pēterim Vanagam (visi pārstāv LU LaVI) un programmētājai Laumai Pretkalniņai (LU MII MIL).

Valodnieki šobrīd veido seno tekstu konvertācijas likumu tabulas katram senajam avotam atsevišķi, savukārt programmētāja, izmantojot šos likumus, pārvērš senos tekstus nosacītā mūsdienu rakstībā ‒ šie teksti būs jaunā meklēšanas rīka pamatā. Katras šādas tabulas izveide ir lielāks vai mazāks pētījums par latviešu seno tekstu ortogrāfiju, un pētnieki to veic ar interesi un aizrautību, kaut arī darbs ir laikietilpīgs. Seno tekstu pētnieku grupa vismaz reizi mēnesī, bet nereti arī biežāk satiekas, lai apspriestu ar šo darbu saistītās problēmas un lai rezultāts būtu optimāls, proti, lai nākamā gada beigās, beidzoties projektam, korpusa lietotājiem būtu ērts, precīzs meklēšanas rīks, kurā, ierakstot vārdu mūsdienu rakstībā, izdotos atrast seno tekstu korpusā apslēptos vārdus.

Anta Trumpa

LU Latviešu valodas institūta vadošā pētniece

Everita Andronova

LU Matemātikas un informātikas institūts