Slične stranice: Digitalno manipuliranje tekstovima, Diarium Latinitatis, Digtalni medievist 2008
Cilj: želimo napraviti konkordanciju latinskog teksta, tj. abecedno poredan popis riječi i oblika s podacima o njihovim pojavnicama (učestalost, kontekst, kolokacije itd.)
Treba nam: računalno obradiv tekst, program za konkordanciju.
Bilo koji računalno napisan dokument spremimo (“Save As/ Spremi kao”) u formatu .txt
ili .xml
.
Kao i više puta dosad, predlažem da na svoje računalo instalirate AntConc i proučite priručnik (u PDF formatu).
Djelo koje proučavamo (digitalni faksimil slobodno dostupan na Google Books) ima, u računalnom prijepisu, ukupno 28.664 riječi (pojavnica). Od njih je 8375 različnica (različitih oblika).
Oduzmemo li brojke i riječi pisane slovima alfabeta, ostaje 8088 riječi. Njih ćemo pomoću računala slati servisu za lematizaciju.
Digitalno izdanje djela, pretraživo pomoću sustava PhiloLogic, dostupno je preko ove poveznice: http://www.ffzg.unizg.hr/klafil/croala/kat.whizbang.form.html.
Na internetu postoji više takvih servisa, a jedan je dostupan zahvaljujući projektu Bamboo i digitalnoj knjižnici Perseus (Sveučilište Tufts, Massachusetts, SAD).
Ondje pretraga za aedificare izgleda ovako: http://services-qa.projectbamboo.org/bsp/morphologyservice/analysis/word?word=aedificare&lang=lat&engine=morpheus. Rezultat je u RDF formatu.
Ovakvom servisu možemo čitav popis riječi (pa i onaj od oko 8.000 riječi iz Katančića) poslati automatski, pomoću računalnog programa. Evo jednoga:
#!/usr/bin/perl -w # morphb.pl - sends a list of words to Perseus morphology service # usage: perl morphb.pl filename use strict; use warnings; require LWP::UserAgent; my $addr2 = "http://services-qa.projectbamboo.org/bsp/morphologyservice/analysis/word?lang=lat&engine=morpheus&word="; my ($verbum); # my @verba = ('kakao', 'mare', 'rubrum', 'urbs', 'littera'); while ($verbum = <>) { chomp $verbum; &uag(); } sub uag { my $ua = LWP::UserAgent->new; $ua->timeout(30); $ua->env_proxy; my $response = $ua->get($addr2 . $verbum); if ($response->is_success) { print $response->content( ); # or whatever print "\n"; } else { die $response->status_line; } }
Evo primjera identificirane riječi (RDF u JSON notaciji):
{ "RDF" : { "Annotation" : { "created" : "30\nNov\n2012\n22:36:03\nGMT", "creator" : { "Agent" : { "about" : "org.perseus:tools:morpheus.v1" } }, "hasBody" : { "resource" : "urn:uuid:4b1e5028-38d0-41a3-9b3a-c82ab666c6d6" }, "hasTarget" : { "Description" : { "about" : "urn:word:mirae" } }, "title" : null, "about" : "urn:TuftsMorphologyService:mirae:morpheus", "Body" : { "rest" : { "entry" : { "infl" : [ { "num" : "plural", "decl" : "1st\n&\n2nd", "pofs" : { "$" : "adjective", "order" : 2 }, "case" : { "$" : "nominative", "order" : 7 }, "stemtype" : "us_a_um", "gend" : "feminine", "term" : { "stem" : "mi_r", "lang" : "lat", "suff" : "ae" } }, { "num" : "plural", "decl" : "1st\n&\n2nd", "pofs" : { "$" : "adjective", "order" : 2 }, "case" : { "$" : "vocative", "order" : 1 }, "stemtype" : "us_a_um", "gend" : "feminine", "term" : { "stem" : "mi_r", "lang" : "lat", "suff" : "ae" } }, { "num" : "singular", "decl" : "1st\n&\n2nd", "pofs" : { "$" : "adjective", "order" : 2 }, "case" : { "$" : "dative", "order" : 5 }, "stemtype" : "us_a_um", "gend" : "feminine", "term" : { "stem" : "mi_r", "lang" : "lat", "suff" : "ae" } }, { "num" : "singular", "decl" : "1st\n&\n2nd", "pofs" : { "$" : "adjective", "order" : 2 }, "case" : { "$" : "genitive", "order" : 6 }, "stemtype" : "us_a_um", "gend" : "feminine", "term" : { "stem" : "mi_r", "lang" : "lat", "suff" : "ae" } } ], "dict" : { "decl" : "1st\n&\n2nd", "hdwd" : { "$" : "mirus", "lang" : "lat" }, "pofs" : { "$" : "adjective", "order" : 2 } }, "uri" : null } }, "type" : { "resource" : "cnt:ContentAsXML" }, "about" : "urn:uuid:4b1e5028-38d0-41a3-9b3a-c82ab666c6d6" } } } }
Pregledno:
Jednoznačno lematizirano | 4452 |
Višeznačno | 1884 |
Ukupno lematizirano | 6336 |
Neprepoznato | 1752 |
Ukupno oblika (različnica) poslanih na lematizaciju | 8088 |
Primjer tablice s nelematiziranim oblikom: