Opis XML formata za računalni popis grčkih i latinskih riječi s hrvatskim prijevodom
- Primjer članka (s tumačenjem)
- Preoblika u CSV

Opis XML formata za računalni popis grčkih i latinskih riječi s hrvatskim prijevodom

Primjer članka (s tumačenjem)

Evo kako smo preoblikovali natuknicu iz popisa (latinskih) riječi Ispitnog kataloga NCVVO za šk. g. 2013/14.

<entry ana="accuso">
    <form>accuso, 1.</form>
    <pos>vb</pos>
    <def xml:lang="hrv">optužiti</def>
</entry>

entry = članak (XML element)
@ana = atribut unutar elementa “entry”; sadrži “goli” rječnički oblik bez oznaka duljine itd.
pos = vrsta riječi (XML element); sadrži kratice za vrste riječi – vb = verbum, n = nomen, adj = adjectivum, adv = adverbium, pron = pronomen; ove smo kratice dodali, one su u IK NCVVO implicitne
def = kratka definicija; načelno, preuzeta definicija iz Ispitnog kataloga NCVVO
@xml:lang = jezik definicije; sadrži troslovnu kraticu jezika (usp. Codes for the Representation of Names of Languages, Library of Congress); ovo je polje dodano jer u pojedine zapise namjeravamo uključiti informacije iz drugih popisa, na drugim jezicima

Grčki je članak sličan:

<w>
    <p xml:lang="grc" type="n">σκῆπτρον, ου, τό</p>
    <p xml:lang="hrv">žezlo</p>
</w>

Preoblika u CSV

Grčki XML preoblikovali smo u CSV format preko ovog XQuery upita:

(: Transform Greek-Croatian Wordlist XML to CSV :)
for $i in //*:w
(: newline :)
let $nl := "&#10;"
return 
  concat(
  '"' , $i/*:p[1] , '";"' , 
  $i/*:p[1]/@type , '";"' , $i/*:p[2] , '"' ,
  $nl )