Evo kako smo preoblikovali natuknicu iz popisa (latinskih) riječi Ispitnog kataloga NCVVO za šk. g. 2013/14.
<entry ana="accuso">
<form>accuso, 1.</form>
<pos>vb</pos>
<def xml:lang="hrv">optužiti</def>
</entry>
entry = članak (
XML element)
@ana = atribut unutar elementa “entry”; sadrži “goli” rječnički oblik bez oznaka duljine itd.
pos = vrsta riječi (
XML element); sadrži kratice za vrste riječi – vb = verbum, n = nomen, adj = adjectivum, adv = adverbium, pron = pronomen; ove smo kratice dodali, one su u IK NCVVO implicitne
def = kratka definicija; načelno, preuzeta definicija iz Ispitnog kataloga NCVVO
@xml:lang = jezik definicije; sadrži troslovnu kraticu jezika (usp.
Codes for the Representation of Names of Languages, Library of Congress); ovo je polje dodano jer u pojedine zapise namjeravamo uključiti informacije iz drugih popisa, na drugim jezicima
Grčki je članak sličan:
<w>
<p xml:lang="grc" type="n">σκῆπτρον, ου, τό</p>
<p xml:lang="hrv">žezlo</p>
</w>
Grčki XML preoblikovali smo u CSV format preko ovog XQuery upita:
(: Transform Greek-Croatian Wordlist XML to CSV :)
for $i in //*:w
(: newline :)
let $nl := " "
return
concat(
'"' , $i/*:p[1] , '";"' ,
$i/*:p[1]/@type , '";"' , $i/*:p[2] , '"' ,
$nl )