Looking for Holberg's passages in CroALa

Looking for Holberg's passages in CroALa

Goal: check whether Latin literature passages used by Holberg occur in CroALa.

Procedure

We have a list of passages (also available as a Google Fusion Table), in this form:

  Ov. Metam. I, 91-2
  Pœna metusqve aberant, nec verba minantia fixo
  Ære Ligabantur.

First we have to turn the list into something manipulable. E. g. an XML file, where quotes and sources will be represented in this way:

  <cit>
    <bibl>Ov. Metam. I, 91-2</bibl>
      <quote>Poena metusqve aberant, nec verba minantia fixo<lb/>
      aere Ligabantur.<lb/></quote>
  </cit>

We produce an XML file from ODT using the XSL transformations already available in oXygen (it works!)
Using e. g. Search / Replace and regular expressions in oXygen, we modify the resulting file according to what's proposed above
Using XSL, or, even faster, oXygen's XPath + “save results” combination, we discard the bibl and everything inside it, leaving just what's inside the quote. The XPath for this is:
```
//quote/text()
```
After some cosmetical search-and-replace, we use AntConc to transform quotes into n-grams, a list like this (we chose the setting for n-grams with maximum 3 elements):

morte dolores
si non
a genero
a genero fratrum
ab hospite
ab hospite tutus
aberant nec
aberant nec verba
abfuit arbor
accipit ille
acclinavit in
acclinavit in illum
acer eqvus
acer eqvus cum
ad imitandum
ad imitandum non
ad manes
ad manes junctae
ad superos
ad superos Astraea
aderisqve dolentibus
aditus et
aere canoro
aere Ligabantur
aeterna vocabat
aethera contra
...

Next, using e. g. sed editor, we transform the list of n-grams into regexps to cover orthographic variants in CroALa (u = v, ae = e = ę etc)
With a shell script we send the transformed list to CroALa
We need to know which queries were successful, i. e. which returned some results; this calls for further scripting
Finally, to present the results, we want to have a list of successful queries accessible for human browsing, i. e. turn them into hyperlinks connected to CroALa queries

First results: words in sequence, no stemming

Links after the number lead to CroALa queries on uppercase strings.

A second, slightly improved version of results (160 combinations found):

AB+H?OSPITH?E = search found 1 occurrences;
AC?CIPITH?+IL?LE = search found 1 occurrences;
ACER+EQUUS = search found 1 occurrences;
AD+IMITH?ANDUM = search found 12 occurrences;
ADITH?US+ET = search found 3 occurrences;
AD+MANES = search found 4 occurrences;
AD+SUPEROS = search found 28 occurrences;
ARCE+ET = search found 5 occurrences;
ASTH?R[AO]?EA+RELIQUIT = search found 1 occurrences;
AUREA+C[AO]?ELO = search found 2 occurrences;
AURORA+CAPIL?LIS = search found 1 occurrences;
C[AO]?ELESTH?UM+TH?ER?RAS = search found 1 occurrences;
CEU+QUONDAM = search found 6 occurrences;
COMITH?ATH?UR+EUNTH?EM = search found 8 occurrences;
COM?MUNIA+NOBIS = search found 2 occurrences;
CORPUS+ET = search found 94 occurrences;
CREDO+AD = search found 1 occurrences;
CUR?RUS+AURIGA = search found 1 occurrences;
DE+FUNERE = search found 2 occurrences;
DEPOSITH?URA+SITH?IM = search found 1 occurrences;
DIUTH?URNIOR+ES?SET = search found 1 occurrences;
DOMUM+SIBI = search found 1 occurrences;
EQUUS+CUM = search found 2 occurrences;
ES?SE+DEAM = search found 5 occurrences;
ESTH?+DE = search found 337 occurrences;
ESTH?+INTH?ER = search found 108 occurrences;
ESTH?+OPTH?ARE = search found 1 occurrences;
ESTH?+PH?[AO]?ETH?ON = search found 2 occurrences;
ESTH?+QUOQUE = search found 37 occurrences;
ESTH?+UIA = search found 39 occurrences;
ETH?+LACRIMIS = search found 17 occurrences;
ETH?+MODO = search found 62 occurrences;
ETH?+PAUOR = search found 8 occurrences;
ETH?+QUI = search found 678 occurrences;
ETH?+QUID = search found 148 occurrences;
ETH?+SCELERATH?A = search found 4 occurrences;
ETH?+TH?ER?ROR = search found 4 occurrences;
ETH?+TH?RES = search found 26 occurrences;
ETH?+TH?ULIT = search found 14 occurrences;
ETH?+UIRGO = search found 15 occurrences;
EXANIMES+INTH?ER = search found 1 occurrences;
EXPONITH?+CAUSAS = search found 1 occurrences;
EX+RAPTH?O = search found 1 occurrences;
EXTH?ULITH?+ORA = search found 1 occurrences;
FAMA+TH?ENET = search found 1 occurrences;
FONTH?IS+IN = search found 2 occurrences;
FRATH?RUM+QUOQUE = search found 1 occurrences;
FUGITH?+AUREA = search found 1 occurrences;
FURIALE+UENENUM = search found 1 occurrences;
GEMITH?U+SIC = search found 1 occurrences;
GRATH?IA+RARA = search found 1 occurrences;
H?EDER[AO]?E+ET = search found 9 occurrences;
H?IC+QUI = search found 16 occurrences;
H?IC+SITH?US = search found 18 occurrences;
H?OSPES+AB = search found 4 occurrences;
IL?LAM+NON = search found 24 occurrences;
IL?LA+TH?IMORE = search found 1 occurrences;
IL?LIC+TH?EMERARIUS = search found 1 occurrences;
IM?MINETH?+EXITH?IO = search found 1 occurrences;
IMPRUDENS+ET = search found 3 occurrences;
IN+ARCE = search found 71 occurrences;
IN+C[AO]?ELO = search found 373 occurrences;
IN+IL?LUM = search found 80 occurrences;
IN+LIQUIDAS = search found 2 occurrences;
IN+PECTH?US = search found 13 occurrences;
INTH?ER+NATH?OS = search found 15 occurrences;
IN+UNA = search found 94 occurrences;
IN+UNDA = search found 28 occurrences;
IPSE+PROBATH?UR = search found 1 occurrences;
ITH?ER+EST = search found 7 occurrences;
IUNCTH?AM+SIBI = search found 1 occurrences;
LACRIMIS+OCULOS = search found 1 occurrences;
L[AO]?ETH?ITH?IA+EST = search found 2 occurrences;
LEGITH?+IN = search found 9 occurrences;
LITH?ORA+NORANT = search found 1 occurrences;
LOCUS+AC?CIPIT = search found 1 occurrences;
MAGIS+[AO]?ETH?ERA = search found 2 occurrences;
MAGNIS+TH?AMEN = search found 1 occurrences;
MEDIO+EST = search found 15 occurrences;
ME+MISERAM = search found 15 occurrences;
MIH?I+MORS = search found 7 occurrences;
MIH?I+MORTH?E = search found 2 occurrences;
MODO+SI = search found 16 occurrences;
MOL?LES+ET = search found 9 occurrences;
MONTH?IBUS+IN = search found 9 occurrences;
MORIEMUR+IN = search found 2 occurrences;
MORTH?E+DOLORES = search found 4 occurrences;
NEC+FINIRE = search found 3 occurrences;
NEC+MIH?I = search found 74 occurrences;
NEC+UERBA = search found 8 occurrences;
NOCETH?+ES?SE = search found 2 occurrences;
NON+AUSUS = search found 13 occurrences;
NON+CONSCIA = search found 3 occurrences;
NON+H?OSPES = search found 3 occurrences;
NON+OPTH?IMA = search found 1 occurrences;
NON+TH?ENUIT = search found 4 occurrences;
NUMEN+ADORET = search found 3 occurrences;
NUNC+DUO = search found 2 occurrences;
OMNES+ANIMAS = search found 2 occurrences;
OPTH?IMA+QU[AO]?EQUE = search found 12 occurrences;
ORBE+LOCUS = search found 2 occurrences;
PALAM+UOX = search found 1 occurrences;
PAN+PRIMUS = search found 1 occurrences;
PAUOR+ET = search found 9 occurrences;
PER+AMBAGES = search found 7 occurrences;
PEREGRINUM+UT = search found 1 occurrences;
PER+INSIDIAS = search found 6 occurrences;
PER+STH?IGIAS = search found 2 occurrences;
PER+SUM?MA = search found 8 occurrences;
PH?[AO]?EBI+ET = search found 5 occurrences;
PIETH?AS+ET = search found 20 occurrences;
PR[AO]?ETH?EREA+AUT = search found 1 occurrences;
PR[AO]?ETH?ER+SUA = search found 3 occurrences;
PRIMUS+AMOR = search found 5 occurrences;
PRIMUS+CALAMOS = search found 1 occurrences;
PROBATH?+IPSE = search found 1 occurrences;
PRUIN[AO]?E+ET = search found 5 occurrences;
QUAM+LEX = search found 6 occurrences;
QUEM+SI = search found 24 occurrences;
QUID+IN = search found 127 occurrences;
QUID+UULT = search found 4 occurrences;
QUI+PROBAT = search found 3 occurrences;
QUOQUE+GRATH?IA = search found 5 occurrences;
RARA+EST = search found 6 occurrences;
RECTH?OR+OLIMPI = search found 8 occurrences;
SED+NOCET = search found 2 occurrences;
SIBI+SANGUINE = search found 1 occurrences;
SIC+OMNES = search found 15 occurrences;
SIC+QUISQUE = search found 1 occurrences;
SIGNA+DEDIT = search found 9 occurrences;
SI+NON = search found 540 occurrences;
SITH?US+EST = search found 31 occurrences;
SOLATH?IA+MORTH?IS = search found 2 occurrences;
SUA+LITH?ORA = search found 2 occurrences;
SUB+H?AC = search found 28 occurrences;
SUB+UERBERE = search found 6 occurrences;
SUM?MA+CACUMINA = search found 6 occurrences;
TH?EMERARIUS+ER?ROR = search found 1 occurrences;
TH?ER?RAS+ASTH?R[AO]?EA = search found 2 occurrences;
TH?ER?RASQUE+FRETH?UMQUE = search found 1 occurrences;
TH?IMUIS?SE+PALAM = search found 1 occurrences;
TH?ORTH?O+UOLITH?ANS = search found 1 occurrences;
TH?RAH?ENS+PER = search found 1 occurrences;
TH?RIA+CERBERUS = search found 2 occurrences;
TH?RISTH?IOR+ET = search found 2 occurrences;
TH?ULITH?+AD = search found 7 occurrences;
UANAQUE+L[AO]?ETH?ITH?IA = search found 1 occurrences;
UENITH?+EC?CE = search found 5 occurrences;
UERBA+MINANTH?IA = search found 1 occurrences;
UERBERE+TH?URBO = search found 1 occurrences;
UER?RITH?+H?UMUM = search found 2 occurrences;
UIA+DECLIUIS = search found 1 occurrences;
UICTH?A+IACET = search found 4 occurrences;
UISA+EST = search found 85 occurrences;
UISCERA+MORSU = search found 2 occurrences;
UITH?IBUS+ULMI = search found 1 occurrences;
ULTH?IMA+C[AO]?ELESTH?UM = search found 1 occurrences;
UNA+DUOS = search found 4 occurrences;
UOX+NUL?LA = search found 2 occurrences;
UULTH?+SIBI = search found 11 occurrences

First version, with some trigrams

First pass, 167 results:

MORTH?E+DOLORES.* = search found 4 occurrences;
SI+NON.* = search found 550 occurrences;
A+GENERO.* = search found 1 occurrences;
AB+H?OSPITH?E.* = search found 1 occurrences;
AC?CIPITH?+IL?LE.* = search found 1 occurrences;
ACER+EQUUS.* = search found 1 occurrences;
AD+IMITH?ANDUM.* = search found 12 occurrences;
AD+MANES.* = search found 4 occurrences;
AD+SUPEROS.* = search found 28 occurrences;
ADITH?US+ET.* = search found 3 occurrences;
ARCE+ET.* = search found 5 occurrences;
AURORA+CAPIL?LIS.* = search found 1 occurrences;
CEU+QUONDAM.* = search found 6 occurrences;
COMITH?ATH?UR+EUNTH?EM.* = search found 8 occurrences;
COM?MUNIA+NOBIS.* = search found 2 occurrences;
CONCORDES+ANIMA.* = search found 1 occurrences;
CORPUS+ET.* = search found 98 occurrences;
CREDO+AD.* = search found 1 occurrences;
CUR?RUS+AURIGA.* = search found 2 occurrences;
DE+FUNERE.* = search found 2 occurrences;
DE+MES.* = search found 53 occurrences;
DEPOSITH?URA+SITH?IM.* = search found 1 occurrences;
DIUTH?URNIOR+ES?SET.* = search found 1 occurrences;
DOMUM+SIBI.* = search found 1 occurrences;
EQUUS+CUM.* = search found 2 occurrences;
ES?SE+DEAM.* = search found 5 occurrences;
ESTH?+DE.* = search found 1155 occurrences;
ESTH?+DE+MES.* = search found 1 occurrences;
ESTH?+INTH?ER.* = search found 198 occurrences;
ESTH?+OPTH?ARE.* = search found 2 occurrences;
ESTH?+QUOQUE.* = search found 37 occurrences;
ESTH?+UN.* = search found 251 occurrences;
ESTH?+UIA.* = search found 42 occurrences;
ETH?+LACRIMIS.* = search found 17 occurrences;
ETH?+LACRIMIS+OCULOS.* = search found 1 occurrences;
ETH?+MODO.* = search found 68 occurrences;
ETH?+PAUOR.* = search found 18 occurrences;
ETH?+PAUOR+ET.* = search found 1 occurrences;
ETH?+QUI.* = search found 2029 occurrences;
ETH?+QUI+PROBAT.* = search found 1 occurrences;
ETH?+QUID.* = search found 548 occurrences;
ETH?+SCELERATH?A.* = search found 5 occurrences;
ETH?+TH?ER?ROR.* = search found 12 occurrences;
ETH?+TH?RES.* = search found 26 occurrences;
ETH?+TH?ULIT.* = search found 14 occurrences;
ETH?+TH?ULITH?+AD.* = search found 1 occurrences;
ETH?+UIRGO.* = search found 15 occurrences;
EX+RAPTH?O.* = search found 1 occurrences;
EXANIMES+INTH?ER.* = search found 1 occurrences;
EXPONITH?+CAUSAS.* = search found 1 occurrences;
EXTH?ULITH?+ORA.* = search found 2 occurrences;
FAMA+TH?ENET.* = search found 1 occurrences;
FLUMINA+TH?ER?RA.* = search found 1 occurrences;
FRATH?RUM+QUOQUE.* = search found 1 occurrences;
FUGITH?+AUREA.* = search found 1 occurrences;
FURIALE+UENENUM.* = search found 1 occurrences;
GEMITH?U+SIC.* = search found 1 occurrences;
GRATH?IA+RARA.* = search found 1 occurrences;
H?IC+QUI.* = search found 83 occurrences;
H?IC+SITH?US.* = search found 18 occurrences;
H?IC+SITH?US+EST.* = search found 15 occurrences;
H?IC+SPE.* = search found 8 occurrences;
H?OSPES+AB.* = search found 6 occurrences;
IL?LA+MARITH?I.* = search found 1 occurrences;
IL?LA+TH?IMORE.* = search found 1 occurrences;
IL?LAM+NON.* = search found 25 occurrences;
IL?LIC+TH?EMERARIUS.* = search found 1 occurrences;
IM?MINETH?+EXITH?IO.* = search found 1 occurrences;
IMPRUDENS+ET.* = search found 3 occurrences;
IN+ARCE.* = search found 100 occurrences;
IN+ARCE+ET.* = search found 1 occurrences;
IN+IL?LUM.* = search found 81 occurrences;
IN+LIQUIDAS.* = search found 2 occurrences;
IN+PECTH?US.* = search found 13 occurrences;
IN+UNA.* = search found 174 occurrences;
IN+UNDA.* = search found 78 occurrences;
INTH?ER+NATH?OS.* = search found 15 occurrences;
IPSE+PROBATH?UR.* = search found 1 occurrences;
ITH?ER+EST.* = search found 7 occurrences;
IE+L.* = search found 5 occurrences;
IUNCTH?AM+SIBI.* = search found 1 occurrences;
LACRIMIS+OCULOS.* = search found 1 occurrences;
LITH?ORA+NORANT.* = search found 1 occurrences;
LOCUS+AC?CIPIT.* = search found 2 occurrences;
MAGNIS+TH?AMEN.* = search found 1 occurrences;
ME+MISERAM.* = search found 15 occurrences;
MEDIO+EST.* = search found 15 occurrences;
MIH?I+MORS.* = search found 7 occurrences;
MIH?I+MORTH?E.* = search found 2 occurrences;
MODO+SI.* = search found 81 occurrences;
MOL?LES+ET.* = search found 10 occurrences;
NEC+FINIRE.* = search found 3 occurrences;
NEC+MIH?I.* = search found 74 occurrences;
NEC+UERBA.* = search found 8 occurrences;
NOCETH?+ES?SE.* = search found 2 occurrences;
NON+AUSUS.* = search found 13 occurrences;
NON+CONSCIA.* = search found 3 occurrences;
NON+H?OSPES.* = search found 3 occurrences;
NON+OPTH?IMA.* = search found 1 occurrences;
NON+TH?ENUIT.* = search found 4 occurrences;
NUMEN+ADORET.* = search found 3 occurrences;
NUNC+DUO.* = search found 2 occurrences;
OMNES+ANIMAS.* = search found 2 occurrences;
OMNIA+DII.* = search found 2 occurrences;
ORBE+LOCUS.* = search found 2 occurrences;
PALAM+UOX.* = search found 1 occurrences;
PAN+PRIMUS.* = search found 1 occurrences;
PAN+PRIMUS+CALAMOS.* = search found 1 occurrences;
PAUOR+ET.* = search found 10 occurrences;
PER+AMBAGES.* = search found 7 occurrences;
PER+INSIDIAS.* = search found 6 occurrences;
PER+STH?IGIAS.* = search found 2 occurrences;
PER+SUM?MA.* = search found 23 occurrences;
PER+SUM?MA+CACUMINA.* = search found 3 occurrences;
PEREGRINUM+UT.* = search found 1 occurrences;
PIETH?AS+ET.* = search found 25 occurrences;
PRIMUS+AMOR.* = search found 5 occurrences;
PRIMUS+CALAMOS.* = search found 1 occurrences;
PROBATH?+IPSE.* = search found 1 occurrences;
QUAM+LEX.* = search found 6 occurrences;
QUEM+SI.* = search found 93 occurrences;
QUEM+SI+NON.* = search found 1 occurrences;
QUI+PROBAT.* = search found 7 occurrences;
QUICUNQUE+SUB.* = search found 1 occurrences;
QUID+UULT.* = search found 10 occurrences;
QUID+UULTH?+SIBI.* = search found 1 occurrences;
QUISQUE+LATH?ENTH?I.* = search found 1 occurrences;
QUOQUE+GRATH?IA.* = search found 6 occurrences;
RARA+EST.* = search found 6 occurrences;
RECTH?OR+OLIMPI.* = search found 8 occurrences;
SED+NOCET.* = search found 2 occurrences;
SED+TH?IMIDI.* = search found 1 occurrences;
SIBI+SANGUINE.* = search found 1 occurrences;
SIC+OMNES.* = search found 15 occurrences;
SIC+QUISQUE.* = search found 1 occurrences;
SIGNA+DEDIT.* = search found 9 occurrences;
SITH?US+EST.* = search found 31 occurrences;
SOLATH?IA+MORTH?IS.* = search found 2 occurrences;
SPE+CELER.* = search found 1 occurrences;
SUA+LITH?ORA.* = search found 2 occurrences;
SUB+H?AC.* = search found 33 occurrences;
SUB+UERBERE.* = search found 6 occurrences;
SUB+UERBERE+TH?URBO.* = search found 1 occurrences;
SUM?MA+CACUMINA.* = search found 6 occurrences;
TH?EMERARIUS+ER?ROR.* = search found 1 occurrences;
TH?ER?RASQUE+FRETH?UMQUE.* = search found 1 occurrences;
TH?IMIDI+EST.* = search found 4 occurrences;
TH?IMUIS?SE+PALAM.* = search found 1 occurrences;
TH?ORTH?O+UOLITH?ANS.* = search found 1 occurrences;
TH?RAH?ENS+PER.* = search found 1 occurrences;
TH?RIA+CERBERUS.* = search found 2 occurrences;
TH?RISTH?IOR+ET.* = search found 2 occurrences;
TH?ULITH?+AD.* = search found 10 occurrences;
UNA+DUOS.* = search found 4 occurrences;
UTH?+NIGRI.* = search found 1 occurrences;
UENITH?+EC?CE.* = search found 5 occurrences;
UERBA+MINANTH?IA.* = search found 1 occurrences;
UERBERE+TH?URBO.* = search found 1 occurrences;
UER?RITH?+H?UMUM.* = search found 2 occurrences;
UIA+DECLIUIS.* = search found 1 occurrences;
UICTH?A+IACET.* = search found 4 occurrences;
UISA+EST.* = search found 85 occurrences;
UISA+ESTH?+QUOQUE.* = search found 1 occurrences;
UISCERA+MORSU.* = search found 2 occurrences;
UITH?IBUS+ULMI.* = search found 1 occurrences;
UOX+NUL?LA.* = search found 3 occurrences;
UULTH?+SIBI.* = search found 11 occurrences;

Scripts used

1. zacroala.sh, transforms words into Philologic regexes.

#!/bin/bash
# Jovanovic, 2012-10, format a list of words for CroALa orthographic search
# usage: ./zacroala.sh filename
# take argument filename:
file=$1

# make various character replacements for Philologic crapser search:
cat  ${file} \
| tr '[:lower:]' '[:upper:]' \
| tr "JY" "I" \
| tr "V" "U" \
| tr " " "+" \
| sed 's/\([AO]\)E/[AO]?E/g' \
| sed 's/\([BCDFGHLMNPRST]\)\1/\1?\1/g' \
| sed 's/H/H?/g' \
| sed 's/T\([^TH?]\)/TH?\1/g' \
| sed 's/\(.*\)/\1*/g' - >> ${file}-zacroala

2. localcaula.sh, sends a list of queries (via curl) to a Philologic installation and sorts results into positives (with hits) and negatives (no occurrences found).

The HTMLized bash script is here.

3. zacr-rez.sh transforms a list of positive results into a HTML list with live links to CroALa.

#!/bin/bash
# Jovanovic, 2012-10, transforms a list of results into live links for CroALa
# usage: ./zacr-rez.sh filename
# take argument, find file
file=$1
sed 's/^\([^ ]\+\) \([^ ]\+\)/\1+\2/g' ${file} \
| sed 's/^\([^ ]\+\) \([^ ]\+\)/\1+\2/g' \
| sed 's/+=/ =/g' \
| sed 's#^\(.*\)\( =.*\)#<li><a href="http://www.ffzg.unizg.hr/klafil/croala/cgi-bin/search3t?dbname=croala\&word=\1\&OUTPUT=TF">\1</a>\2#g' > ${file}.html
# end of script