Citirati kao / Citar como / Cite as: Bikić-Carić, Mikelenić & Bezlaj (2023).
Bikić-Carić, G., Mikelenić, B. & Bezlaj, M. (2023). Construcción del RomCro, un corpus paralelo multilingüe. Procesamiento del Lenguaje Natural, 70. Sociedad Española para el Procesamiento del Lenguaje Natural, 99-110.
Osnovne informacije / Información básica / Basic information:
HRVATSKI
Projekt Računalni usporedni korpus tekstova na romanskim jezicima i hrvatskom (RomCro) pokrenut je 2019. godine na Katedri za romansku lingvistiku Odsjeka za romanistiku Filozofskog fakulteta Sveučilišta u Zagrebu. Korpus objedinjuje romanske jezike (francuski, portugalski, rumunjski, talijanski, španjolski, a odnedavno i katalonski), a dodatkom hrvatskoga doprinosi postojećim jezičnim resursima za hrvatski jezik. Sastoji se od književnih tekstova iz 20. i 21. stoljeća, i to tako da uz svaki izvornik postoje i njegovi prijevodi na sve ostale jezike. Inovacija ovog projekta je prvenstveno u tome što za sada ne postoji korpus s takvom kombinacijom jezika, pa prema tome niti mogućnost da istraživači rade s tako sveobuhvatnim izvorom podataka. Korpus je vrijedan izvor podataka za lingvistička istraživanja ovih jezika, posebno ona kontrastivna, a zaključci se tih istraživanja mogu između ostaloga primijeniti i u traduktologiji, odnosno prevoditeljskoj praksi te u nastavi jezika i obrazovanju budućih nastavnika.
Korpus RomCro je nastao zahvaljujući potpori Filozofskog fakulteta Sveučilišta u Zagrebu od 2019. do 2024., a nova je verzija razvijena i u okviru projekta koji je podržala Hrvatska zaklada za znanost i financirala Europska unija – NextGenerationEU (broj projekta: MOBODL 2023 08 9511). Nova verzija korpusa uključuje tri nova naslova na portugalskom i hrvatskom jeziku te je proširena uvođenjem katalonskog jezika – i to kroz integraciju postojećih katalonskih prijevoda i dodavanje triju katalonskih romana s prijevodima na ostalih šest jezika. U odnosu na prvu verziju korpusa, RomCro v.2.0 obuhvaća 54 nova teksta, 24.200 više prijevodnih jedinica, 3,7 milijuna više riječi odnosno ukupno sadrži 19,4 milijuna riječi.
ESPAÑOL
El proyecto Corpus paralelo de textos en lenguas romances y en croata (RomCro) empezó el año 2019 en la Cátedra de Lingüística Románica del Departamento de Estudios Románicos de la Facultad de Humanidades y Ciencias Sociales de la Universidad de Zagreb. El corpus une lenguas romances (francés, portugués, rumano, italiano, español y, un su nueva versión, catalán) y, con la adición del croata, brinda una contribución a los recursos lingüísticos existentes del idioma croata. Se compone de textos literarios de los siglos XX y XXI, de manera que a cada texto en su idioma original se agregan las traducciones a los demás idiomas. La innovación de este proyecto radica primordialmente en el hecho de que hasta ahora no existía un corpus con dicha combinación de idiomas y, por lo tanto, tampoco la posibilidad de que los investigadores trabajen con una fuente de datos tan completa. El corpus es una valiosa fuente de datos para las investigaciones lingüísticas de estas lenguas, especialmente las investigaciones contrastivas, cuyas conclusiones pueden aplicarse en los estudios de traducción, es decir, en la práctica de la traducción y en la enseñanza de idiomas, así como en la formación de futuros docentes.
El corpus RomCro se creó gracias al apoyo de la Facultad de Humanidades y Ciencias Sociales de la Universidad de Zagreb entre 2019 y 2024, mientras que la nueva versión también se desarrolló como parte de un proyecto apoyado por la Fundación Científica de Croacia y financiado por la Unión Europea – NextGenerationEU (número de proyecto: MOBODL 2023 08 9511). La nueva versión del corpus incluye tres títulos nuevos en portugués y croata. Además, se ha añadido una sexta lengua romance: el catalán, integrando traducciones ya existentes en catalán e incorporando tres novelas catalanas con traducciones a otras lenguas. En comparación con la primera versión del corpus, RomCro v.2.0 incluye 54 textos nuevos, 24 200 unidades de traducción más y 3,7 millones de palabras más, que hace un total de 19,4 millones de palabras.
ENGLISH
The project Parallel Corpus in Romance Languages and Croatian (RomCro) started in 2019 at the Chair of Romance Linguistics of the Department of Romance Languages and Literature of the Faculty of Humanities and Social Sciences, University of Zagreb. The corpus unites five Romance languages (French, Portuguese, Romanian, Italian, Spanish and, recently, Catalan) and, with the addition of Croatian, makes a contribution to the existing linguistic resources for the Croatian language. It consists of literary texts from the 20th and 21st centuries and translations into other languages of the corpus are added to each text in its original language. The innovation of this project lies mainly in the fact that until now there was no corpus with this combination of languages available and, therefore, the researchers didn’t have the possibility to work with such a complete data source. The corpus is a valuable source of data for linguistic research on these languages, especially contrastive research, whose conclusions can be applied in translation studies or in the practice of translation, as well as in language teaching and in the training of future teachers.
The RomCro corpus was created with the support of the Faculty of Humanities and Social Sciences, University of Zagreb from 2019 to 2024. The new version was also developed as part of a project supported by the Croatian Science Foundation and funded by the European Union – NextGenerationEU (project number: MOBODL 2023 08 9511). The new version of the corpus includes three new titles in Portuguese and Croatian. Furthermore, the sixth Romance language, Catalan, has been added by integrating existing Catalan translations and incorporating three Catalan novels with translations into the other languages. Compared to the first version of the corpus, RomCro v.2.0 includes 54 new texts, 24,200 more translation units, and 3.7 million more words, for a total of 19.4 million words.
Voditeljica projekta / Directora del proyecto / Project leader: dr. sc. Gorana Bikić-Carić
Suradnici / Colaboradores / Collaborators: dr. sc. Dražen Varga, dr. sc. Bojana Mikelenić (Katedra za španjolski jezik / Cátedra de Lengua Española / Chair of Spanish language), Metka Bezlaj (Sveučilište u Zadru / Universidad de Zadar / University of Zadar)
Pristup korpusu / Acceso al corpus / Corpus access:
https://www.sketchengine.eu/ (pristup s AAI@EduHr elektroničkim identitetom Filozofskog fakulteta, ostale korisnike molimo da nas kontaktiraju: bmikelen@ffzg.unizg.hr) / El acceso al corpus es otorgado automáticamente a los colegas de la Facultad de Humanidades y Ciencias Sociales de la Universidad de Zagreb. A otros usuarios de Sketch Engine les rogamos que nos contacten a bmikelen@ffzg.unizg.hr para otorgarles el acceso. / Access to the corpus is automatically granted to colleagues from the Faculty of Humanities and Social Sciences of the University of Zagreb. For other Sketch Engine users, please contact us at bmikelen@ffzg.unizg.hr to gain access.
Direktan pristup / Acceso directo / Direct access:
Korpus u znanstvenim radovima / El corpus en los trabajos científicos / The corpus in scientific articles:
Bikić-Carić, G. (2025). Les concepts derrière les articles – quelques particularités du français”. Zbornik Francontraste 4 : Conceptualisation, contextualisation, discours, Tome 1 : Sciences du langage, Mons, CIPA, 115-153.
Bikić-Carić, G. (2024). Applications du corpus parallèle RomCro dans les recherches contrastives – les valeurs de l’article zéro dans les langues romanes. Zbornik Zagrebačka romanistička istraživanja, Zagreb: FF Press, 2024, 20-42, ISBN : 978 -953 -379-207-1, DOI : 10.17234/9789533792071.02
Mikelenić, B. & Oliver A. (2024). Using a multilingual literary parallel corpus to train NMT systems. Vanroy, B., Lefer, M.-A. & Lieve, M. et al. (eds.): Proceedings of the First Workshop on Creative-text Translation and Technology (https://ctt2024.ccl.kuleuven.be/proceedings). Creative Commons, 3-11.
Bikić-Carić, G., Mikelenić, B. & Bezlaj, M. (2023). Construcción del RomCro, un corpus paralelo multilingüe. Procesamiento del Lenguaje Natural, 70. Sociedad Española para el Procesamiento del Lenguaje Natural, 99-110.
Bikić-Carić, G., Bezlaj, M. (2023). Neke specifičnosti upotrebe određenog člana u romanskim jezicima (s posebnim naglaskom na francuski i španjolski). 70 godina Odsjeka za romanistiku Univerziteta u Sarajevu, 3.-4. prosinca 2021., Sarajevo, Univerzitet u Sarajevu – Filozofski fakultet, 15-27. ISBN: 978-9926-491-13-0.
Bezlaj, M., Bikić-Carić, G. (2023). Le choix entre l’infinitif et une forme conjuguée après les verbes d’opinion dans cinq langues romanes. Colloque international Considérations philologiques en contexte français et francophone, du 19 au 20 novembre 2021, Skopje, Université Sts. Cyrille et Méthode, 117-132, ISBN : 978-608-234-107-1.
Bikić-Carić, G., Căpăţînă, C. (2023). Particularităţi ale articolului zero în limba română. SRAZ, 68, 67-80. ISSN 0039-3339 (tisak), ISSN 1849-1421 (online).
Bikić-Carić, G. (2020). Quelques particularités dans l’expression de la détermination du nom. Comparaison entre cinq langues romanes. Studia Universitatis Babes-Bolyai-Philologia, 65 (4), 39-54.
Knjiga / Libro / Book:
Bikić-Carić, Gorana (2024). Zanimljivosti o romanskim jezicima u dijakroniji i sinkroniji (uz usporedbu s hrvatskim), Zagreb: FF Press, ISBN: 978-953-379-118-0, DOI: 10.17234/9789533792224
Predstavljanje korpusa na međunarodnim konferencijama / El corpus en las conferencias internacionales / Presentation of the corpus at international conferences:
Mikelenić, B., Polančec, J. (2024). Funkcije pasiva u hrvatskom i dvama romanskim jezicima. 8. Hrvatski sintaktički dani. Filozofski fakultet Sveučilišta Josipa Jurja Strossmayera u Osijeku, 28.-30. studenoga, 2024.
Bikić-Carić, G., Solina, K. (2024). „El subjuntivo: del latín a las lenguas románicas“, Romania Contexta IV, Universitatea Babeş-Bolyai, Cluj-Napoca, 18-19 octombrie 2024.
Mikelenić, B., Oliver, A. & Tadić, M. (2024). Expansion of the RomCro corpus with texts in Catalan. CLARIN Annual Conference 2024, Barcelona, 15.-17. listopada 2024.
Mikelenić, B. & Oliver, A. (2024). Using a Multilingual Literary Parallel Corpus to Train NMT Systems. The 25th Annual Conference of the European Association for Machine Translation (EAMT 2024), 1st Workshop on Creative-text Translation and Technology (CTT), University of Sheffield, 24.-27. lipnja 2024.
Bikić-Carić, G. (2024). „Unele particularități ale articolelor în limbile romanice“, Simpozionul Internațional de Lingvistică, Institutul de Lingvistică „Iorgu Iordan – Al. Rosetti“, Bucureşti, 23-24 mai 2024.
Mikelenić, B., & Oliver, A. (2023). „A Multilingual Literary Parallel Corpus and its Application in Machine Translation“, Corpora in Language learning, Translation and Research, Sveučilište u Zadru, 23. i 24. kolovoza 2023.
Mikelenić, B., & Bikić-Carić, G. (2023). „Contrastive Analysis of Articles in Romance Languages and Croatian on a Parallel Corpus“, 10th International Contrastive Linguistics Conference, Sveučilište u Mannheimu, 18.-21. srpnja 2023.
Bikić-Carić, G. (2022). “Le corpus parallèle RomCro et ses applications”, XXe rencontre internationale des romanisants «Défis des études romanes dans la troisième décennie du XXIe siècle», Université Palacký d’Olomouc, du 25 au 26 novembre 2022.
Mikelenić, B., & Bezlaj, M. (2022). „Desafíos en la construcción de un corpus paralelo multilingüe“, XIII International CORPUS Linguistics Conference – CILC2022, Sveučilište u Bergamu, 26.-28. svibnja, 2022.
Bikić-Carić, G., & Bezlaj, M. (2021). „Neke specifičnosti upotrebe određenog člana u romanskim jezicima (s posebnim naglaskom na francuski i španjolski)“, 70 godina izučavanja romanskih kultura, jezika i književnosti na Filozofskom fakultetu Univerziteta u Sarajevu, Filozofski fakultet Univerziteta u Sarajevu, 3.-4. prosinca 2021.
Bezlaj, M., & Bikić-Carić, G. (2021). “Le choix entre l’infinitif et une forme conjuguée après les verbes d’opinion dans cinq langues romanes”, Considérations philologiques en contexte français et francophone, Filološki fakultet Blaže Koneski Sveučilišta Sv. Ćiril i Metod u Skoplju, Skopie, 19.-20. studenoga 2021.
Mikelenić, B., & Bezlaj, M. (2021). “Construcción del RomCro: un corpus paralelo de lenguas romances y croata”, III Encuentro de Jóvenes Hispanistas, Eötvös Loránd Tudományegyetem, Budimpešta, 3.-5. ožujka 2021.
Bikić-Carić, G., & Bezlaj, M. (2000). “Construcción de un corpus multilingüe y su aplicación en el análisis contrastivo de los artículos”, XLIX Simposio de la Sociedad Española de Lingüística, Universitat Rovira i Virgili, Tarragona, 21.-24. siječnja 2020.
Ostala predstavljanja korpusa / Otras presentaciones del corpus / Other presentations of the corpus:
Mikelenić, B.: “Construcción de un corpus paralelo multilingüe y su expansión con textos en catalán”, 17. siječnja 2025., Basque Center for Language Technology HiTZ, University of the Basque Country.
Bikić-Carić, G.: Recherches contrastives en linguistique romane, Université de Bourgogne (séminaire Théories et pratiques linguistiques), le 12 novembre 2024.
Mikelenić, B.: “Construcción del RomCro: un corpus paralelo multilingüe”, 14. ožujka 2024., Universidad de Alcalá.
Bikić-Carić, G. & Mikelenić, B.: Zagrebački lingvistički krug, 16. siječnja 2024.
Bezlaj. M.: ‘Language In The Human-Machine Era’ 2nd Training School, Universidade do Porto, 31. svibnja 2022.
19. međunarodna izložba inovacija ARCA 2021, Nacionalna i sveučilišna knjižnica u Zagrebu, 14. do 16. listopada 2021.
Bikić-Carić, G.: Okrugli stol “Empowering Learning Through Technology”, HEIC (Higher Education Institutions Conference), 12. studenoga 2021., https://www.heic.hr/