Proceedings of the 12th Workshop on Challenges in the Management of Large Corpora

LREC 2026 Workshop

Palma, Mallorca, Spain 11 - 16 May 2026 19 papers

DOI:10.63317/5pqtt3fp5zah

Proceedings PDF

Show20per page

TestiMole-Conversational: A 30-Billion-Word Italian Discussion Board Corpus (1996–2024) for Language Modeling and Sociolinguistic Research

Matteo Rinaldi, Rossella Varvara, Viviana Patti

pp. 1-11 DOI: 10.63317/5643evropidu

A Large Dataset Representing Bulgarian, with the Bulgarian National Corpus as Its Core

Svetla Peneva Koeva, Ivelina Stoyanova

pp. 12-24 DOI: 10.63317/4gxqpsnk5jz5

Merimënga: A Manifest-First Pipeline for Reproducible Albanian Web Corpus Construction

Besim Kabashi, Michael Ruppert

pp. 25-31 DOI: 10.63317/4aesmyqqveeo

Pop Lyrics through Time: Challenges in Corpus-Based Modeling of Linguistic and Emotional Dynamics in German Pop Lyrics

Roman Schneider

pp. 32-43 DOI: 10.63317/4dh6sfnuqcnr

The Infrastructure behind Latvian National Corpora Collection

Roberts Dargis, Baiba Valkovska

pp. 44-48 DOI: 10.63317/4cz3r3aih2t9

Optimized for AI: Curating the Icelandic Gigaword Corpus for Stable LLM Training

Jón Friðrik Daðason, Steinþór Steingrímsson

pp. 49-56 DOI: 10.63317/3uatbht8mdrf

Hellenic National Corpus: The Current State

Maria Gavriilidou, Nikolaos Sidiropoulos

pp. 57-62 DOI: 10.63317/492hm739pspc

Corpas Náisiúnta Na Gaeilge 2022-2029: A Project Overview

Mícheál J. Ó Meachair, Úna Bhreathnach, Kevin Scannell, Michal Mechura, Brian Ó Raghallaigh, Gearóid Ó Cleircín

pp. 63-65 DOI: 10.63317/4ybzkgmrs3hd

General Regionally Annotated Corpus of Ukrainian: Recent Developments and Future Plans

Maria Shvedova

pp. 66-70 DOI: 10.63317/2qtbabb3qtjw

Recent Developments of the Bulgarian National Corpus

Svetla Peneva Koeva, Ivelina Stoyanova

pp. 71-75 DOI: 10.63317/3m95ohtw7mjs

The British National Corpus 1994 to 2026

Martin Wynne, Megan Bushnell

pp. 76-77 DOI: 10.63317/4yzqikwnh4b8

The Corpus of Contemporary Polish: 2011-2020 Decade and Beyond

Witold Kieraś, Małgorzata Marciniak, Katarzyna Krasnowska-Kieraś, Marcin Woliński

pp. 78-79 DOI: 10.63317/35cjnfgvskp4

Building the v4 of the Croatian National Corpus

Marko Tadić, Vanja Štefanec, Daša Farkaš

pp. 80-83 DOI: 10.63317/48si6yrozisf

Managing Growth in a National Corpus: The Hungarian National Corpus 3.0 (MNSZ3)

Noémi Ligeti-Nagy, Enikő Héja, Ágnes Bánfi, Flóra Földesi, Bence Sárossy, Boglárka Skrabák, Tamás Váradi, Gábor Prószéky

pp. 84-90 DOI: 10.63317/46aafswuwv4m

CoRoLa Version 2.0: Corpus Enrichment and a New Annotation Level

Elena Irimia, Verginica Barbu Mititelu, Radu Ion, Vasile Pais, Maria Mitrofan, Dan Ioan Tufis

pp. 91-97 DOI: 10.63317/44pgxmuvou8v

The German Medical Text Corpus: Early 2026 Update

Justin Hofenbitzer, Christina Lohr, Frank Meineke, Markus Löffler, Martin Boeker

pp. 98-100 DOI: 10.63317/3xopdv4wdd93

From Corpus to Community: New NLP Tools for Welsh Language Research and Learning

Dawn Knight, Fernando Alva-Manchego

pp. 101-103 DOI: 10.63317/56urzbii2rvy

Swiss-AL: Language Data Platform for Applied Sciences

Julia Krasselt, Philipp Dreesen, Dolores Lemmenmeier-Batinić, Sooyeon Geckeler, Klaus Rothenhäusler, Matthias Fluor

pp. 104-105 DOI: 10.63317/5omeepsboek4

EuReCo, KorAP and DeReKo: Updates on Ingestion and Annotation Pipelines, Backend, Interfaces, Operation, and Corpora

Marc Kupietz, Nils Diewald, Harald Lüngen, Eliza Margaretha Illig, Helge Stallkamp, Uyen-Nhu Tran, Rameela Yaddehige

pp. 106-112 DOI: 10.63317/2xcbb5knp2mi

Showing all 19 papers