GUA-SPA: Guarani Spanish corpus

Corpus de textos extraídos de tuits y artículos periodísticos de Paraguay, donde es habitual ver estas variedades jopara o jehe’a, y también el uso de frases en español que incluyen préstamos guaraníes. El conjunto de datos se utiliza para tres tareas: identificación de idioma, NER y una tarea de clasificación para la forma en que se usan los tramos de español en el contexto de cambio de código. El corpus de la tarea consta de 1.500 textos y unas 25.000 fichas. Los datos contienen frases extraídas de artículos de noticias y tweets.

Idioma(s)
Español
Español (Paraguay)
Guarani
Año
2023
Dominio
Noticias
Tipo Textos
Noticias
Anotaciones
named entities, language, code switching

Publicación
Luis Chiruzzo, Marvin Agüero-Torales, Gustavo Giménez-Lugo, Aldo Alvarez, Yliana Rodríguez, Santiago Góngora, Thamar Solorio, Roberto Zanoli, Goutham Karunakaran (2023) Overview of GUA-SPA at IberLEF 2023: Guarani-Spanish Code Switching Analysis. Procesamiento del Lenguaje Natural, Revista nº 71, septiembre de 2023, pp. 321-328
Número de unidades
1500
Tipo de unidades
Documentos
Tokens
24849
Documentos
1500
Tamaño set entrenamiento
1140
Tamaño set evaluación
180
Tamaño set desarrollo
180
Información adicional tamaño

named entities, language, code switching

Si has publicado un resultado mejor que los de la lista, envía un mensaje a odesia-comunicacion@lsi.uned.es indicando el resultado y el DOI del artículo, junto con una copia del mismo si no está publicado en abierto.