GUA-SPA: Spanish code classification
NLP topic
Dataset
Idioma
Español
Año
2023
Corpus de textos extraídos de tuits y artículos periodísticos de Paraguay, donde es habitual ver estas variedades jopara o jehe’a, y también el uso de frases en español que incluyen préstamos guaraníes. El conjunto de datos se utiliza para tres tareas: identificación de idioma, NER y una tarea de clasificación para la forma en que se usan los tramos de español en el contexto de cambio de código. El corpus de la tarea consta de 1.500 textos y unas 25.000 fichas. Los datos contienen frases extraídas de artículos de noticias y tweets.