detección de cambio de código

GUA-SPA: Guarani Spanish corpus

Lee más sobre GUA-SPA: Guarani Spanish corpus
Inicie sesión o registrese para enviar comentarios

Corpus de textos extraídos de tuits y artículos periodísticos de Paraguay, donde es habitual ver estas variedades jopara o jehe’a, y también el uso de frases en español que incluyen préstamos guaraníes. El conjunto de datos se utiliza para tres tareas: identificación de idioma, NER y una tarea de clasificación para la forma en que se usan los tramos de español en el contexto de cambio de código. El corpus de la tarea consta de 1.500 textos y unas 25.000 fichas. Los datos contienen frases extraídas de artículos de noticias y tweets.

detección de cambio de código

GUA-SPA: Spanish code classification

GUA-SPA: Guarani Spanish corpus