IberAuTexTification

Dataset generado para la tarea compartida centrada en la detección de texto generado por máquina y la atribución de modelos en los seis principales idiomas de la Península Ibérica: catalán, inglés, español, euskera, gallego y portugués. El conjunto de datos incluye textos humanos y generados en siete dominios: Chat, How-to, Noticias, Literario, Reseñas, Tweets y Wikipedia. Las generaciones se obtienen utilizando seis modelos de lenguaje: BLOOM-1B1, BLOOM-3B, BLOOM-7B1, Babbage, Curie y text-davinci-003.

Idioma(s)
Español
Inglés
Portugués
Año
2024
Dominio
Noticias
Social
otros
Anotaciones
Dos etiqueta binarias indicando si el texto si ha sido generado automáticamente o no, y en caso afirmativo, el modelo que lo ha generado.
Formato
tsv
Acceso a datos
Publico

Publicación
Sarvazyan et al. (2024). Overview of IberAuTexTification at IberLEF 2024: Detection and Attribution of Machine-Generated Text on Languages of the Iberian Peninsula. Procesamiento del Lenguaje Natural, 73: 421-434.
Licencia
CC-BY-4.0
Número de unidades
168128
Tipo de unidades
Documentos

Si has publicado un resultado mejor que los de la lista, envía un mensaje a odesia-comunicacion@lsi.uned.es indicando el resultado y el DOI del artículo, junto con una copia del mismo si no está publicado en abierto.