IberAuTexTification | Portal ODESIA

Dataset generado para la tarea compartida centrada en la detección de texto generado por máquina y la atribución de modelos en los seis principales idiomas de la Península Ibérica: catalán, inglés, español, euskera, gallego y portugués. El conjunto de datos incluye textos humanos y generados en siete dominios: Chat, How-to, Noticias, Literario, Reseñas, Tweets y Wikipedia. Las generaciones se obtienen utilizando seis modelos de lenguaje: BLOOM-1B1, BLOOM-3B, BLOOM-7B1, Babbage, Curie y text-davinci-003.

Idioma(s)

Español

Inglés

Portugués

Enlace descripción Dataset

https://huggingface.co/datasets/Genaios/iberautextification

Año

2024

Dominio

Noticias

Social

otros

Anotaciones

Dos etiqueta binarias indicando si el texto si ha sido generado automáticamente o no, y en caso afirmativo, el modelo que lo ha generado.

Formato

tsv

Enlace guía anotaciones

https://huggingface.co/datasets/Genaios/iberautextification

Acceso a datos

Publico

Enlace acceso a datos

https://huggingface.co/datasets/Genaios/iberautextification

Publicación

Sarvazyan et al. (2024). Overview of IberAuTexTification at IberLEF 2024: Detection and Attribution of Machine-Generated Text on Languages of the Iberian Peninsula. Procesamiento del Lenguaje Natural, 73: 421-434.

Enlace publicación

http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6628/4020

Licencia

CC-BY-4.0

NLP Topic

generación de texto

Número de unidades

168128

Tipo de unidades

Documentos

Inicie sesión o registrese para enviar comentarios