Datasets

A continuación se muestra información sobre conjuntos de datos textuales en español creados con el objetivo de resolver tareas de PLN. En este caso, se trata de colecciones de textos, generalmente enriquecidas con anotaciones.
  • DIANN-2018-EN

    Salud
    Inglés
    Publicado en 2018
    500
    Resúmenes de artículos científicos
    reconocimiento de entidades nombradas, procesamiento de la negación

  • MLDoc-EN

    Noticias
    Inglés
    Publicado en 2018
    14,458
    Noticias
    clasificación de textos

  • BARR2

    Salud
    Español
    Publicado en 2018
    684
    Informes de casos clínicos
    procesamiento de abreviaturas

  • PAN18-Attribution-ES

    Ficción
    Español
    Publicado en 2018
    Fanfics
    elaboración de perfiles

  • CoNLL-UD2.2-ES

    Español
    Publicado en 2018
    445,000
    Documentos
    análisis sintáctico

  • Affect in Tweets-ES

    Español
    Publicado en 2018
    8,830
    Tuits
    análisis de sentimiento

  • Tweets emojis-ES

    Español
    Publicado en 2018
    120,000
    Tuits
    clasificación de textos

  • Hypernym corpora-ES

    Español
    Publicado en 2018
    2,000
    Palabras
    extracción de información

  • HAHA

    Español
    Publicado en 2018
    20,000
    Tuits
    procesamiento de humor

  • The TW-1O Referendum corpus - ES

    Español
    Publicado en 2018
    5,545
    Tuits
    análisis de sentimiento

  • DIANN-2018-ES

    Salud
    Español
    Publicado en 2018
    500
    Resúmenes de artículos científicos
    reconocimiento de entidades nombradas, procesamiento de la negación

  • AMI-ES

    Español
    Publicado en 2018
    4,138
    Tuits
    detección de odio

  • CWIG3G2-ES

    Español
    Publicado en 2018
    17,605
    morfología

  • MLDoc-ES

    Noticias
    Español
    Publicado en 2018
    14,458
    Noticias
    clasificación de textos

Si has publicado un resultado mejor que los de la lista, envía un mensaje a odesia-comunicacion@lsi.uned.es indicando el resultado y el DOI del artículo, junto con una copia del mismo si no está publicado en abierto.