Datasets

A continuación se muestra información sobre conjuntos de datos textuales en español creados con el objetivo de resolver tareas de PLN. En este caso, se trata de colecciones de textos, generalmente enriquecidas con anotaciones.
  • MEDDOCAN

    Salud
    Español
    Publicado en 2019
    1,000
    Informes de casos clínicos
    reconocimiento de entidades nombradas, extracción de información

  • HAHA

    Español
    Publicado en 2019
    30,000
    Tuits
    procesamiento de humor

  • FACT

    Español , Español (Uruguay)
    Publicado en 2019
    Noticias
    procesamiento de factualidad

  • eHealth-KD 2019

    Español
    Publicado en 2019
    1,000
    Salud
    extracción de información

  • NEGES

    Español
    Publicado en 2019
    400
    Reseñas
    análisis de sentimiento, procesamiento de la negación

  • IDAT-SP-CUBA

    Español (Cuba)
    Publicado en 2019
    3,000
    Comentarios en noticias
    procesamiento de humor

  • IDAT-SP-EU

    Español
    Publicado en 2019
    Tuits
    procesamiento de humor

  • BARR2

    Salud
    Español
    Publicado en 2018
    684
    Informes de casos clínicos
    procesamiento de abreviaturas

  • PAN18-Attribution-ES

    Ficción
    Español
    Publicado en 2018
    Fanfics
    elaboración de perfiles

  • CoNLL-UD2.2-ES

    Español
    Publicado en 2018
    445,000
    Documentos
    análisis sintáctico

  • Affect in Tweets-ES

    Español
    Publicado en 2018
    8,830
    Tuits
    análisis de sentimiento

  • Tweets emojis-ES

    Español
    Publicado en 2018
    120,000
    Tuits
    clasificación de textos

  • Hypernym corpora-ES

    Español
    Publicado en 2018
    2,000
    Palabras
    extracción de información

  • HAHA

    Español
    Publicado en 2018
    20,000
    Tuits
    procesamiento de humor

  • The TW-1O Referendum corpus - ES

    Español
    Publicado en 2018
    5,545
    Tuits
    análisis de sentimiento

Si has publicado un resultado mejor que los de la lista, envía un mensaje a odesia-comunicacion@lsi.uned.es indicando el resultado y el DOI del artículo, junto con una copia del mismo si no está publicado en abierto.