GenoVarDis | Portal ODESIA

El corpus está compuesto por (i) la traducción y curación manual de los documentos con anotaciones de tmVar3 (Wei et al., 2022), que incluyen resúmenes de PubMed, a los cuales se añadieron las enfermedades y síntomas asociados; y (ii) la anotación manual de resúmenes en español de PubMed.

Idioma(s)

Español

Enlace descripción Dataset

https://codalab.lisn.upsaclay.fr/competitions/17733

Año

2024

Dominio

Biología

Anotaciones

Cada anotación incluye: pmid (ID del artículo en PubMed), start y end (posición en el texto), term (texto exacto) y entity, que puede ser Disease (enfermedad), Gene (gen), Transcript (variante de transcripción), DNAMutation (mutación en ADN) u OtherMutation (otras mutaciones, como en exones o missense).

Formato

txt

Enlace acceso a datos

https://codalab.lisn.upsaclay.fr/competitions/17733#learn_the_details-overview

Publicación

Agüero-Torales et al. (2024). Overview of GenoVarDis at IberLEF 2024: NER of Genomic Variants and Related Diseases in Spanish. Procesamiento del Lenguaje Natural, 73: 421-434.

Enlace publicación

http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6625/4017

NLP Topic

reconocimiento de entidades nombradas

Número de unidades

633

Tipo de unidades

Documentos

Tamaño set entrenamiento

427

Tamaño set evaluación

136

Tamaño set desarrollo

70

Inicie sesión o registrese para enviar comentarios