GenoVarDis

El corpus está compuesto por (i) la traducción y curación manual de los documentos con anotaciones de tmVar3 (Wei et al., 2022), que incluyen resúmenes de PubMed, a los cuales se añadieron las enfermedades y síntomas asociados; y (ii) la anotación manual de resúmenes en español de PubMed.

Idioma(s)
Español
Año
2024
Dominio
Biología
Anotaciones
Cada anotación incluye: pmid (ID del artículo en PubMed), start y end (posición en el texto), term (texto exacto) y entity, que puede ser Disease (enfermedad), Gene (gen), Transcript (variante de transcripción), DNAMutation (mutación en ADN) u OtherMutation (otras mutaciones, como en exones o missense).
Formato
txt

Publicación
Agüero-Torales et al. (2024). Overview of GenoVarDis at IberLEF 2024: NER of Genomic Variants and Related Diseases in Spanish. Procesamiento del Lenguaje Natural, 73: 421-434.
Número de unidades
633
Tipo de unidades
Documentos
Tamaño set entrenamiento
427
Tamaño set evaluación
136
Tamaño set desarrollo
70

Si has publicado un resultado mejor que los de la lista, envía un mensaje a odesia-comunicacion@lsi.uned.es indicando el resultado y el DOI del artículo, junto con una copia del mismo si no está publicado en abierto.