El corpus está compuesto por (i) la traducción y curación manual de los documentos con anotaciones de tmVar3 (Wei et al., 2022), que incluyen resúmenes de PubMed, a los cuales se añadieron las enfermedades y síntomas asociados; y (ii) la anotación manual de resúmenes en español de PubMed.
Idioma(s)
Español
Enlace descripción Dataset
Año
2024
Dominio
Biología
Anotaciones
Cada anotación incluye: pmid (ID del artículo en PubMed), start y end (posición en el texto), term (texto exacto) y entity, que puede ser Disease (enfermedad), Gene (gen), Transcript (variante de transcripción), DNAMutation (mutación en ADN) u OtherMutation (otras mutaciones, como en exones o missense).
Formato
txt
Enlace acceso a datos
Publicación
Agüero-Torales et al. (2024). Overview of GenoVarDis at IberLEF 2024: NER of Genomic Variants and Related Diseases in Spanish. Procesamiento del Lenguaje Natural, 73: 421-434.
Enlace publicación
NLP Topic
Número de unidades
633
Tipo de unidades
Documentos
Tamaño set entrenamiento
427
Tamaño set evaluación
136
Tamaño set desarrollo
70
- Inicie sesión o registrese para enviar comentarios