Named entity normalization

Dada una colección de documentos de informes clínicos en texto sin formato, los sistemas participantes deben proporcionar todas las menciones de especies junto con sus correspondientes identificadores de conceptos de la taxonomía del NCBI.

La Taxonomía del Centro Nacional de Biotecnología de la Información (NCBI, por sus siglas en inglés) incluye nombres de organismos clasificados principalmente en función de una jerarquía filogenética. La Taxonomía del NCBI es una base de datos universal utilizada por la Colaboración Internacional de Bases de Datos de Secuencias Nucleotídicas (INSDC), que incluye GenBank, el Laboratorio Europeo de Biología Molecular (EMBL) y el Banco de Datos de ADN de Japón (DDBJ), como fuente única de clasificación taxonómica para mantener la consistencia entre las bases de datos. En el NCBI, cada código único identifica un tipo específico de organismo (por ejemplo, ID de Taxonomía: 5476 para Candida Albicans) o grupos de organismos (ID de Taxonomía: 40674 para mamíferos).

Publicación
Antonio Miranda-Escalada, Eulàlia Farré-Maduell, Salvador Lima-López, Darryl Estrada, Luis Gascó, Martin Krallinger (2022) Mention detection, normalization & classification of species, pathogens, humans and food in clinical documents: Overview of the LivingNER shared task and resources. Procesamiento del Lenguaje Natural, Revista nº 69, septiembre de 2022, pp. 241-253.
Idioma
Español
NLP topic
Tarea abstracta
Dataset
Año
2022
Métrica Ranking
Micro F

Mejores resultados para la tarea

Sistema MicroPrecision MicroRecall MicroF1
plncmm 0.9139 0.9060 0.9099
Vicomtech NLP 0.9376 0.9234 0.9304
IGES 0.8979 0.8512 0.8740
Clac 0.9495 0.8910 0.9193
Pumas 0.9389 0.8075 0.8682

Si has publicado un resultado mejor que los de la lista, envía un mensaje a odesia-comunicacion@lsi.uned.es indicando el resultado y el DOI del artículo, junto con una copia del mismo si no está publicado en abierto.