Revista de investigación sobre farmacia y administración de medicamentos

Un enfoque de aprendizaje conjunto para realizar predicciones de vínculos en gráficos de conocimiento biomédico a gran escala para la reutilización y el descubrimiento de fármacos

Kai Liu, Vignesh Prabhakar, Chau Vu, Jennifer Crawford y Joseph Waite

La generación de incrustaciones de gráficos de conocimiento (KGE) para representar entidades (nodos) y relaciones (aristas) en conjuntos de datos de gráficos de conocimiento a gran escala ha sido un problema desafiante en el aprendizaje de la representación. Esto se debe principalmente a que las incrustaciones/representaciones vectoriales que se requieren para codificar el alcance completo de los datos en un gráfico heterogéneo grande deben tener una alta dimensionalidad. La orientación de una gran cantidad de vectores requiere mucho espacio, lo que se logra proyectando las incrustaciones a dimensiones mayores. Esta no es una solución escalable, especialmente cuando esperamos que el gráfico de conocimiento crezca en tamaño para incorporar más datos. Cualquier esfuerzo por restringir las incrustaciones a una cantidad menor de dimensiones podría ser problemático, ya que la falta de espacio para orientar espacialmente la gran cantidad de incrustaciones/representaciones vectoriales dentro de una cantidad limitada de dimensiones podría conducir a una inferencia deficiente en tareas posteriores, como la predicción de vínculos, que aprovechan estas incrustaciones para predecir la probabilidad de existencia de un vínculo entre dos o más entidades en un gráfico de conocimiento. Este es especialmente el caso de los grandes gráficos de conocimiento biomédico que relacionan varias entidades diversas, como genes, enfermedades, vías de señalización, funciones biológicas, etc., que son clínicamente relevantes para la aplicación de los KG al descubrimiento de fármacos. Por lo tanto, los tamaños de los gráficos de conocimiento biomédico son mucho mayores en comparación con los conjuntos de datos de gráficos de conocimiento de referencia típicos. Esto plantea un gran desafío a la hora de generar incrustaciones/representaciones vectoriales de buena calidad para representar la estructura semántica latente del gráfico. Los intentos de sortear este desafío aumentando la dimensionalidad de las incrustaciones a menudo generan limitaciones de hardware, ya que la generación de incrustaciones de alta dimensión es computacionalmente costosa y, a menudo, inviable. Para abordar de manera práctica la representación de la estructura latente de estos Gráficos de Conocimiento (KG) a gran escala, nuestro trabajo propone un modelo de aprendizaje de conjunto en el que el gráfico de conocimiento completo se muestrea en varios subgráficos más pequeños y los modelos KGE generan incrustaciones para cada subgráfico individual. Los resultados de la predicción de enlaces de los modelos KGE entrenados en cada subgráfico se agregan luego para generar un conjunto consolidado de predicciones de enlaces en todo el gráfico de conocimiento. Los resultados experimentales demostraron una mejora significativa en las métricas de evaluación basadas en rango en las predicciones de enlaces específicos de tareas, así como en las predicciones de enlaces generales en cuatro conjuntos de datos de gráficos de conocimiento biomédico de código abierto.

Descargo de responsabilidad: este resumen se tradujo utilizando herramientas de inteligencia artificial y aún no ha sido revisado ni verificado.