Carlo A. Trugenberger
La mayoría de los datos masivos no están estructurados y, de esta mayoría, el fragmento más importante es texto. Si bien las técnicas de minería de datos están bien desarrolladas y estandarizadas para los datos estructurados (datos numéricos), el ámbito de los datos no estructurados aún está en gran parte inexplorado. El enfoque general se centra en la extracción de información, que intenta recuperar información conocida del texto. Sin embargo, el Santo Grial es el descubrimiento del conocimiento, donde se espera que las máquinas descubran hechos y relaciones completamente nuevos que ningún experto humano conocía anteriormente. De hecho, comprender el significado del texto suele considerarse una de las características más importantes de la inteligencia humana. El objetivo final de la IA semántica es diseñar un software que comprenda el significado del texto libre, al menos en el sentido práctico de proporcionar información nueva y procesable condensada a partir de un conjunto de documentos. Como paso previo en el camino hacia la visión actual, podré presentar un enfoque completamente nuevo para la investigación de medicamentos, a saber, el de identificar información relevante mediante el empleo de un motor semántico autoorganizado para extraer información de texto de grandes repositorios de artículos de investigación biomédica, una forma iniciada por Merck con el software InfoCodex. Describiré la metodología y un experimento primario exitoso para la invención de los últimos biomarcadores y fenotipos para la diabetes y la obesidad sobre la base de resúmenes de PubMed, ensayos clínicos públicos y documentos internos de Merck. El enfoque informado es muy prometedor y tiene potencial para impactar fundamentalmente la investigación farmacéutica en cuanto a la forma de acortar el tiempo de comercialización de nuevos medicamentos y para el reconocimiento temprano de callejones sin salida. La comprensión del lenguaje escrito es un componente clave de la inteligencia humana. En consecuencia, hacer algo útil con grandes cantidades de documentos de texto que están fuera del alcance del análisis humano requiere, inevitablemente, alguna forma de inteligencia artificial [5]. Esta es la razón por la que manejar datos no estructurados es más difícil que analizar su contraparte numérica, para lo cual se encuentran disponibles métodos matemáticos bien definidos y desarrollados. De hecho, todavía no existe un enfoque estándar para la minería de texto, la contraparte no estructurada de la minería de datos. Existen varios enfoques para enseñar a una máquina a comprender texto [6-8]. La gran mayoría de la investigación y las aplicaciones se centran en técnicas de procesamiento del lenguaje natural (PLN) para la extracción de información (IE). La extracción de información tiene como objetivo identificar menciones de entidades nombradas (por ejemplo, “genes” en aplicaciones de biociencia) y relaciones entre estas entidades (como en “es un” o “es causado por”). Las entidades y sus relaciones a menudo se denominan “triples” y las bases de datos de triples identificadas “almacenes triples”. Estos almacenes triples son la idea de la visión de Internet 3.0, durante la cual las máquinas estarán listas para reconocer automáticamente el significado de los documentos en línea y, en consecuencia, interactuar de manera inteligente con los usuarios finales humanos.Las técnicas de IE también son la herramienta principal utilizada para seleccionar terminologías y ontologías específicas de dominio extraídas de grandes corpus de documentos. Sin embargo, la extracción de información no está pensada para el descubrimiento. Por su propio diseño, se limita a identificar relaciones semánticas que están explícitamente lexicalizadas en un documento: por definición, estas relaciones son conocidas por el experto humano que las formuló. El “Santo Grial” [9] de la minería de texto, en cambio, es el descubrimiento de conocimiento a partir de grandes corpus de texto. Aquí se espera que las máquinas generen hipótesis novedosas al descubrir correlaciones previamente inadvertidas a partir de información distribuida en grandes grupos de documentos. Estas hipótesis deben luego probarse experimentalmente. El descubrimiento de conocimiento consiste en desenterrar información implícita frente a las relaciones específicas recuperadas por la extracción de información. El presente artículo trata sobre el descubrimiento de conocimiento por parte de las máquinas dentro de la literatura biomédica y farmacogenómica.
Biografía:
Carlo A. Trugenberger obtuvo su doctorado en Física Teórica en 1988 en el Instituto Federal Suizo de Tecnología de Zúrich y su maestría en Economía en 1997 en la Universidad Bocconi de Milán. Una carrera académica internacional en física teórica (MIT, Laboratorio Nacional de Los Álamos, CERN Ginebra, Instituto Max Planck de Múnich) lo llevó al puesto de Profesor Asociado de Física Teórica en la Universidad de Ginebra. En 2001, decidió abandonar el mundo académico y explotar su experiencia en Teoría de la Información, Redes Neuronales e Inteligencia Artificial para diseñar una tecnología semántica innovadora y cofundó la empresa InfoCodex AG-Semantic Technologies, Suiza.