Carlo A Trugenberger
La majorité des données massives ne sont pas structurées et la plus importante d'entre elles est le texte. Si les techniques d'exploration de données sont bien développées et normalisées pour les données structurées (données numériques), le domaine des données non structurées reste encore largement inexploré. L'accent général est mis sur l'extraction d'informations, qui tente de récupérer des informations connues à partir d'un texte. Le Graal est cependant la découverte de connaissances, où les machines sont censées découvrir des faits et des relations entièrement nouveaux qui n'étaient auparavant connus d'aucun expert humain. En effet, la compréhension du sens du texte est généralement considérée comme l'une des caractéristiques les plus importantes de l'intelligence humaine. Le but ultime de l'IA sémantique est de concevoir un logiciel qui comprendra le sens du texte libre, au moins dans le sens pratique de fournir de nouvelles informations exploitables condensées à partir d'un ensemble de documents. En guise de tremplin sur la voie de la vision actuelle, je pourrai introduire une approche complètement nouvelle de la recherche sur les médicaments, à savoir celle d'identifier les informations pertinentes en utilisant un moteur sémantique auto-organisé pour extraire du texte de grands référentiels de documents de recherche biomédicale, une méthode mise au point par Merck avec le logiciel InfoCodex. Je décrirai la méthodologie et une expérience primaire réussie pour l'invention de nouveaux biomarqueurs et phénotypes pour le diabète et l'obésité sur l'idée de résumés PubMed, d'essais cliniques publics et de documents internes de Merck. L'approche rapportée est très prometteuse et a le potentiel d'avoir un impact fondamental sur la recherche pharmaceutique, comme la façon de raccourcir le délai de mise sur le marché de nouveaux médicaments et de reconnaître rapidement les impasses. La compréhension du langage écrit est un élément clé de l'intelligence humaine. En conséquence, faire quelque chose d'utile avec de grandes quantités de documents textuels qui sont hors de portée de l'analyse humaine nécessite inévitablement une certaine forme d'intelligence artificielle [5]. C'est pourquoi la manipulation de données non structurées est plus difficile que l'analyse de leur homologue numérique, pour laquelle des méthodes mathématiques bien définies et développées sont facilement disponibles. En effet, il n'existe pas encore d'approche standard de l'exploration de texte, l'équivalent non structuré de l'exploration de données. Il existe plusieurs approches pour apprendre à une machine à comprendre un texte [6-8]. La grande majorité des recherches et des applications se concentrent sur les techniques de traitement du langage naturel (NLP) pour l'extraction d'informations (IE). L'extraction d'informations vise à identifier les mentions d'entités nommées (par exemple, les « gènes » dans les applications en biosciences) et les relations entre ces entités (comme dans « est un » ou « est causé par »). Les entités et leurs relations sont souvent appelées « triplets » et les bases de données de triplets identifiés « magasins de triplets ». Ces magasins de triplets sont l'idée de la vision en ligne 3.0, au cours de laquelle les machines seront prêtes à reconnaître automatiquement la signification des documents en ligne et, en conséquence, à interagir intelligemment avec les utilisateurs finaux humains.Les techniques d’extraction d’information sont également l’outil principal utilisé pour sélectionner des terminologies et des ontologies spécifiques à un domaine extraites de grands corpus de documents. L’extraction d’information, cependant, n’est pas pensée pour la découverte. De par sa conception même, elle se limite à identifier des relations sémantiques explicitement lexicalisées dans un document : par définition, ces relations sont connues de l’expert humain qui les a formulées. Le « Saint Graal » [9] de l’exploration de texte, au contraire, est la découverte de connaissances à partir de grands corpus de textes. On s’attend ici à ce que les machines génèrent de nouvelles hypothèses en découvrant des corrélations jusque-là inaperçues à partir d’informations distribuées sur de très grands pools de documents. Ces hypothèses doivent ensuite être testées expérimentalement. La découverte de connaissances consiste à exhumer des informations implicites par rapport aux relations spécifiques récupérées par l’extraction d’informations. Le présent article porte sur la découverte de connaissances par les machines dans la littérature biomédicale et pharmacogénomique.
Biographie:
Carlo A Trugenberger a obtenu son doctorat en physique théorique en 1988 à l'École polytechnique fédérale de Zurich et son master en économie en 1997 à l'Université Bocconi de Milan. Une carrière académique internationale en physique théorique (MIT, Laboratoire national de Los Alamos, CERN Genève, Institut Max Planck de Munich) l'a conduit au poste de professeur associé de physique théorique à l'Université de Genève. En 2001, il a décidé de quitter le monde universitaire et d'exploiter son expertise en théorie de l'information, réseaux neuronaux et intelligence artificielle pour concevoir une technologie sémantique innovante et a cofondé la société InfoCodex AG-Semantic Technologies, Suisse.