Thomas Sterling
L'analyse des données sous ses nombreuses formes s'est rapidement développée pour interagir avec les domaines d'application scientifiques, industriels et sociétaux. Mais à mesure que de plus en plus d'espaces problématiques cèdent la place à ce genre de calcul en expansion, la demande de capacités augmente. Simultanément, les systèmes et méthodes de calcul haute performance (HPC) connaissent des changements importants de forme et de performance avec la convergence asymptotique avec la taille des semi-conducteurs à l'échelle nanométrique et donc la fin de la loi de Moore même avec des performances exascale prévues dans les premières années de la prochaine décennie. Historiquement, ces deux domaines de traitement sont largement indépendants, mais maintenant un consensus croissant les rapproche, alignant leurs modalités respectives et catalysant une convergence synergique. L'un des principaux principes du décret présidentiel aboutissant à la National Strategic Computing Initiative stipule que la fusion des données massives et du calcul numérique intensif doit être un élément constitutif de la charte nationale exascale. Cette présentation décrira les nombreux changements dans l'architecture système et les méthodologies opérationnelles qui seront nécessaires pour répondre simultanément aux défis du sommet de la loi de Moore et des approches de traitement de graphes, potentiellement dynamiques qui augmenteront le calcul orienté matrice-vecteur plus conventionnel. Il abordera l'importance probable de la gestion adaptative dynamique des ressources et de la planification des tâches, essentielles aux améliorations spectaculaires de l'évolutivité et de l'efficacité du calcul exascale, ainsi que la manière dont ces changements seront appliqués à la découverte des connaissances. Pour répondre aux questions scientifiques de plus en plus complexes et gourmandes en données dans les sciences expérimentales, observationnelles et informatiques, nous développons des méthodes dans trois domaines de R&D interdépendants : (i) Nous créons de nouvelles méthodes d'analyse de données évolutives capables de fonctionner sur des plates-formes informatiques à grande échelle pour répondre à des axes de recherche scientifique de plus en plus complexes. (ii) Nos nouveaux modèles de conception informatique pour les principales méthodes d'analyse aideront les chercheurs scientifiques à tirer pleinement parti des tendances en évolution rapide de la technologie informatique, telles que l'augmentation du nombre de cœurs par processeur, des hiérarchies de mémoire et de stockage plus profondes et des plates-formes informatiques plus complexes. Les principaux objectifs sont la haute performance et la portabilité sur les plates-formes informatiques du DOE. (iii) En combinant des méthodes d'analyse et de traitement dans des pipelines de données à utiliser dans des plates-formes HPC à grande échelle, autonomes ou intégrées à un flux de travail scientifique plus vaste, nous maximisons les opportunités d'analyse des données scientifiques à l'aide d'une collection diversifiée d'outils logiciels et de ressources informatiques. Malgré les progrès considérables réalisés dans le domaine de l'imagerie biologique, qui ont permis d'obtenir des tomographies avec des résolutions toujours plus élevées, la segmentation des tomographies cellulaires en organites et en protéines reste une tâche difficile. La difficulté est particulièrement grande dans le cas de la tomographie cryoélectronique (cryo-ET),Les échantillons présentent un contraste intrinsèquement faible en raison de la dose d'électrons limitée qui peut être appliquée pendant l'imagerie avant que les dommages causés par les radiations ne se produisent. Les tomogrammes ont un faible rapport signal/bruit (SNR), ainsi que des artefacts de coin manquant causés par la plage d'inclinaison limitée de l'échantillon accessible pendant l'imagerie. Bien que le SNR puisse être amélioré en appliquant des méthodes d'amélioration du contraste et de détection des contours, ces algorithmes peuvent également générer une fausse connectivité et des artefacts supplémentaires qui dégradent les résultats produits par les programmes de segmentation automatique. Si les défis peuvent être surmontés, les approches de segmentation automatique présentent un grand intérêt. Cependant, la réalisation de cette vision est aujourd'hui empêchée par la complexité de l'échantillon et les limitations du SNR décrites ci-dessus. Les résultats de l'apprentissage automatique de pointe ne sont généralement pas adaptés à l'exploitation minière en profondeur. En fait, la situation dans la cryo-ET est tout à fait l'inverse : les segmentations de la plus haute qualité sont produites à la main, représentant des niveaux d'effort allant de quelques jours à quelques mois. Les outils de segmentation pourraient être considérablement améliorés s'ils étaient construits pour prendre en compte les connaissances préalables, minimisant ainsi la sensibilité au bruit et aux fausses connexions. À notre connaissance, il n’existe pas de méthodes utilisant des informations contextuelles spécifiques sur les structures biologiques comme contraintes de segmentation. Il n’existe pas non plus d’approches qui intègrent l’apprentissage actif avec un retour d’information de l’utilisateur, ce qui fournirait des indications quant à l’exactitude de la segmentation. Nous développons de nouvelles techniques d’apprentissage automatique pour faciliter la segmentation, l’extraction, la visualisation et l’annotation des sous-structures biologiques dans les tomogrammes 3D obtenus à partir de diverses modalités d’imagerie.Il n’existe pas non plus d’approches qui intègrent l’apprentissage actif avec le retour d’information de l’utilisateur, ce qui permettrait de s’assurer de l’exactitude de la segmentation. Nous développons de nouvelles techniques d’apprentissage automatique pour faciliter la segmentation, l’extraction, la visualisation et l’annotation de sous-structures biologiques dans des tomogrammes 3D obtenus à partir de diverses modalités d’imagerie.Il n’existe pas non plus d’approches qui intègrent l’apprentissage actif avec le retour d’information de l’utilisateur, ce qui permettrait de s’assurer de l’exactitude de la segmentation. Nous développons de nouvelles techniques d’apprentissage automatique pour faciliter la segmentation, l’extraction, la visualisation et l’annotation de sous-structures biologiques dans des tomogrammes 3D obtenus à partir de diverses modalités d’imagerie.
Biographie:
Thomas Sterling est professeur d'ingénierie des systèmes intelligents à l'École d'informatique et d'informatique de l'Université d'Indiana. Il est scientifique en chef et directeur associé du Centre de recherche sur les technologies à grande échelle (CREST). Après avoir obtenu son doctorat du MIT en 1984 en tant que boursier Hertz, il s'est engagé dans des domaines de recherche liés aux structures et à la sémantique des systèmes informatiques parallèles. Il est co-auteur de 6 livres et détient 6 brevets. Il a reçu le prix Vanguard 2013.