Raviraj Choudhary, Ravi Saharien
Les systèmes antivirus utilisent traditionnellement des signatures pour détecter les exécutables malveillants, mais les signatures sont des fonctionnalités surajustées qui sont peu utiles dans l'apprentissage automatique. D'autres méthodes cherchent à utiliser des fonctionnalités plus générales, avec un certain succès. Dans cet article, nous présentons une nouvelle approche qui effectue une recherche exhaustive de fonctionnalités sur un ensemble de virus informatiques. Cette méthode détecte des modèles mnémoniques dans de grandes quantités de données et utilise ces modèles pour détecter de futures instances dans des données similaires. Nous utilisons un algorithme a priori pour sélectionner des fonctionnalités afin de détecter les exécutables malveillants. Grâce à ces fonctionnalités, nous créons un ensemble de règles ou un modèle de détection pour l'entraînement sur un ensemble donné de données d'entraînement.