Shweta Vikram
La traduction automatique convertit une langue en une autre langue. Anusaaraka est une traduction automatique, qui est un logiciel d'accès à la langue anglaise vers l'indienne. Anusaaraka est un projet de recherche et développement sur le traitement du langage naturel (NLP) entrepris par la Fondation internationale Chinmaya (CIF). Lorsqu'une machine fait ce travail, elle a besoin d'un grand corpus parallèle qui peut aider à créer des règles et à lever l'ambiguïté de nombreux sens. Elle suit une approche hybride mais nous travaillons sur une approche basée sur des règles. Pour cette approche, nous avions besoin d'un grand corpus parallèle aligné. Dans cet article, nous discutons de la manière dont nous collectons des corpus parallèles à l'aide de certains scripts shell, de certains programmes, d'une boîte à outils et d'autres choses.