Data / IA
Bletchley Park numérise les archives secrètes de la Seconde Guerre mondiale [Partie 2/2 : Le projet]
Par La rédaction, publié le 17 juillet 2012
Pour numériser ses archives, Bletchley Park ne peut compter que sur ses volontaires. Il lui faut des outils simples à utiliser, mais performants pour restituer aux chercheurs des images conformes aux documents d’origine.
Centre névralgique du déchiffrement des messages allemands et japonais pendant toute la Seconde Guerre mondiale, Bletchley Park abrite dans ses archives les millions de messages échangés par les troupes de l’Axe lors du conflit. Ces archives, jusqu’à aujourd’hui secrètes, occupent 8 salles complètes. Les fiches où étaient notés les messages interceptés sont toujours enfermées dans des cartons. Et outre ces 2 à 3 millions de fiches, Bletchley Park stocke des documents de toutes sortes, notamment ceux envoyés par les espions alliés. Plans de sous-marins, positions des troupes de l’Africakorps ou encore données relatives à l’organisation de l’armée allemande, des milliers de documents historiques dorment à Bletchley Park, aux côtés des travaux d’Alan Turing. Autant de données que les volontaires du musée ont entrepris de numériser.
Iain Standen, PDG du Bletchley Park Trust, l’association qui gère aujourd’hui le musée et la rénovation du site, détaille ce projet : « On s’appuie sur des volontaires qui viennent tous les jours pour cataloguer les documents avec des crayons à papier, les numériser puis les indexer. Sur le site, nous pouvons nous reposer sur un total de 200 volontaires dont 8 sont dédiés à ce projet de numérisation. » Pour l’essentiel, ces bénévoles sont des retraités, certainement bien plus compétents sur l’histoire de la Seconde Guerre mondiale et le rôle du déchiffrement dans le conflit qu’en informatique. Il fallait donc leur donner des moyens techniques extrêmement simples à mettre en œuvre, mais suffisamment efficaces face à l’ampleur de la tâche.
Partenaire du projet de numérisation, HP fournit 4 scanners au centre : des Scanjet Enterprise 7000 s2, petits scanners de 21,6 cm de large, bien suffisants pour numériser les cartes. Un scanner plus important, un Scanjet N9120 au format A6 permet aux volontaires de numériser les documents de format plus important, dont les plans et les schémas.
Mander Thiara, formateur chez HP (ci-dessous), explique ce qui a été mis en place pour faciliter le travail des bénévoles : « On a privilégié la simplicité, avec une interface utilisateur simple, facile à utiliser par les volontaires puisqu’ils scannent les fiches en appuyant sur un seul bouton du scanner. Le PC ne sert qu’à contrôler visuellement la qualité de l’image avant de la stocker sur le serveur. »
L’expert a ainsi mis en place des profils de numérisation totalement préparamétrés, profils sélectionnés directement sur la touche de validation du scanner. Les deux faces de la fiche sont assemblées dans un même fichier et copiées dans le répertoire qui correspond au carton en cours, de manière automatisée. Par contre, la qualité de numérisation privilégie la qualité : les fiches sont numérisées en 200dpi et stockées sous forme de fichier tiff relativement volumineux (environ 2,9 Mo par image). Aucun des filtres d’amélioration de la qualité ou d’optimisation de la compression des données, pourtant intégrés par HP à ses produits, n’est ici utilisé : « L’image devait être la plus fidèle possible à l’original, commente Mander Thiara. Il s’agit de documents destinés aux historiens, impossible d’en retirer les défauts ! » En outre, les fichiers ne subissent pas de traitement de lecture automatique, les multiples annotations manuelles et la qualité des documents ne permettent pas d’automatiser ce traitement de façon efficace.
L’archivage des fiches ne s’arrête pas à leur simple numérisation. Les fichiers stockés dans les répertoires des serveurs de Bletchley Park sont ensuite dupliqués et envoyés sur la plate-forme cloud computing de l’éditeur Hyland. L’éditeur gère, via sa solution OnBase, la base de données associée à ces images. C’est sur sa solution que les volontaires vont classer les fiches. La date de rédaction des données de la fiche est notée, de même que des mots clés y sont affectés. Ce peut être le nom du navire en question, le nom des personnes mentionnées, celui de la bataille… Ainsi, une fiche annonçant la victoire d’un U-Boat sur un navire allié est indexée dans les victoires de la marine allemande et dans la liste des navires alliés coulés et, enfin, affectée à la zone géographique et l’événement historique.
James Mayhew, PDG de Hyland Software, souligne : « Pour l’heure, on ajoute de l’intelligence autour de l’image elle-même. On ne procède pas de manière linéaire, en commençant par la boîte numéro 1, puis la numéro 2, etc., jusqu’à la dernière. On travaille sur des dates particulières, sur des grands événements de la guerre comme le D-Day ou la bataille d’Angleterre. »
Ainsi, si depuis le début du projet 30 000 documents ont été scannées, Lori Shaffer, volontaire, confie : « Aujourd’hui, 6 000 fiches ont été numérisées. » Des années de travail attendent les bénévoles pour venir à bout des archives de Bletchley Park.
Le logiciel OnBase autorise dans cette phase un travail collaboratif entre les volontaires : celui qui enrichit la fiche peut demander des conseils à ses collègues, ou vérifier que tel événement mentionné sur la fiche correspond à telle ou telle bataille. En outre, la plate-forme gère un accès web par un simple navigateur. « L’ouverture au public de cette base de données sera certainement la prochaine grande étape du projet », conclut James Mayhew.
Lisez la première partie de cet article, consacré à l’histoire de Bletchley Park, « The Home of the Codebreakers »
Lisez la première partie de cet article, consacré à l’histoire de Bletchley Park, « The Home of the Codebreakers »