French
Ce projet de recherche, en collaboration avec le Bodmer Lab, consiste à océriser la collection de Bry, des imprimés latins des XVIe et XVIIe siècles, afin d’en obtenir une transcription aussi correcte que possible et de la rendre explorable par la recherche plein texte. Dans un premier temps, nous avons testé quatre logiciels d’océrisation gratuits et open source, Tesseract, Kraken, Calamari et OCR4all. Kraken et Calamari ont donné des résultats peu convaincants, mais Tesseract et OCR4all étaient bien plus performants. Nous avons testé en mesurant la précision, le rappel, et la F-mesure (F1) au niveau des caractères et au niveau des mots. Pour Tesseract, nous avons obtenu une F1 de 78.62% (caractères) et 31.78% (mots). Pour OCR4all, nous avons obtenu une F1 de 85.43% (caractères) et 49.51% (mots). Cependant, un bug d’OCR4all en rend son utilisation complexe et chronophage, et nous avons choisi de travailler avec Tesseract. Nous avons ensuite essayé différentes méthodes pour améliorer les résultats obtenus avec Tesseract, certaines basées sur le traitement des inputs, d’autres sur le traitement des outputs, et une autre sur une fonctionnalité du logiciel. Toutes les méthodes n’étaient pas nécessairement efficaces, mais grâce à certaines, nous avons pu atteindre une F1 de 80.06% au niveau des caractères et de 34.58% au niveau des mots. Enfin, nous avons proposé des solutions d’intégration des transcriptions sur le site web du Bodmer Lab. Nos recommandations prennent en compte les technologies actuellement utilisées par le mandant, à savoir IIIF et Mirador, et se basent sur des méthodes en usage dans des institutions similaires.
Travail de recherche réalisé dans le cadre du Master of Science HES-SO en Sciences de l'information à la Haute école de gestion de Genève (HEG-GE), Filière Information documentaire, 2020