Ex imagine ad litteras

Burgy, Florence; Gerson, Steeve; Schüpbach, Loïc; Gobeill (dir.)

Back

Research report

Ex imagine ad litteras : projet d’océrisation de la collection De Bry

2020

54 p.

reconnaissance optique de caractères

French Ce projet de recherche, en collaboration avec le Bodmer Lab, consiste à océriser la collection de Bry, des imprimés latins des XVIe et XVIIe siècles, afin d’en obtenir une transcription aussi correcte que possible et de la rendre explorable par la recherche plein texte. Dans un premier temps, nous avons testé quatre logiciels d’océrisation gratuits et open source, Tesseract, Kraken, Calamari et OCR4all. Kraken et Calamari ont donné des résultats peu convaincants, mais Tesseract et OCR4all étaient bien plus performants. Nous avons testé en mesurant la précision, le rappel, et la F-mesure (F1) au niveau des caractères et au niveau des mots. Pour Tesseract, nous avons obtenu une F1 de 78.62% (caractères) et 31.78% (mots). Pour OCR4all, nous avons obtenu une F1 de 85.43% (caractères) et 49.51% (mots). Cependant, un bug d’OCR4all en rend son utilisation complexe et chronophage, et nous avons choisi de travailler avec Tesseract. Nous avons ensuite essayé différentes méthodes pour améliorer les résultats obtenus avec Tesseract, certaines basées sur le traitement des inputs, d’autres sur le traitement des outputs, et une autre sur une fonctionnalité du logiciel. Toutes les méthodes n’étaient pas nécessairement efficaces, mais grâce à certaines, nous avons pu atteindre une F1 de 80.06% au niveau des caractères et de 34.58% au niveau des mots. Enfin, nous avons proposé des solutions d’intégration des transcriptions sur le site web du Bodmer Lab. Nos recommandations prennent en compte les technologies actuellement utilisées par le mandant, à savoir IIIF et Mirador, et se basent sur des méthodes en usage dans des institutions similaires.

Language

French

Classification

Information, communication and media sciences

Series statement

Travail de recherche réalisé dans le cadre du Master of Science HES-SO en Sciences de l'information à la Haute école de gestion de Genève (HEG-GE), Filière Information documentaire, 2020

Notes

Haute école de gestion Genève
Information documentaire
hesso:hegge

License

License undefined

Identifiers

RERO DOC 328465
REPORT NUMBER TRMASID 22

Persistent URL

https://sonar.ch/hesso/documents/314892

Statistics

Document views: 227 File downloads:

BURGY_GERSON_SCHUPBACH_Projet_Recherche_Bodmer_Lab.pdf: 434

SONAR|HES-SO

Research report

Ex imagine ad litteras : projet d’océrisation de la collection De Bry

Bodmer Lab

OCR

reconnaissance optique de caractères

Intelligence artificielle

Tesseract

De Bry : latin

humanités numériques

Statistics