Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
tesseract-ocr [Le 07/03/2019, 10:14] RolandG [Pour une reconnaissance optique directe dans LibreOffice Writer de fichiers PNG ou JPG] correction ortografic mineure |
tesseract-ocr [Le 04/08/2023, 19:43] (Version actuelle) lyondif02 [Liens] mention outil OCRmyPDF basé sur Tesseract |
||
---|---|---|---|
Ligne 15: | Ligne 15: | ||
===== Installation ===== | ===== Installation ===== | ||
[[:tutoriel:comment_installer_un_paquet|Installez les paquets]] **[[apt>tesseract-ocr]]** et pour reconnaître la langue française, **[[apt>tesseract-ocr-fra]]**. \\ | [[:tutoriel:comment_installer_un_paquet|Installez les paquets]] **[[apt>tesseract-ocr]]** et pour reconnaître la langue française, **[[apt>tesseract-ocr-fra]]**. \\ | ||
- | Il existe d'autres fichiers de langues, comme par exemple : | + | Il existe d'autres fichiers de langues, comme par exemple : |
- | * **[[apt>tesseract-ocr-deu]]** (allemand), | + | * **[[apt>tesseract-ocr-deu]]** (allemand), |
- | * **[[apt>tesseract-ocr-eng]]** (anglais), | + | * **[[apt>tesseract-ocr-eng]]** (anglais), |
- | * **[[apt>tesseract-ocr-spa]]** (espagnol), | + | * **[[apt>tesseract-ocr-spa]]** (espagnol), |
- | * **[[apt>tesseract-ocr-nld]]** (hollandais), | + | * **[[apt>tesseract-ocr-nld]]** (hollandais), |
- | * **[[apt>tesseract-ocr-ita]]** (italien), | + | * **[[apt>tesseract-ocr-ita]]** (italien), |
- | * **[[apt>tesseract-ocr-por]]** (portugais-brésilien), | + | * **[[apt>tesseract-ocr-por]]** (portugais-brésilien), |
* **[[apt>tesseract-ocr-vie]]** (vietmamien), | * **[[apt>tesseract-ocr-vie]]** (vietmamien), | ||
- | * **[[apt>tesseract-ocr-deu-f]]** (vieil-allemand). | + | * **[[apt>tesseract-ocr-deu-f]]** (vieil-allemand). |
===== Utilisation ===== | ===== Utilisation ===== | ||
<note important>les scanners numérisent souvent avec une résolution suffisante pour la lecture à l'écran mais insuffisante pour une reconnaissance efficace. | <note important>les scanners numérisent souvent avec une résolution suffisante pour la lecture à l'écran mais insuffisante pour une reconnaissance efficace. | ||
- | Il faut donc numériser au moins à **300 voir 600 ppp** (Point Par Pouce ou DPI) | + | Il faut donc numériser au moins à **300 voire 600 ppp** (Point Par Pouce ou DPI) |
Quant au type de fichier, le format [[wpfr>Tagged_Image_File_Format|tiff]] est mieux reconnu, ainsi un document tiff en 300ppp est intégralement reconnu alors qu'au format JPEG, toujours en 300ppp, seules les lettres majuscules sont reconnues</note> | Quant au type de fichier, le format [[wpfr>Tagged_Image_File_Format|tiff]] est mieux reconnu, ainsi un document tiff en 300ppp est intégralement reconnu alors qu'au format JPEG, toujours en 300ppp, seules les lettres majuscules sont reconnues</note> | ||
+ | |||
+ | ======= Erreur à l'utilisation ===== | ||
+ | Si vous obtenez ce message : | ||
+ | |||
+ | Error opening data file /home/<repertoire personnel>/snap/tesseract/common/Error opening data file /home/<repertoire personnel>/snap/tesseract/common/eng.traineddata.traineddata | ||
+ | Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory. | ||
+ | Failed loading language 'Error opening data file /home/<repertoire personnel>/snap/tesseract/common/eng.traineddata' | ||
+ | Tesseract couldn't load any languages! | ||
+ | Could not initialize tesseract. | ||
+ | |||
+ | Copier le répertoire « tesseract-ocr ». Depuis usr/share/ → vers usr/local/share/ | ||
+ | |||
+ | Les fichiers de langues se trouve à cette emplacement : | ||
+ | usr/local/share/tesseract-ocr/4.00/tessdata | ||
==== En ligne de commande ==== | ==== En ligne de commande ==== | ||
Ligne 71: | Ligne 85: | ||
<note tip>Pour réaliser de la Reconnaissance optique de caractères : | <note tip>Pour réaliser de la Reconnaissance optique de caractères : | ||
- | * sur un document déjà numérisé, on utilise [[gscan2pdf|gscan2pdf]]. | + | * sur un document déjà numérisé, on utilise [[gscan2pdf|gscan2pdf]]. |
* sur un document à numériser, on utilise plutôt [[xsane|XSane]], dont la fonction de prévisualisation permet de sélectionner des zones de texte. | * sur un document à numériser, on utilise plutôt [[xsane|XSane]], dont la fonction de prévisualisation permet de sélectionner des zones de texte. | ||
Ligne 150: | Ligne 164: | ||
* [[https://github.com/tesseract-ocr/tesseract/wiki|Site officiel]] | * [[https://github.com/tesseract-ocr/tesseract/wiki|Site officiel]] | ||
* [[http://www.repairfaq.org/filipg/gnu/tesseract/html-102_03/|Documentation pour contribuer au code (en anglais)]] | * [[http://www.repairfaq.org/filipg/gnu/tesseract/html-102_03/|Documentation pour contribuer au code (en anglais)]] | ||
- | * [[http://forum.ubuntu-fr.org/viewtopic.php?id=78804|le fil de discussion du forum]] Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie... | + | * [[https://forum.ubuntu-fr.org/viewtopic.php?id=78804|le fil de discussion du forum]] Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie... |
* [[https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract|La page où on parle de l'apprentissage avec tesseract (anglais)]] | * [[https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract|La page où on parle de l'apprentissage avec tesseract (anglais)]] | ||
* [[:ocr|La page de la documentation francophone Ubuntu sur la reconnaissance optique de caractères]] | * [[:ocr|La page de la documentation francophone Ubuntu sur la reconnaissance optique de caractères]] | ||
* [[https://gist.github.com/stesie/42dff3d14fbfac60524f381babb8f81d|script « scan2pdf+ocr.sh » sur le GITHUB]] | * [[https://gist.github.com/stesie/42dff3d14fbfac60524f381babb8f81d|script « scan2pdf+ocr.sh » sur le GITHUB]] | ||
+ | * [[https://ocrmypdf.readthedocs.io/en/latest/introduction.html|OCRmyPDF]] : programme qui rend un fichier PDF indexable – à savoir, dont le contenu peut faire l’objet d’un recherche textuelle. Il est écrit en [[python|Python]], s’appuie sur le moteur ROC Tesseract et sur GhostScript, est disponible au [[snap|format Snap]] ou en [[apt|paquet APT]], et est utilisable en ligne de commande par défaut. | ||
---- | ---- | ||
//Contributeurs : [[:utilisateurs:teolemon|Pierre S.]], [[:utilisateurs:Hector]] et [[:utilisateurs:Sorbus]], [[:utilisateurs:eagle08]] : liens.// | //Contributeurs : [[:utilisateurs:teolemon|Pierre S.]], [[:utilisateurs:Hector]] et [[:utilisateurs:Sorbus]], [[:utilisateurs:eagle08]] : liens.// |