Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
tesseract-ocr [Le 07/03/2019, 10:14]
RolandG [Pour une reconnaissance optique directe dans LibreOffice Writer de fichiers PNG ou JPG] correction ortografic mineure
tesseract-ocr [Le 04/08/2023, 19:43] (Version actuelle)
lyondif02 [Liens] mention outil OCRmyPDF basé sur Tesseract
Ligne 15: Ligne 15:
 ===== Installation ===== ===== Installation =====
 [[:​tutoriel:​comment_installer_un_paquet|Installez les paquets]] **[[apt>​tesseract-ocr]]** et pour reconnaître la langue française, **[[apt>​tesseract-ocr-fra]]**. \\ [[:​tutoriel:​comment_installer_un_paquet|Installez les paquets]] **[[apt>​tesseract-ocr]]** et pour reconnaître la langue française, **[[apt>​tesseract-ocr-fra]]**. \\
-Il existe d'​autres fichiers de langues, comme par exemple :  +Il existe d'​autres fichiers de langues, comme par exemple : 
-  * **[[apt>​tesseract-ocr-deu]]** (allemand),  +  * **[[apt>​tesseract-ocr-deu]]** (allemand),​ 
-  * **[[apt>​tesseract-ocr-eng]]** (anglais),  +  * **[[apt>​tesseract-ocr-eng]]** (anglais),​ 
-  * **[[apt>​tesseract-ocr-spa]]** (espagnol),  +  * **[[apt>​tesseract-ocr-spa]]** (espagnol),​ 
-  * **[[apt>​tesseract-ocr-nld]]** (hollandais),​  +  * **[[apt>​tesseract-ocr-nld]]** (hollandais),​ 
-  * **[[apt>​tesseract-ocr-ita]]** (italien),  +  * **[[apt>​tesseract-ocr-ita]]** (italien),​ 
-  * **[[apt>​tesseract-ocr-por]]** (portugais-brésilien), ​ +  * **[[apt>​tesseract-ocr-por]]** (portugais-brésilien),​
   * **[[apt>​tesseract-ocr-vie]]** (vietmamien),​   * **[[apt>​tesseract-ocr-vie]]** (vietmamien),​
-  * **[[apt>​tesseract-ocr-deu-f]]** (vieil-allemand). ​+  * **[[apt>​tesseract-ocr-deu-f]]** (vieil-allemand).
  
 ===== Utilisation ===== ===== Utilisation =====
 <note important>​les scanners numérisent souvent avec une résolution suffisante pour la lecture à l'​écran mais insuffisante pour une reconnaissance efficace. <note important>​les scanners numérisent souvent avec une résolution suffisante pour la lecture à l'​écran mais insuffisante pour une reconnaissance efficace.
  
-Il faut donc numériser au moins à **300 voir 600 ppp** (Point Par Pouce ou DPI) +Il faut donc numériser au moins à **300 voire 600 ppp** (Point Par Pouce ou DPI)
  
 Quant au type de fichier, le format [[wpfr>​Tagged_Image_File_Format|tiff]] est mieux reconnu, ainsi un document tiff en 300ppp est intégralement reconnu alors qu'au format JPEG, toujours en 300ppp, seules les lettres majuscules sont reconnues</​note>​ Quant au type de fichier, le format [[wpfr>​Tagged_Image_File_Format|tiff]] est mieux reconnu, ainsi un document tiff en 300ppp est intégralement reconnu alors qu'au format JPEG, toujours en 300ppp, seules les lettres majuscules sont reconnues</​note>​
 +
 +======= Erreur à l'​utilisation =====
 +Si vous obtenez ce message :
 +
 +Error opening data file /​home/<​repertoire personnel>/​snap/​tesseract/​common/​Error opening data file /​home/<​repertoire personnel>/​snap/​tesseract/​common/​eng.traineddata.traineddata
 +Please make sure the TESSDATA_PREFIX environment variable is set to your "​tessdata"​ directory.
 +Failed loading language 'Error opening data file /​home/<​repertoire personnel>/​snap/​tesseract/​common/​eng.traineddata'​
 +Tesseract couldn'​t load any languages!
 +Could not initialize tesseract.
 +
 +Copier le répertoire « tesseract-ocr ». Depuis usr/​share/ ​ →  vers usr/​local/​share/​
 +
 +Les fichiers de langues se trouve à cette emplacement :​
 +usr/​local/​share/​tesseract-ocr/​4.00/​tessdata
  
 ==== En ligne de commande ==== ==== En ligne de commande ====
Ligne 71: Ligne 85:
  
 <note tip>Pour réaliser de la Reconnaissance optique de caractères : <note tip>Pour réaliser de la Reconnaissance optique de caractères :
-  * sur un document déjà numérisé, on utilise [[gscan2pdf|gscan2pdf]]. ​+  * sur un document déjà numérisé, on utilise [[gscan2pdf|gscan2pdf]].
   * sur un document à numériser, on utilise plutôt [[xsane|XSane]],​ dont la fonction de prévisualisation permet de sélectionner des zones de texte.   * sur un document à numériser, on utilise plutôt [[xsane|XSane]],​ dont la fonction de prévisualisation permet de sélectionner des zones de texte.
  
Ligne 150: Ligne 164:
   * [[https://​github.com/​tesseract-ocr/​tesseract/​wiki|Site officiel]]   * [[https://​github.com/​tesseract-ocr/​tesseract/​wiki|Site officiel]]
   * [[http://​www.repairfaq.org/​filipg/​gnu/​tesseract/​html-102_03/​|Documentation pour contribuer au code (en anglais)]]   * [[http://​www.repairfaq.org/​filipg/​gnu/​tesseract/​html-102_03/​|Documentation pour contribuer au code (en anglais)]]
-  * [[http://​forum.ubuntu-fr.org/​viewtopic.php?​id=78804|le fil de discussion du forum]] Open Office, Reconnaissance de caractères,​ Xsane, Kooka et Cie...+  * [[https://​forum.ubuntu-fr.org/​viewtopic.php?​id=78804|le fil de discussion du forum]] Open Office, Reconnaissance de caractères,​ Xsane, Kooka et Cie...
   * [[https://​github.com/​tesseract-ocr/​tesseract/​wiki/​TrainingTesseract|La page où on parle de l'​apprentissage avec tesseract (anglais)]]   * [[https://​github.com/​tesseract-ocr/​tesseract/​wiki/​TrainingTesseract|La page où on parle de l'​apprentissage avec tesseract (anglais)]]
   * [[:ocr|La page de la documentation francophone Ubuntu sur la reconnaissance optique de caractères]]   * [[:ocr|La page de la documentation francophone Ubuntu sur la reconnaissance optique de caractères]]
   * [[https://​gist.github.com/​stesie/​42dff3d14fbfac60524f381babb8f81d|script « scan2pdf+ocr.sh » sur le GITHUB]]   * [[https://​gist.github.com/​stesie/​42dff3d14fbfac60524f381babb8f81d|script « scan2pdf+ocr.sh » sur le GITHUB]]
 +  * [[https://​ocrmypdf.readthedocs.io/​en/​latest/​introduction.html|OCRmyPDF]] :​ programme qui rend un fichier PDF indexable – à savoir, dont le contenu peut faire l’objet d’un recherche textuelle. Il est écrit en [[python|Python]],​ s’appuie sur le moteur ROC Tesseract et sur GhostScript,​ est disponible au [[snap|format Snap]] ou en [[apt|paquet APT]], et est utilisable en ligne de commande par défaut.
  
 ---- ----
  
 //​Contributeurs : [[:​utilisateurs:​teolemon|Pierre S.]], [[:​utilisateurs:​Hector]] et [[:​utilisateurs:​Sorbus]],​ [[:​utilisateurs:​eagle08]] : liens.// //​Contributeurs : [[:​utilisateurs:​teolemon|Pierre S.]], [[:​utilisateurs:​Hector]] et [[:​utilisateurs:​Sorbus]],​ [[:​utilisateurs:​eagle08]] : liens.//
  • tesseract-ocr.1551950080.txt.gz
  • Dernière modification: Le 07/03/2019, 10:14
  • par RolandG