Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
ocr [Le 29/05/2018, 13:38]
93.24.31.3 avec yassin
ocr [Le 09/04/2024, 20:21] (Version actuelle)
UntuJLuc [Cuneiform] mention du GUI cuneiform-qt
Ligne 8: Ligne 8:
  
 Il existe plusieurs logiciels sous GNU/Linux spécialement dédiés, et il est aussi possible d'​employer les logiciels existants sous Windows via Wine. Il existe plusieurs logiciels sous GNU/Linux spécialement dédiés, et il est aussi possible d'​employer les logiciels existants sous Windows via Wine.
-Yassin le BG+
 Voici un petit guide des différentes solutions possibles avec leurs avantages, leurs inconvénients et des liens pour vous en servir. Voici un petit guide des différentes solutions possibles avec leurs avantages, leurs inconvénients et des liens pour vous en servir.
  
Ligne 18: Ligne 18:
 ====Cuneiform ==== ====Cuneiform ====
  
-[[http://cognitiveforms.com/ru/products_and_services/Cuneiform.html#​1189-Cuneiform|cuneiform]] ​(en russe, ou en [[http://​en.cognitiveforms.ru/​products/​cuneiform/​|anglais]]) ​est un OCR multi-plateforme,​ qui supporte 20 langues, dont le français. Pour les textes en français et les images propres et lisibles, il donne des résultats très satisfaisants avec une marge d'​erreur entre 2 et 3 %. De plus, il semble être le seul à supporter (de façon basique) la mise en forme du texte. Ainsi, il reconnaît les textes soulignés, gras, en italique, et les images. Le texte qu'il ne réussit pas à traiter est également importé sous forme d'​image. Il supporte les fichiers images en bmp, jpg, png, tiff,  Il peut exporter en format texte, html, rtf, et d'​autres.+[[https://cuneiform.ru/eng/​|cuneiform]] est un OCR multi-plateforme,​ qui supporte 20 langues, dont le français. Pour les textes en français et les images propres et lisibles, il donne des résultats très satisfaisants avec une marge d'​erreur entre 2 et 3 %. De plus, il semble être le seul à supporter (de façon basique) la mise en forme du texte. Ainsi, il reconnaît les textes soulignés, gras, en italique, et les images. Le texte qu'il ne réussit pas à traiter est également importé sous forme d'​image. Il supporte les fichiers images en bmp, jpg, png, tiff,  Il peut exporter en format texte, html, rtf, et d'​autres.
  
 Le projet est en attente de nouveaux développeurs depuis mai 2011 (([[https://​code.launchpad.net/​cuneiform-linux|Stepping down as maintainer]])). Il dispose toujours d'une [[https://​launchpad.net/​cuneiform-linux|page Launchpad]] qui héberge le code et est maintenue. ​ Le projet est en attente de nouveaux développeurs depuis mai 2011 (([[https://​code.launchpad.net/​cuneiform-linux|Stepping down as maintainer]])). Il dispose toujours d'une [[https://​launchpad.net/​cuneiform-linux|page Launchpad]] qui héberge le code et est maintenue. ​
 +
 +Une application avec une interface graphique a également été développée : [[https://​github.com/​sibskull/​cuneiform-qt|cuneiform-qt]].
  
 Voir la  [[http://​wiki.ubuntuusers.de/​Cuneiform-Linux?​highlight=cuneiform#​Einbindung-in-XSane|documentation]] en allemand où on trouve un fichier de commande pour xsane du genre de celui de tesseract. Voir la  [[http://​wiki.ubuntuusers.de/​Cuneiform-Linux?​highlight=cuneiform#​Einbindung-in-XSane|documentation]] en allemand où on trouve un fichier de commande pour xsane du genre de celui de tesseract.
Ligne 29: Ligne 31:
 <file bash>#​!/​bin/​sh <file bash>#​!/​bin/​sh
  
-printf %s "​$NAUTILUS_SCRIPT_SELECTED_FILE_PATHS"​ | +printf %s "​$NAUTILUS_SCRIPT_SELECTED_FILE_PATHS"​ |
 while read -r arg while read -r arg
 do do
- convert -colorspace GRAY $arg tmp.tiff + convert -colorspace GRAY "$arg" ​tmp.tiff 
- cuneiform -l fra -f rtf -o $arg.rtf tmp.tiff+ cuneiform -l fra -f rtf -o "$arg".rtf tmp.tiff
  rm tmp.tiff  rm tmp.tiff
 done</​file>​ done</​file>​
Ligne 56: Ligne 58:
  
 ==== Gocr ==== ==== Gocr ====
-Logiciel qui donne des résultats de qualité médiocre, entre 7 et 8 % d'​erreur par document. ​+Logiciel qui donne des résultats de qualité médiocre, entre 7 et 8 % d'​erreur par document.
  
 Installez le paquet **[[apt>​gocr]]** et **[[apt>​gocr-tk]]** pour avoir une interface graphique. Ce qu'il sait faire : Installez le paquet **[[apt>​gocr]]** et **[[apt>​gocr-tk]]** pour avoir une interface graphique. Ce qu'il sait faire :
   * Reconnaît les fichiers png ;   * Reconnaît les fichiers png ;
-  * Aide correcte +  * Aide correcte.
-   * La reconnaissance optique est fonctionnelle sur des fichiers images pour lesquelles tesseract ne donne aucun résultat. Par exemple une capture d'​écran en mode console réalisée avec [[:fbgrab]].+
  
 [[http://​jocr.sourceforge.net/​|Site officiel]] [[http://​jocr.sourceforge.net/​|Site officiel]]
Ligne 79: Ligne 80:
  
 Pour faire de la ROC avec Xsane il faut : Pour faire de la ROC avec Xsane il faut :
-  * Choisir son moteur d'OCR : ouvrir Xsane et dans //​Préférence -> Configuration -> OCR// il faut, dans la commande OCR, remplacer **gocr** par : +  * Choisir son moteur d'OCR : ouvrir Xsane et dans //​Préférence -> Configuration -> OCR// il faut, dans la commande OCR, remplacer **gocr** par :
       * pour  **gocr** avec la reconnaissance des caractères accentués <​code>​gocr -f UTF8</​code>​       * pour  **gocr** avec la reconnaissance des caractères accentués <​code>​gocr -f UTF8</​code>​
       * pour **tesseract** <code >​xsane2tess -l fra</​code>​       * pour **tesseract** <code >​xsane2tess -l fra</​code>​
Ligne 111: Ligne 112:
 Attention, le paquet tesseract est installé pour la reconnaissance de l'​anglais uniquement. Voir les paquet langues supplémentaires sur [[:​tesseract-ocr]]. Attention, le paquet tesseract est installé pour la reconnaissance de l'​anglais uniquement. Voir les paquet langues supplémentaires sur [[:​tesseract-ocr]].
  
-<note important>​OCRFeeder,​ après installation,​ ne se lance pas sous Linux Mint 18, ni sous Xubuntu 16.04. +<note important>​OCRFeeder,​ après installation,​ ne se lance pas. Pour résoudre ce problèmeentrez ​la commande ​suivante dans un [[terminal]] :​ <code bash>​sudo sed -i 's/ocrfeeder -i %f/ocrfeeder/' /​usr/​share/​applications/​ocrfeeder.desktop</​code>​</​note>​
-Solution : installer l'​éditeur de menu //​alacarte//​. Sous Xubuntul'​éditeur de menu est déjà installé. +
-Éditer le raccourci de OCRFeeder : remplacer ​la commande ​"ocrfeeder -i %f" par "ocrfeeder"</​note>​+
  
 Traite les images, les fichiers PDF et les sorties de scanner. On peut ajouter le contenu d'un dossier (plusieurs fichiers à la fois). Traite les images, les fichiers PDF et les sorties de scanner. On peut ajouter le contenu d'un dossier (plusieurs fichiers à la fois).
Ligne 144: Ligne 143:
 [[YAGF]] est une interface graphique pour [[#​cuneiform|cuneiform]] (donc une bonne capacité de reconnaissance comme indiqué plus haut) et [[#​tesseract|tesseract]]. [[YAGF]] est une interface graphique pour [[#​cuneiform|cuneiform]] (donc une bonne capacité de reconnaissance comme indiqué plus haut) et [[#​tesseract|tesseract]].
  
-**(en)** [[http://symmetrica.net/cuneiform-linux/yagf-en.html|Site officiel du logiciel]] ​LIEN POLLUÉ+**(en)** [[https://sourceforge.net/projects/yagf-ocr/|Site officiel du logiciel]]
  
  
 ==== LIOS ==== ==== LIOS ====
-Lios est une interface graphique pour [[#​cuneiform]] et [[#​tesseract]].Pour l'​utiliser [[:​tutoriel:​comment_installer_un_paquet|installez le paquet]] **[[apt>​lios]]**.+Lios est une interface graphique pour [[#​cuneiform]] et [[#​tesseract]]. Pour l'​utiliser [[:​tutoriel:​comment_installer_un_paquet|installez le paquet]] ​**[[apt>​lios]]**. Si vous souhaitez avoir la dernière version en français :​ 
 +  * [[:​PPA|Ajouter le PPA]] **ppa:​nalin-x-linux/​lios**((https://​launchpad.net/​~nalin-x-linux/​+archive/​ubuntu/​lios)) dans vos sources de logiciels;  
 +  * puis [[:​tutoriel:​comment_modifier_sources_maj#​recharger_la_liste_des_paquets|rechargez la liste des paquets]],​ 
 +  * puis installez le paquet ​**[[apt>​lios]]**.
 =====OCR en ligne===== =====OCR en ligne=====
  
-====Free OCR==== +Voir les solutions de [[:​ged|Gestion Électronique des Documents (GED)]] ​
-Le site [[http://​www.free-ocr.com/​|Free OCR]] permet de faire de la reconnaissance de caractères en ligne. Il est gratuit et utilise tesseract pour la reconnaissance.  +
- +
-Points forts : +
-  * gratuit +
-  * performant +
-  * gère plusieurs langues +
-  * reconnait les textes en colonne +
- +
-Points faibles : +
-  * nécessité d'​entrer un captcha à chaque texte soumis  +
-  * on ne peut faire reconnaître que dix pages ( 2 Mo maximum ). Au bout de dix, il faut attendre une heure avant de pouvoir recommencer +
- +
-Voir également : +
-   * Les solutions de [[:​ged|Gestion Électronique des Documents (GED)]] ​+
  
 ====WatchOCR - Server PDF et OCR du contenu==== ====WatchOCR - Server PDF et OCR du contenu====
Ligne 172: Ligne 160:
  
 ===== Programmes Windows utilisables sous GNU/Linux via Wine ===== ===== Programmes Windows utilisables sous GNU/Linux via Wine =====
-Simple OCR : image non PDF+
 ==== SimpleOCR ==== ==== SimpleOCR ====
  
-  * [[http://​www.01net.com/​telecharger/​windows/​Multimedia/​scanner_ocr/​fiches/​32246.html|Lien de téléchargement]]+  * [[https://​www.01net.com/​telecharger/​windows/​Multimedia/​scanner_ocr/​fiches/​32246.html|Lien de téléchargement]]
 Non libre mais gratuit. Basé sur WOCAR Non libre mais gratuit. Basé sur WOCAR
 , image non PDF , image non PDF
Ligne 181: Ligne 169:
 ==== WebOCR ==== ==== WebOCR ====
  
-  * [[http://​appdb.winehq.org/​appview.php?​iAppId=829|Fiche sur Winehq.org]]+  * [[https://​appdb.winehq.org/​appview.php?​iAppId=829|Fiche sur Winehq.org]]
  
 ==== Recognita ==== ==== Recognita ====
Ligne 189: Ligne 177:
 ==== ReadIris ==== ==== ReadIris ====
  
-[[http://​appdb.winehq.org/​objectManager.php?​sClass=application&​iId=2543|Fiche sur WineHQ.org]]+[[https://​appdb.winehq.org/​objectManager.php?​sClass=application&​iId=2543|Fiche sur WineHQ.org]]
  
 ==== ABBY FineReader 8.0 OCR ==== ==== ABBY FineReader 8.0 OCR ====
Ligne 202: Ligne 190:
  
 ==== Myscript (GNU/Linux et win) ==== ==== Myscript (GNU/Linux et win) ====
-  * [[http://​appdb.winehq.org/​objectManager.php?​sClass=application&​iId=7180|Fiche de Myscript Note (reconnaissance écriture) sur WineHQ.org]] +  * [[https://​appdb.winehq.org/​objectManager.php?​sClass=application&​iId=7180|Fiche de Myscript Note (reconnaissance écriture) sur WineHQ.org]] 
-  * [[http://​appdb.winehq.org/​objectManager.php?​sClass=application&​iId=8569|Fiche de Myscript Stylus (logiciel interactif) sur WineHQ.org]] ([[http://​www.visionobjects.com/​handwriting_recognition/​downloadstylus3.htm#​Linux|existe pour GNU/Linux]] ), reconnaît l'​écriture attachée +  * [[https://​appdb.winehq.org/​objectManager.php?​sClass=application&​iId=8569|Fiche de Myscript Stylus (logiciel interactif) sur WineHQ.org]] ([[http://​www.visionobjects.com/​handwriting_recognition/​downloadstylus3.htm#​Linux|existe pour GNU/Linux]] ), reconnaît l'​écriture attachée 
-Non libre, [[http://​www.visionobjects.com/​handwriting_recognition/​onlinestore.htm|versions d'​évaluation 30 jours]] des logiciels sur le site officiel. ​+Non libre, [[http://​www.visionobjects.com/​handwriting_recognition/​onlinestore.htm|versions d'​évaluation 30 jours]] des logiciels sur le site officiel.
  
 ===== Voir aussi ===== ===== Voir aussi =====
  
-  * [[http://​forum.ubuntu-fr.org/​viewtopic.php?​id=78804|le fil de discussion du forum à propos de l'​OCR]]+  * [[https://​forum.ubuntu-fr.org/​viewtopic.php?​id=78804|le fil de discussion du forum à propos de l'​OCR]]
    
 ---- ----
  
 //​Contributeurs : [[:​utilisateurs:​Teolemon|Pierre S.]] et [[:​utilisateurs:​Sorbus]] --- [[:​utilisateurs:​L'​Africain|L'​Africain]] Le 14/07/2017, 21:06.// //​Contributeurs : [[:​utilisateurs:​Teolemon|Pierre S.]] et [[:​utilisateurs:​Sorbus]] --- [[:​utilisateurs:​L'​Africain|L'​Africain]] Le 14/07/2017, 21:06.//
  • ocr.1527593908.txt.gz
  • Dernière modification: Le 29/05/2018, 13:38
  • par 93.24.31.3