Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
ocr [Le 28/12/2016, 18:31]
Toobuntu [gImageReader] https://github.com/manisandro/gImageReader
ocr [Le 28/09/2022, 20:49] (Version actuelle)
Amiralgaby [Cuneiform] amélioration du code shell - repéré grâce à wiki-corrector
Ligne 1: Ligne 1:
-{{tag>precise ​bureautique portail}}+{{tag>​bureautique portail}}
  
 ---- ----
Ligne 9: Ligne 9:
 Il existe plusieurs logiciels sous GNU/Linux spécialement dédiés, et il est aussi possible d'​employer les logiciels existants sous Windows via Wine. Il existe plusieurs logiciels sous GNU/Linux spécialement dédiés, et il est aussi possible d'​employer les logiciels existants sous Windows via Wine.
  
-Pour le moment, la ROC (ou OCR) n'est pas un des domaines les plus avancés sous GNU/​Linux :​ jusqu'​en 2006, les résultats étaient même en général totalement inutilisables. Cependant, les choses ont évolué rapidement en 2007 et 2008 avec tesseract et le projet Ocropus. ​Voici un petit guide des différentes solutions possibles avec leurs avantages, leurs inconvénients et des liens pour vous en servir.+Voici un petit guide des différentes solutions possibles avec leurs avantages, leurs inconvénients et des liens pour vous en servir.
  
 Voir également : Voir également :
-   * Les solutions de [[ged|Gestion Électronique des Documents (GED)]] ​+   * Les solutions de [[:ged|Gestion Électronique des Documents (GED)]] ​
  
 ===== Logiciels d'OCR pour GNU/Linux (utilisables en ligne de commande) ===== ===== Logiciels d'OCR pour GNU/Linux (utilisables en ligne de commande) =====
-==== gocr ==== 
-http://​jocr.sourceforge.net/​ 
  
-  * **les plus :** +====Cuneiform ====
-    -empaqueté pour ubuntu ([[:​tutoriel:​comment_installer_un_paquet|installation]] de **[[apt>​gocr|gocr]]**) ;​ +
-    -reconnaît les png ; +
-    -aide correcte ; +
-    -facile à utiliser ; +
-    -interface graphique: gocr-tk. +
-    -la reconnaissance optique est fonctionnelle sur des fichiers images pour lesquelles tesseract ne donne aucun résultat. Par exemple une capture d'​écran en mode console réalisée avec [[:​fbgrab|fbgrab]]. +
-  * **les moins :** +
-    -le résultat est loin d'​être idéal.+
  
 +[[http://​cognitiveforms.com/​ru/​products_and_services/​Cuneiform.html#​1189-Cuneiform|cuneiform]] (en russe, ou en [[http://​en.cognitiveforms.ru/​products/​cuneiform/​|anglais]]) est un OCR multi-plateforme,​ qui supporte 20 langues, dont le français. Pour les textes en français et les images propres et lisibles, il donne des résultats très satisfaisants avec une marge d'​erreur entre 2 et 3 %. De plus, il semble être le seul à supporter (de façon basique) la mise en forme du texte. Ainsi, il reconnaît les textes soulignés, gras, en italique, et les images. Le texte qu'il ne réussit pas à traiter est également importé sous forme d'​image. Il supporte les fichiers images en bmp, jpg, png, tiff,  Il peut exporter en format texte, html, rtf, et d'​autres.
  
-==== OCRopus ====+Le projet est en attente de nouveaux développeurs depuis mai 2011 (([[https://​code.launchpad.net/​cuneiform-linux|Stepping down as maintainer]])). Il dispose toujours d'une [[https://​launchpad.net/​cuneiform-linux|page Launchpad]] qui héberge le code et est maintenue.
  
- [[OCRopus]] (page détaillée) : ROC avec prise en compte de la mise en page (en développement). Initialement OCRopus utilisait le moteur **tesseract**,​ mais ce n'est plus le cas depuis 2009 (([[https://groups.google.com/forum/?fromgroups#!msg/​ocropus/​thYjUERaUro/​zNsTMhoIxJYJ|OCRopus doesn'​t even link with +Voir la  [[http://wiki.ubuntuusers.de/Cuneiform-Linux?highlight=cuneiform#Einbindung-in-XSane|documentation]] en allemand où on trouve un fichier de commande pour xsane du genre de celui de tesseract.
-Tesseract by default anymore.]]))+
  
- Site officiel ​https://code.google.com/​p/​ocropus/​+Pour l'​utiliser [[:tutoriel:comment_installer_un_paquet|installez le paquet]] **[[apt>​cuneiform]]**.
  
-==== tesseract-ocr ====+Il est aussi possible de lancer cuneiform sur un fichier image par l'​intermédiaire d'un [[:​nautilus_scripts|script nautilus]] tel que celui-ci :  
 +<file bash>#​!/​bin/​sh
  
-Voir la page [[:​tesseract-ocr]] pour plus d'​informations sur l'​installation et l'​utilisation+printf %s "​$NAUTILUS_SCRIPT_SELECTED_FILE_PATHS"​ | 
 +while read -r arg 
 +do 
 + convert -colorspace GRAY "​$arg"​ tmp.tiff 
 + cuneiform ​-l fra -f rtf -o "​$arg"​.rtf tmp.tiff 
 + rm tmp.tiff 
 +done</​file>​
  
-  * **les plus :** +Il peut être utilisé dans l'​interface graphique ​[[:XSane]].
-    -empaqueté pour ubuntu ([[:tutoriel:​comment_installer_un_paquet|installation]] de [[apt>​tesseract-ocr|tesseract-ocr]]) ;​ +
-    -très bonne performance si l'​image est bonne, bonne dans tous les cas ; +
-    -accepte beaucoup de format d'​images (Utilise Leptonica);​ +
-    -gère plusieurs langues dont le français (avec les accents) dans les versions 2 ou postérieures (paquets disponibles dans Universe) ; +
-    -possibilité de lui apprendre un nouveau jeu de caractères dans sa dernière version ; +
-    -gestion de plusieurs jeux de caractères simultanés ; +
-    -peut être utilisé dans les interfaces graphiques XSane (via les adaptateurs xsane2tess ou ocube) et gscan2pdf, disponibles sous Hardy et suivants.+
  
-  * **les moins :** 
-        -problème de compilation sur certaines plateformes (fedora core 6) ; 
  
-==== Moteurs dont le développement est arrêté ​==== +==== OCRopus ​====
-=== cuneiform ​===+
  
-Projet mort depuis 2011.+ ​[[OCRopus]] (page détaillée) : ROC avec prise en compte de la mise en page (en développement). Très utile pour les vieux manuscrits.
  
-[[http://​cognitiveforms.com/​ru/​products_and_services/​Cuneiform.html#​1189-Cuneiform|cuneiform]] (en russe, ou en [[http://​en.cognitiveforms.ru/​products/​cuneiform/​|anglais]]) est un OCR multiplateforme,​ qui supporte 20 langues, dont le français. Pour les textes en français et les images propres et lisibles, il donne des résultats corrects. De plus, il semble être le seul à supporter (de façon basique) la mise en forme du texte. Ainsi, il reconnaît les textes soulignés, gras, en italique, et les images. Le texte qu'il ne réussit pas à traiter est également importé sous forme d'​image. Il supporte les fichiers images en bmp, png, tiff,  Il peut exporter en format texte, html, rtf (mais j'ai obtenu de piètres résultats pour ce format), et d'​autres.+==== Tesseract-ocr ====
  
-Le projet est en attente de nouveaux développeurs depuis mai 2011 ((https://​code.launchpad.net/​cuneiform-linux|Stepping down as maintainer)). Le projet dispose toujours ​d'une [[https://​launchpad.net/​cuneiform-linux|page Launchpad]] qui héberge ​le code et est maintenue+Voir la page [[:tesseract-ocr]] pour plus d'informations sur l'​installation et l'​utilisation.\\ 
 +Pour l'​utiliser ​[[:tutoriel:​comment_installer_un_paquet|installer le paquet]] **[[apt>​tesseract-ocr]]**.\\ 
 +Donne de très bons résultats si l'​image est bonne, bons dans tous les cas. Ce qu'il peut faire : 
 +  * Accepte beaucoup de format d'​images (Utilise Leptonica) ;​ 
 +  * Gère plusieurs langues dont le français (avec les accents) ;​ 
 +  * Possibilité de lui apprendre un nouveau jeu de caractères dans sa dernière version ; 
 +  * Gestion de plusieurs jeux de caractères simultanés ;​ 
 +  * Peut être utilisé dans les interfaces graphiques [[:XSane]] (via les adaptateurs [[:​xsane2tess]] ou ocube) ​et [[:​gscan2pdf]].
  
-Voir la  [[http://​wiki.ubuntuusers.de/​Cuneiform-Linux?​highlight=cuneiform#​Einbindung-in-XSane|documentation]] en allemand où on trouve un fichier de commande pour xsane du genre de celui de tesseract.+==== Gocr ==== 
 +Logiciel qui donne des résultats ​de qualité médiocre, entre 7 et 8 % d'​erreur par document.
  
-  ​* **les plus :** +Installez le paquet ​**[[apt>gocr]]** et **[[apt>gocr-tk]]** pour avoir une interface graphique. Ce qu'il sait faire : 
-    - empaqueté pour Ubuntu ([[:​tutoriel:​comment_installer_un_paquet|installation]] de [[apt>cuneiform|cuneiform]]) ;  +  * Reconnaît ​les fichiers png ; 
-  * **les moins :*+  ​Aide correcte.
-    - ? +
-<​note>​il est aussi possible de lancer cuneiform sur un fichier image par l'​intermédiaire d'un nautilus-script tel que celui-ci :  +
-<​code>#​!/​bin/​sh+
  
-printf %s "​$NAUTILUS_SCRIPT_SELECTED_FILE_PATHS"​ |  +[[http://​jocr.sourceforge.net/|Site officiel]]
-while read -r arg +
-do +
- convert -colorspace GRAY $arg tmp.tiff +
- cuneiform -l fra -f rtf -o $arg.rtf tmp.tiff +
- rm tmp.tiff +
-done</code> +
-</​note>​+
  
-=== Ocrad === 
-[[http://​www.gnu.org/​software/​ocrad/​ocrad.html|Ocrad]] est un élément du projet GNU. Son développement semble arrêté (ou très ralenti) depuis 2011. 
  
-  * **les plus :** +==== Ocrad ==== 
-     - empaqueté pour Ubuntu ​([[:​tutoriel:​comment_installer_un_paquet|installation]] de [[apt://ocrad|ocrad]]) ;  +[[http://​www.gnu.org/​software/​ocrad/​ocrad.html|Ocrad]] est un élément du projet GNU. Son développement semble arrêté ​(ou très ralenti) depuis 2011.\\ 
-     - présence d'une aide. +Pour l'​utiliser ​[[:​tutoriel:​comment_installer_un_paquet|installer le paquet]] **[[apt>ocrad]]** 
-  * **les moins :** +Cependant, les résultat ​sont médiocres par rapport aux autres moteursPeut s'​utiliser en ligne de commande ou avec [[:Skanlite]] et [[#​OCRFeeder]].
-    ​- ​résultat ​très médiocre et non utilisable.\\ (FIXME à vérifier, car on obtient ​de bons résultats ​avec Kooka utilisant ocrad voir ci-dessous)+
  
  
 ===== Interfaces graphiques ===== ===== Interfaces graphiques =====
  
-Il n'​existe aucune interface utilisateur pour faire de la relecture d'OCR dans de bonnes conditions. +==== Xsane ==== 
-==== xsane ==== +[[:Xsane]] (page détaillée) est une application graphique très complète pour scanner, qui utilise **gocr****tesseract** ou **cuneiform**.\\ 
-[[:Xsane]] (page détaillée) est une application graphique très complète pour scanner, qui utilise **gocr** ​ou **tesseract** ou **cuneiform**. +Pour utiliser la ROC il faudra avoir [[:​tutoriel:​comment_installer_un_paquet|installé l'un des paquets]] **[[apt>​gocr]]** ou **[[apt>​cuneiform]]** ou bien le moteur [[:​tesseract-ocr]] avec XSane, dont les indications se trouvent sur la page [[:​xsane2tess]].
-=== xsane mode d'emploi ===+
  
-Testé sous Hardy, Intrepid, Jaunty, Lucid (avec cunéiform),​ Oneiric +Pour faire de la ROC avec Xsane il faut 
- +  * Choisir son moteur d'OCR : ouvrir Xsane et dans //​Préférence -> Configuration -> OCR// il faut, dans la commande OCR, remplacer **gocr** par :
-== Pré-requis == +
- +
-  * Avoir [[:​tutoriel:​comment_installer_un_paquet|installé l'un des paquets]] **[[apt>​gocr|gocr]]** ou **[[apt>​cuneiform|cuneiform]]** +
-  * ou pour utiliser le moteur ​de ROC tesseract ​avec XSane, suivre les indications de la page [[:xsane2tess]]. +
- +
-== Méthode == +
- +
-  * Choisir son moteur d'OCR : ouvrir Xsane et dans //​Préférence -> Configuration -> OCR// il faut, dans la commande OCR, remplacer **gocr** par : +
       * pour  **gocr** avec la reconnaissance des caractères accentués <​code>​gocr -f UTF8</​code>​       * pour  **gocr** avec la reconnaissance des caractères accentués <​code>​gocr -f UTF8</​code>​
-      * pour **tesseract** <code >​xsane2tess ​ -l  fra'</​code>​ +      * pour **tesseract** <code >​xsane2tess -l fra</​code>​ 
-      * pour **cuneiform** <code >​cuneiform -l fra'</​code>​ +      * pour **cuneiform** <code >​cuneiform -l fra</​code>​ 
-  * dans XSane : //​Applications -> Images -> Scanneur d'​images XSane// ; +  * dans la zone à droite de la cible, sélectionner ​//Enregistrer// 
-  * dans la zone à droite de la cible, sélectionner ​"Enregistrer" ​+  * dans //Type//, sélectionner ​//TEXT// 
-  * dans "Type", sélectionner ​"TEXT" ​+  * dans le sélecteur couleur ou N/B, sélectionner ​//Gris// ou //Noir/Blanc ou Trait// (à tester selon le document à scanner)et en-dessous, sélectionner la résolution qui convient (pour obtenir les meilleurs résultats, les avis divergent entre 300 et 600 dpi.
-  * dans le sélecteur couleur ou N/B, sélectionner ​"Gris" ​ou "Noir/Blanc ou Trait" ​(à tester selon le document à scanner)+
-et en-dessous, sélectionner la résolution qui convient (pour obtenir les meilleurs résultats, les avis divergent entre 300 et 600 ppi ; un test fait sur des textes écrits en polices 10 et 12 //Arial//, //Times New Roman// et //Courier 10 Pitch// donne les meilleurs résultats en 300 ppi).+
  
-{{ xsane_0.97-2.png }} | {{ xsane_0.97.png }} | +{{ Xsane_roc.png?350 }}
-| //Captures d'​écran réalisées avec Xsane 0.97 sous Dapper. +
-La disposition des divers éléments diffère légèrement avec les versions suivantes de Xsane sous Hardy, Intrepid et Jaunty, mais le principe est le même.// ||+
  
-Ensuite : +Ensuite :​ 
-  - dans la fenêtre ​"Aperçu", cliquer sur "Acquisition de l'​aperçu" ​;+  - dans la fenêtre ​//Aperçu//, cliquer sur //Acquisition de l'​aperçu// ;
   - recadrer sur la zone de texte à scanner ;   - recadrer sur la zone de texte à scanner ;
-  - XSane va enregistrer le résultat dans un fichier texte, par défaut sur votre bureau ou dans "​home/​votre_identité" ​(selon les versions de Xsane). Il est possible de choisir le dossier d'​enregistrement du fichier texte en indiquant le chemin dans la zone de saisie située à côté de l'​icône "​disquette"​. On peut aussi nommer le fichier. Par exemple en remplaçant ​"out.txt" des captures d'​écran ci-dessus ​par "/​home/​votre_identité/​essai_ocr_1.txt" ​+  - XSane va enregistrer le résultat dans un fichier texte, par défaut sur votre bureau ou dans votre **Dossier personnel** ​(selon les versions de Xsane). Il est possible de choisir le dossier d'​enregistrement du fichier texte en indiquant le chemin dans la zone de saisie située à côté de l'​icône "​disquette"​. On peut aussi nommer le fichier. Par exemple en remplaçant ​**out.txt** par **/​home/​votre_identité/​essai_ocr_1.txt** 
-  - cliquer sur "numériser" et attendre le "​transfert de l'​image"​ ; +  - cliquer sur "Numériser" et attendre le "​transfert de l'​image"​ ; 
-  - copier-coller le contenu du fichier texte dans un fichier ouvert avec un traitement de texte (OOo Writer ou autre) ​;+  - copier-coller le contenu du fichier texte dans un fichier ouvert avec un [[:​libreoffice|traitement de texte]] ;
   - terminer le traitement "à la main" en utilisant le correcteur orthographique du logiciel de traitement de texte.   - terminer le traitement "à la main" en utilisant le correcteur orthographique du logiciel de traitement de texte.
  
-cuneiform est le moteur (voir plus haut), paramétré sous xsane qui a donné les meilleurs résultats, reconnaissance optique presque parfaite, avec une détection excellente des colonnes.+cuneiform est le moteur (voir plus haut), paramétré sous Xsane qui a donné les meilleurs résultats, reconnaissance optique presque parfaite, avec une détection excellente des colonnes.
  
 ==== gscan2pdf ==== ==== gscan2pdf ====
  
 Interface graphique permettant notamment de réaliser de la Reconnaissance Optique de Caractères avec les moteurs **gocr** et **tesseract**. Son développement dynamique lui permet d'​intégrer les outils les plus performants sous GNU/Linux, dont bientôt **OCRopus**. Interface graphique permettant notamment de réaliser de la Reconnaissance Optique de Caractères avec les moteurs **gocr** et **tesseract**. Son développement dynamique lui permet d'​intégrer les outils les plus performants sous GNU/Linux, dont bientôt **OCRopus**.
- 
-gscan2pdf est présent dans les dépôts. 
  
 Voir chapitre utilisation de la page détaillée [[:​gscan2pdf]]. Voir chapitre utilisation de la page détaillée [[:​gscan2pdf]].
Ligne 139: Ligne 106:
 ==== OCRFeeder ==== ==== OCRFeeder ====
  
-Il est présent dans les dépôts (Ubuntu Precise 12.04 LTS et 14.04 LTS).+OCRFeeder ​est une interface graphique simple, permettant de choisir entre plusieurs moteurs : par défaut installe **tesseract**,​ fonctionne aussi avec **gocr**, **ocrad** ​et **cuneiform**.
  
-Interface graphique simplepermettant ​de choisir entre plusieurs moteurs ​par défaut installe **tesseract**, fonctionne aussi avec **gocr**, **ocrad** et **cuneiform***. (* détecté mais n'a pas fonctionné dans mon test sur texte.)+Attentionle paquet tesseract est installé pour la reconnaissance ​de l'​anglais uniquement. Voir les paquet langues supplémentaires sur [[:tesseract-ocr]].
  
-Attentionle paquet tesseract est installé pour la reconnaissance de l'​anglais uniquementVoir les paquet langues supplémentaires ici [[:​tesseract-ocr]].+<note important>​OCRFeederaprès installation,​ ne se lance pasPour résoudre ce problème, entrez la commande suivante dans un [[terminal]] : <code bash>​sudo sed -i '​s/​ocrfeeder -i %f/​ocrfeeder/'​ /​usr/​share/​applications/​ocrfeeder.desktop</​code></​note>​
  
 Traite les images, les fichiers PDF et les sorties de scanner. On peut ajouter le contenu d'un dossier (plusieurs fichiers à la fois). Traite les images, les fichiers PDF et les sorties de scanner. On peut ajouter le contenu d'un dossier (plusieurs fichiers à la fois).
  
-  * **les plus :** +[[:​tutoriel:​comment_installer_un_paquet|Installez le paquet]] ** [[apt>​ocrfeeder]]**.\\ 
-    - empaqueté pour Ubuntu ([[:​tutoriel:​comment_installer_un_paquet|installation]] de [[apt>ocrfeeder|ocrfeeder]]); +Ce qu'il sait faire : 
-    - permet de sélectionner ​les zones à traiter +  * Sélectionner ​les zones à traiter, 
-    - permet de voir côte à côte l'​image traitée et le résultat +  * Voir côte à côte l'​image traitée et le résultat, 
-    - détecte ​automatiquement les colonnes et les images +  * Détecte ​automatiquement les colonnes et les images, 
-    - dispose ​d'un filtre de bruit et de gris paramétrable (unpaper, non testé) +  * Dispose ​d'un filtre de bruit et de gris paramétrable (unpaper, non testé), 
-    - supprime ​les sauts de ligne (option) +  * Supprime ​les sauts de ligne (option), 
-    - export ​en différents formats, en essayant de conserver la mise en page : ODT, PDF, HTML et texte brut +  * Export ​en différents formats, en essayant de conserver la mise en page : ODT, PDF, HTML et texte brut.
-  * **les moins :** +
-    - ne permet pas la rotation de l'​image obtenue via le scanner (gênant quand on scanne un livre au format A5 où deux pages = A4 paysage => il faut faire deux scans au lieu d'​un) +
-<​del> ​   - l'​outil de redressement est inefficace (testé sur texte)</​del>​+
  
 +Ce qu'il ne sait pas faire :
 +   * La rotation de l'​image obtenue via le scanner (gênant quand on scanne un livre au format A5 où deux pages = A4 paysage => il faut faire deux scans au lieu d'un)
  
-==== ocrgui ==== 
  
-[[http://​ocrgui.sourceforge.net/​|ocrgui]] est une interface graphique pour, soit **tesseract**,​ soit **gocr**. 
  
-==== kooka ==== 
  
-Kooka n'est plus développé pour KDE 4, il est remplacé par **Skanlite** (présent dans les dépôts). +==== Skanlite ​====
- +
-Voir : http://​userbase.kde.org/​Kooka+
  
 +Voir la page dédiée :​ [[:​skanlite]].
 ==== xsane2tess ==== ==== xsane2tess ====
-Testé sous Precise 12.04. +[[xsane2tess]]:​ un adaptateur tesseract pour XSane.
- +
-  *[[xsane2tess]]:​ un adaptateur tesseract pour XSane.+
  
 ==== gImageReader ==== ==== gImageReader ====
- +[[gimagereader|gImageReader]] ​est une interface graphique très simple d'​emploi pour **[[:tesseract-ocr|tesseract-ocr]]**.\\
-Site du logiciel : [[https://​github.com/​manisandro/​gImageReader]] +
- +
-Facile et simple d'​emploi+
- +
-Une interface graphique ​pour **tesseract-ocr** sous gnome. +
- +
-http://​sourceforge.net/​projects/​gimagereader/​ +
- +
-Pour avoir la reconnaissance du français : installer ​**[[apt>tesseract-ocr-fra|tesseract-ocr-fra]]** +
- +
-Fonctionnalités (recopiées et traduites du site officiel - version 0.9 de mars 2011 - info au 19/​08/​2012) +
-    -Traite images et fichiers PDF +
-    -Acquisition depuis scanner +
-    -Sélection des parties de l'​image à traiter +
-    -Supporte différentes langues +
-    -Comparaison cote à cote de la source et du résultat +
-    -Supprime les saut de lignes dans le texte résultant +
-    -Supporte tesseract 3.0 +
- +
-A l'​utilisation:​ +
- +
-- prise en charge des dictionnaires myspell +
- +
-- lecture des lignes tordues. +
- +
-- interface graphique ergonomique +
- +
-- fonctionne sous Ubuntu 12.04 +
- +
- +
  
 ==== YAGF ==== ==== YAGF ====
-  * [[YAGF]] est une interface graphique pour [[#​cuneiform|cuneiform]] (donc une bonne capacité de reconnaissance comme indiqué plus haut) et [[#​tesseract|tesseract]] +[[YAGF]] est une interface graphique pour [[#​cuneiform|cuneiform]] (donc une bonne capacité de reconnaissance comme indiqué plus haut) et [[#​tesseract|tesseract]].
- +
-  * **(en)** [[http://​symmetrica.net/​cuneiform-linux/​yagf-en.html|Site officiel du logiciel]]+
  
 +**(en)** [[https://​sourceforge.net/​projects/​yagf-ocr/​|Site officiel du logiciel]]
  
  
 +==== LIOS ====
 +Lios est une interface graphique pour [[#​cuneiform]] et [[#​tesseract]]. Pour l'​utiliser [[:​tutoriel:​comment_installer_un_paquet|installez le paquet]] **[[apt>​lios]]**. Si vous souhaitez avoir la dernière version en français :​
 +  * [[:​PPA|Ajouter le PPA]] **ppa:​nalin-x-linux/​lios**((https://​launchpad.net/​~nalin-x-linux/​+archive/​ubuntu/​lios)) dans vos sources de logiciels; ​
 +  * puis [[:​tutoriel:​comment_modifier_sources_maj#​recharger_la_liste_des_paquets|rechargez la liste des paquets]],
 +  * puis installez le paquet **[[apt>​lios]]**.
 =====OCR en ligne===== =====OCR en ligne=====
  
-====Free OCR==== +Voir les solutions de [[:​ged|Gestion Électronique des Documents (GED)]] ​
-Le site [[http://​www.free-ocr.com/​|Free OCR]] permet de faire de la reconnaissance de caractères en ligne. Il est gratuit et utilise tesseract pour la reconnaissance.  +
- +
-Points forts : +
-  * gratuit +
-  * performant +
-  * gère plusieurs langues +
-  * reconnait les textes en colonne +
- +
-Points faibles : +
-  * nécessité d'​entrer un captcha à chaque texte soumis  +
-  * on ne peut faire reconnaître que dix pages ( 2 Mo maximum ). Au bout de dix, il faut attendre une heure avant de pouvoir recommencer +
- +
-Voir également : +
-   * Les solutions de [[:​ged|Gestion Électronique des Documents (GED)]] ​+
  
 ====WatchOCR - Server PDF et OCR du contenu==== ====WatchOCR - Server PDF et OCR du contenu====
  
-  * [[http://watchocr.com/​|WatchOCR]] : logiciel libre pour créer un serveur de PDF, capable de transcrire notamment les images en texte, ou les PDF d'​image scanné en texte : le tout indexé et prêt pour la recherche ( ala google ).+  * [[http://douglaswhitaker.com/​2013/​10/​working-with-pdf-files-efficiently-watchocr/​/​|WatchOCR]] : logiciel libre pour créer un serveur de PDF, capable de transcrire notamment les images en texte, ou les PDF d'​image scanné en texte : le tout indexé et prêt pour la recherche ( ala google ).
  
 ===== Programmes Windows utilisables sous GNU/Linux via Wine ===== ===== Programmes Windows utilisables sous GNU/Linux via Wine =====
-Simple OCR : image non PDF+
 ==== SimpleOCR ==== ==== SimpleOCR ====
  
-  * [[http://appdb.winehq.org/appview.php?​iAppId=1946|Fiche sur WineHQ.org]]+  * [[https://www.01net.com/telecharger/​windows/​Multimedia/​scanner_ocr/​fiches/​32246.html|Lien de téléchargement]]
 Non libre mais gratuit. Basé sur WOCAR Non libre mais gratuit. Basé sur WOCAR
 , image non PDF , image non PDF
Ligne 248: Ligne 167:
 ==== WebOCR ==== ==== WebOCR ====
  
-  * [[http://​appdb.winehq.org/​appview.php?​iAppId=829|Fiche sur Winehq.org]]+  * [[https://​appdb.winehq.org/​appview.php?​iAppId=829|Fiche sur Winehq.org]]
  
 ==== Recognita ==== ==== Recognita ====
Ligne 256: Ligne 175:
 ==== ReadIris ==== ==== ReadIris ====
  
-[[http://​appdb.winehq.org/​objectManager.php?​sClass=application&​iId=2543|Fiche sur WineHQ.org]]+[[https://​appdb.winehq.org/​objectManager.php?​sClass=application&​iId=2543|Fiche sur WineHQ.org]]
  
 ==== ABBY FineReader 8.0 OCR ==== ==== ABBY FineReader 8.0 OCR ====
Ligne 265: Ligne 184:
 ==== Cellwriter (GNU/Linux) ==== ==== Cellwriter (GNU/Linux) ====
  
-  * [[cellwriter|CellWriter:​ Reconnaissance de l'​écriture manuscrite]]+[[:cellwriter|CellWriter:​ Reconnaissance de l'​écriture manuscrite]]
  
-==== Xstroke (GNU/Linux) ==== 
-  * [[http://​www.usenix.org/​events/​usenix03/​tech/​freenix03/​full_papers/​worth/​worth_html/​xstroke.html|Xstroke : reconnaissance de l'​écriture manuscrite et des mouvements de pointeur]] 
  
 ==== Myscript (GNU/Linux et win) ==== ==== Myscript (GNU/Linux et win) ====
-  * [[http://​appdb.winehq.org/​objectManager.php?​sClass=application&​iId=7180|Fiche de Myscript Note (reconnaissance écriture) sur WineHQ.org]] +  * [[https://​appdb.winehq.org/​objectManager.php?​sClass=application&​iId=7180|Fiche de Myscript Note (reconnaissance écriture) sur WineHQ.org]] 
-  * [[http://​appdb.winehq.org/​objectManager.php?​sClass=application&​iId=8569|Fiche de Myscript Stylus (logiciel interactif) sur WineHQ.org]] ([[http://​www.visionobjects.com/​handwriting_recognition/​downloadstylus3.htm#​Linux|existe pour GNU/Linux]] ), reconnaît l'​écriture attachée +  * [[https://​appdb.winehq.org/​objectManager.php?​sClass=application&​iId=8569|Fiche de Myscript Stylus (logiciel interactif) sur WineHQ.org]] ([[http://​www.visionobjects.com/​handwriting_recognition/​downloadstylus3.htm#​Linux|existe pour GNU/Linux]] ), reconnaît l'​écriture attachée 
-Non libre, [[http://​www.visionobjects.com/​handwriting_recognition/​onlinestore.htm|versions d'​évaluation 30 jours]] des logiciels ​sur le site officiel.  +Non libre, [[http://​www.visionobjects.com/​handwriting_recognition/​onlinestore.htm|versions d'​évaluation 30 jours]] des logiciels sur le site officiel.
- +
-==== CalliGrapher (win) ==== +
- +
-  * [[http://​www.phatware.com/​index.php?​q=product/​details/​calligrapher|Aller sur la page de calligrapher]] +
- +
-Non libre, version d'​évaluation du logiciel ​sur le site officiel. ​+
  
 ===== Voir aussi ===== ===== Voir aussi =====
  
-  * [[http://​forum.ubuntu-fr.org/​viewtopic.php?​id=78804|le fil de discussion du forum à propos de l'​OCR]]+  * [[https://​forum.ubuntu-fr.org/​viewtopic.php?​id=78804|le fil de discussion du forum à propos de l'​OCR]]
    
 ---- ----
  
-//​Contributeurs : [[:​utilisateurs:​Teolemon|Pierre S.]] et [[:​utilisateurs:​Sorbus]].//​+//​Contributeurs : [[:​utilisateurs:​Teolemon|Pierre S.]] et [[:​utilisateurs:​Sorbus]] ​--- [[:​utilisateurs:​L'​Africain|L'​Africain]] Le 14/07/2017, 21:06.//
  • ocr.1482946302.txt.gz
  • Dernière modification: Le 28/12/2016, 18:31
  • par Toobuntu