Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente | |||
gscan2pdf [Le 19/09/2022, 20:59] f2ot [gscan2pdf] |
gscan2pdf [Le 19/09/2022, 21:01] (Version actuelle) f2ot [Pour la ROC avec tesseract] |
||
---|---|---|---|
Ligne 45: | Ligne 45: | ||
<note>Le choix de la langue est très important pour obtenir une ROC de meilleure qualité. Veillez à sélectionner la langue correspondant à votre texte. Les noms des langues sont explicites dans la liste déroulante, sauf une : si vous avez installé tesseract-ocr-deu-f (vieil allemand), il apparaît dans la liste seulement par la lettre "**f**"... à ne pas confondre avec "**français**", sinon vous aurez des surprises ;-)</note> | <note>Le choix de la langue est très important pour obtenir une ROC de meilleure qualité. Veillez à sélectionner la langue correspondant à votre texte. Les noms des langues sont explicites dans la liste déroulante, sauf une : si vous avez installé tesseract-ocr-deu-f (vieil allemand), il apparaît dans la liste seulement par la lettre "**f**"... à ne pas confondre avec "**français**", sinon vous aurez des surprises ;-)</note> | ||
- | **Le résultat de la ROC apparaît dans l'onglet 'Calque du texte' de la fenêtre gscan2pdf.** Pour sauvegarder le résultat, il faut enregistrer l'image sous un format qui contient les caractères (Texte, PDF...). Si rien n’apparaît dans cette zone, ou seulement quelques caractères sans rapport avec le texte à reconnaître, c'est que la ROC n'a pas fonctionné. Cela peut provenir d'une résolution trop faible du document d'origine ou d'une trop mauvaise qualité de ce document. Selon le mode d'installation de tesseract que vous avez utilisé, certains formats de fichier ne seront pas ou mal reconnus si vous n'utilisez pas au préalable la fonction "unpaper" (outil --> nettoyer (clean up)) de gscan2pdf. | + | **Le résultat de la ROC apparaît dans l'onglet 'Calque du texte' de la fenêtre gscan2pdf. Pour sauvegarder le résultat, il faut enregistrer l'image sous un format qui contient les caractères (Texte, PDF...). ** Si rien n’apparaît dans cette zone, ou seulement quelques caractères sans rapport avec le texte à reconnaître, c'est que la ROC n'a pas fonctionné. Cela peut provenir d'une résolution trop faible du document d'origine ou d'une trop mauvaise qualité de ce document. Selon le mode d'installation de tesseract que vous avez utilisé, certains formats de fichier ne seront pas ou mal reconnus si vous n'utilisez pas au préalable la fonction "unpaper" (outil --> nettoyer (clean up)) de gscan2pdf. |
<note tip>S**i la ROC est nulle ou de qualité médiocre même après traitement "unpaper"** (= nettoyer = clean up), on peut obtenir de bons résultats en modifiant au préalable avec Gimp le document à reconnaître. Exemple pour une image PDF : | <note tip>S**i la ROC est nulle ou de qualité médiocre même après traitement "unpaper"** (= nettoyer = clean up), on peut obtenir de bons résultats en modifiant au préalable avec Gimp le document à reconnaître. Exemple pour une image PDF : |