Reconnaissance de formes OCR

Présentation

FileDirector peut renseigner automatiquement les champs d’index avec des formes OCR en appliquant la reconnaissance de texte automatique, un code à barres ou des cases à cocher.

Des graphiques ou du texte peuvent être utilisés pour spécifier une forme. En utilisant différents identifiants sur différentes formes, FileDirector peut identifier la forme appropriée parmi la plage disponible pour la reconnaissance d’index automatique et la sélection du type de document.

Conditions

La reconnaissance de texte OCR dans FileDirector est exécutée par le Moteur OCR. Il doit être installé sur chaque ordinateur exécutant les fonctions OCR. Component Services doit également être installé.

Attention

FileDirector Component Service doit être installé en premier.

Le moteur OCR est une option sous licence et l’ordinateur utilisé pour configurer les formes OCR doit avoir accès à une licence OCR.

Deux différents types d’OCR sont utilisés :

Reconnaissance de forme manuelle

La reconnaissance de forme peut être lancée manuellement en cas de numérisation avec un profil de numérisation. Dans ce cas, le moteur OCR doit être installé sur le poste de travail utilisé pour la numérisation. Les documents sont numérisés dans la liste locale du poste de travail puis enregistrés après un contrôle d’index manuel.

Reconnaissance de formes automatique

Si un fichier est importé, la reconnaissance de forme peut être exécutée sur le serveur. Ce réglage doit être configuré dans le planning d’importation de fichier. Le moteur OCR doit être installé sur le serveur. Ce réglage est principalement utilisé en association avec le VNP employé pour archiver et indexer les données de sortie.

Fonctionnalité de la reconnaissance de formes OCR

Si la reconnaissance de forme est utilisée, les documents importés ou numérisés doivent avoir une structure unique. Les données d’index à reconnaître et à importer doivent toujours se trouver à la même place sur une page. Les zones de lecture de la reconnaissance OCR peuvent être spécifiées.

Différents documents sont identifiés par un graphique (par exemple logo) ou un texte unique ou une combinaison des deux. Ces identifiants doivent être identiques et présents sur chaque page à reconnaître et lire.

Si un document est identifié, les zones sont lues, l’index est créé et le document est stocké dans le type de document correspondant.

Si le document ne peut pas être reconnu, il est stocké dans un type de document prédéfini (retour). Les documents de ce type peuvent être indexés manuellement.

Propriétés OCR générales

Sélectionnez l’icône OCR puis choisissez l’action Réglages. Vous pouvez configurer les réglages OCR généraux qui doivent être définis avant les propriétés spécifiques d’une forme puissent être configurées.

Une forme OCR ne peut être créée que si un Type de documents de retour a été créé et assigné. Cette étape est exécutée lors de la création de la première forme OCR ou ultérieurement dans les propriétés du nœud OCR dans la section Paramètres OCR. Tous les documents non reconnus sont placés dans ce type de documents, sont indexés puis placés dans le type de documents approprié.

Attention

Si un utilisateur applique la reconnaissance de forme OCR, il doit disposer des autorisations nécessaires pour tous les types de document pouvant être reconnus. Lors de l’utilisation de la reconnaissance de forme, l’accès au type de document de retour pour les documents non reconnus doit être fourni.

Amélioration plein texte / AutoCapture

Les propriétés OCR définies ici, sont utilisées pour les formes OCR et la lecture plein texte.

La lecture plein texte est une part importante de l’option FileDirector AutoCapture. Ainsi, les propriétés OCR affectent la qualité des résultats de FileDirector AutoCapture.

Langues de reconnaissance (Moteur OCR occidental)

Différentes langues peuvent être définies pour la reconnaissance. Le moteur OCR occidental propose les langues suivantes :

AnglaisRussePolonais
AllemandNorvégienTchèque
FrançaisSuédoisHongrois
HollandaisFinnoisSlovène
EspagnolDanoisTurc
ItalienPortugaisPortugais-Brésilien
GrecCatalan 

Lorsque des langues sont sélectionnées, les caractères spéciaux spécifiques associés à cette langue peuvent aussi être reconnus.

Options de reconnaissance

La qualité et la précision de la reconnaissance OCR dépend fortement de la qualité et de la précision de l’image numérisée. Pour améliorer la reconnaissance, plusieurs options peuvent être définies :

Reconnaissance améliorée

Il s’agit d’un réglage général du moteur OCR. En cas de problème de qualité et de contraste, la reconnaissance peut être améliorée.

Correction de travers

Si une page est numérisée manuellement, elle peut ne pas être reconnue si elle a bougé pendant la numérisation. Cette option lance une correction de travers après la numérisation et peut améliorer le résultat.

Améliorer l’image

L’amélioration de l’image vous permet de filtrer l’image numérisée pour augmenter la qualité pour la reconnaissance de la fonction d’identification d’une forme. Ce réglage devient opérationnel si, pendant une reconnaissance de forme, la forme ne peut pas être clairement déterminée. Il est fortement recommandé de tester les filtres et leur ordre sur une forme pour voir le résultat des réglages.

Les filtres suivants sont disponibles :

Elimination des pointsCela permet de supprimer les pixels orphelins de l’image. Le niveau 1 supprime les points les plus petits, le niveau 2 les points légèrement plus grands et le niveau 3 ceux encore plus grands.
Elimination des lignes HorizontalesEnlève les lignes horizontales de l’image
Elimination des lignes VerticaleslEnlève les lignes verticales de l’image
EclaircirEclairci l’image – 2 niveaux disponibles
NoircirNoirci l’image – 2 niveaux disponibles
Suppression d’arrière-planSupprimera le texte ou images en arrière-plan
Améliorer le texteAméliore la qualité du texte
Réduction HorizontaleUtilisé pour améliore la qualité de lecture d’impression matricielle
Filtre de CouleurEnlève la couleur d’arrière-plan de l’image

Les filtres son exécutés successivement de sorte que l’ordre est important pour le résultat. Si vous noircissez la page en premier, les pixels orphelins seront élargis. Si vous éliminez les points en premier puis noircissez la page après, le texte restant sera accentué.

L’ordre des filtres peut être modifié en utilisant le glisser/déposer.

Information

Il n’y a aucune recommandation quant aux meilleurs réglages. Les réglages optimums doivent être testés pour chaque exemple. Ces réglages sont utiles lors de la numérisation d’extraits à peine lisibles, d’impressions matricielles ou de papier couleur. Noter qu’un réglage incorrect affecte le résultat.

Réglage pour la reconnaissance de forme

Le seuil d’identification et le type de documents cible pour les documents non-reconnus doivent être spécifiés.

Un ou plusieurs identifiants sont spécifiés dans un document. Si la similitude entre le document numérisé et la référence stockée dépasse 80 % (valeur par défaut), le document est traité selon la zone de reconnaissance spécifiée pour cette forme. Les zones sont lues, l’index est stocké et les documents sont stockés dans le type de document lié à cette forme. Si nécessaire, le seuil peut être ajusté pour améliorer ou garantir la reconnaissance.

Si des documents ne peuvent pas être assignés à une des formes stockées, ils sont automatiquement enregistrés dans le type de documents de retour (type pour les documents non reconnus). Si des documents apparaissent dans ce type de documents, ils doivent être indexés manuellement et stockés correctement.

Si la reconnaissance de forme est utilisée, un type de documents de retour doit obligatoirement être spécifié.

Lors de la création de la première forme, ce réglage apparaît automatiquement, car un type de documents de retour doit être spécifié.

Plein texte Asiatique

Réglages de langue Windows

Pour afficher les langues d’Extrême-Orient sur un système d’exploitation Windows occidental, l’option suivante doit être installée :

Panneau de configuration → Réglages de langue → Paramètres régionaux → Installer support de langue Extrême-Orient.

Niveaux des paramètres OCR

Les paramètres OCR sont valides pour :

  • Les réglages généraux pour le gestionnaire DTD et tous les types de documents, qui sont définis dans les propriétés OCR.
  • Au niveau de la forme, les réglages peuvent être configurés au sein des Profils de numérisation.

Réglages du moteur OCR

Le moteur OCR affiche les caractères qui ne sont pas reconnus comme suit ~ . Le seuil peut être configuré dans un fichier *.config. Ce fichier est stocké dans une installation standard sous :

C:Program filesSpielberg Solutions GmbHFileDirector Component ServiceOCR EngineFileDirector OCR Engine.exe.config.

La valeur par défaut est 75, la valeur maximale est 100. Plus la valeur est élevée, plus le moteur traite avec tolérance les caractères non sécurisés.

key="CertaintyThreshold" value="75"

Créer une forme OCR

Pour créer une nouvelle forme OCR, sélectionnez l’icône OCR puis choisissez Nouveau. La fenêtre de configuration OCR s’ouvrira alors.

Dans l’onglet OCR, un nom et une description sont saisis.

Lors de la création d’une forme OCR, une page d’exemple peut être utilisée pour configurer les propriétés.

Cette page peut être chargée depuis un fichier ou directement être numérisée. En cas de numérisation, l’utilisateur doit avoir accès à un profil de numérisation. Après la sélection du profil de numérisation, la page d’exemple peut être numérisée et apparaît dans la partie droite de la fenêtre de configuration.

Charger l’image à partir du fichier
Numériser
Arrêter la numérisation
Ajustement horizontal et vertical
Ajustement horizontal
Taille originale
Agrandissement de l’image
Réduction de l’image

Références pour les exemples

Il n’est pas obligatoire d’utiliser la même résolution pour l’exemple et les documents numérisés. C’est néanmoins recommandé car différents filtres, tels que Elimination des points ont différents effets sur les feuilles avec différentes résolutions de numérisation. Le résultat peut être que le résultat de la reconnaissance dans Enterprise Manager peut différer du résultat des numérisations effectuées dans le WinClient.

L’expérience a montré qu’une valeur optimale du fichier TIFF pour la reconnaissance OCR est de 300×300 dpi, mais les valeurs dépendent de la source. Une résolution plus basse peut empirer le résultat. Plus la résolution est basse, plus le fichier final du document numérisé est petit. Un fichier TIFF avec une résolution de 300×300 dpi aura une taille de 30-60 Ko. Essayez plusieurs réglages. Si la qualité est suffisante, utilisez également une résolution plus basse.

Modèles EDoc

Les fichiers électroniques tels que des documents Word et des tableaux Excel peuvent aussi être utilisés comme modèle.

Pour la reconnaissance, un fichier PNG 200dpi est créé en arrière-plan. Lors de l’utilisation des fichiers électroniques créés avec différentes versions du logiciel d’origine (par exemple différentes versions de WORD) l’affichage peut être différent.

Si des documents électroniques doivent être indexés avec la reconnaissance de forme, VNP est recommandé. Le fichier d’exemple doit être créé avec VNP et être utilisé pendant la configuration des formes.

Voir le chapitre VNP dans le Manuel d’Installation.

Réglages / Configuration des Formes

Double-cliquez sur une forme existante ouvrira la fenêtre de configuration des formes.

Dans Forme OCR, le nom et la description d’une forme est affichée. Ces entrées peuvent être modifiées à tout moment.

Changer l’image

Ce bouton permet de rappeler la fenêtre de création de forme. Une nouvelle page d’exemple peut être assignée.

Information de l’image

Ce réglage affiche les informations relatives à la forme et à l’image :

Nombre de zones

Nombre de champs assignés Format de fichier

Largeur (en pixels) Hauteur (en pixels) Résolution X (DPI) Résolution Y (DPI) Qualité Couleur (bits) Taille avant compression Taille compressée Taux de compression


Reconnaissance

Ce bouton permet de tester la reconnaissance et les réglages. Différentes pages peuvent être numérisées pour le test, si elles sont reconnues et que les champs sont lus.

Une description détaillée est disponible dans la section Test de reconnaissance.

Ajustement horizontal et vertical
Ajustement horizontal
Taille originale
Agrandissement de l’image
Réduction de l’image
Créer une zone
Zoom région

Si un cadre est glissé lorsque le bouton avec la loupe est affiché, l’affichage est agrandi. Ce bouton permet de basculer le système en mode zone. Lors du glissement, une nouvelle zone est créée.

Sélectionnez zone précédente / zone suivante
Ordre de tri ascendant / descendant des zones
Reconnaissance de zone

Le moteur OCR est lancé pour la zone actuelle. Alternativement, cette fonction peut être lancée en double-cliquant sur la zone.

Si des caractères ne sont pas reconnus correctement, un signe ~ apparaît.

Reconnaissance de toutes les zones

Cette option reconnaît toutes les zones simultanément et affiche le résultat dans la zone de résultat. Les zones sont toutes affichées individuellement puis sont numérotées même si plusieurs d’entre elles sont assignées au même champ d’index.

Reconnaissance plein texte

La reconnaissance plein texte dans cette zone a des fonctions de test. Les résultats de la reconnaissance plein texte peuvent être affichés pour contrôler la qualité. Les paramètres OCR et leur influence sur les résultats de la reconnaissance peuvent être facilement vérifiés.

Si la recherche plein texte doit être utilisée, elle doit être configurée sur le serveur.

Voir Configuration de la reconnaissance plein texte

Reconnaissance de zones et plein texte

Cette option combine la reconnaissance de toutes les zones et la reconnaissance plein texte. Le résultat s’affiche dans la partie inférieure de la fenêtre.

Obtenir tous les champs d’index

Dans la zone de résultat, le contenu de toutes les zones s’affiche avec les zones respectives. Si plusieurs zones sont assignées à un champ d’index, cette fonction teste l’apparence du contenu du champ. Si le contenu est trop long pour le champ spécifié, un avertissement s’affiche. Des séparateurs de champ peuvent être cochés (→ Préfixe/Suffixe).

Obtenir les résultats d’identification

Si un identifiant de document graphique est spécifié, la similitude d’une page numérisée peut être comparée au masque. Avec un identifiant de texte, seul un résultat de 100 % ou 0 % est possible.

Avec un identifiant graphique, une similitude entre 0 % et 100 % peut être le résultat, car la similitude est contrôlée.

Effacer

Permet d’effacer les zones.

Ajustement horizontal et vertical, ajustement horizontal, taille originale

Si la page d’exemple est zoomée, la partie affichée peut être déplacée en activant le bouton droit de la souris et en déplaçant la souris.

Sélection du type de documents

Sélectionner le type de documents dans lequel enregistrer les pages reconnues de cette forme. Si une page est numérisée et reconnue correctement, elle est stockée dans le type de documents spécifié dans le profil de numérisation.

Créer / sélectionner / changer une zone


Vérifiez que le mode zone est actif.

Glisser une zone de lecture sur la page affichée autour des informations à lire par l’OCR.

Le curseur de la souris devient une croix lorsqu’il passe sur la zone d’affichage. Une zone peut être modifiée à tout moment en faisant glisser ses limites avec le bouton gauche de la souris. Si le curseur de la souris se trouve sur une limite de la zone, il devient un symbole de redimensionnement et la limite peut être glissée en appuyant sur le bouton de la souris. Si le curseur est placé dans une zone, toute la zone peut être déplacée en appuyant sur le bouton gauche de la souris.

Si plusieurs zones sont créées, la zone active est entourée de rouge et les autres de bleu. Pour passer à une autre zone, cliquez une fois sur la zone ou utilisez les boutons zone suivante ou zone précédente.

Identification du document

Pour identifier et classer un document, il doit au moins contenir une zone pour identification unique, qui doit se trouver uniquement sur le document concerné et non sur un autre document. Il peut s’agir d’un élément graphique ou d’un identifiant de texte.

Élément graphique

Si un identifiant graphique est sélectionné, le taux de reconnaissance se trouve entre 0 % et 100 % correspondant à la similitude de cette zone avec l’exemple stocké. Des éléments graphiques identiques donneraient un résultat de 100 %.

Un élément graphique peut être par exemple un logo, qui doit être différent selon les documents à reconnaître. Si un identifiant se trouve sur plusieurs documents et qu’il ne peut pas être assigné de manière unique à une forme, il est stocké dans le type de document de retour.

Conseil

Lors de l’utilisation de plusieurs formes différentes, il est recommandé d’utiliser l’identification graphique, car elle plus rapide que l’identification de texte. Pour les identifiants de texte, le moteur de reconnaissance OCR doit être lancé à chaque fois. Vérifier que les identifiants graphiques sur les différentes formes ne sont pas similaires entre eux. Pour la reconnaissance, la similitude doit uniquement dépasser le seuil défini.

Élément texte

Un identifiant de texte peut être un texte unique identifiant le document, par exemple le mot FACTURE sur une facture. Si ce texte est reconnu à la position de zone définie, le document est reconnu et classé. Le texte de l’identifiant peut être entré automatiquement lors de la configuration de la forme en double-cliquant sur la zone. Le moteur OCR démarre et écrit le texte lu dans le champ de l’identifiant.

Si la reconnaissance est testée avec les résultats d’identification, le texte est soit reconnu complétement (100%) ou le résultat est 0% si un des caractères ne correspond pas au texte de l’identifiant.

Trouver le texte n’importe où dans la zone

Si cette option est cochée, le texte dans l’identification du document doit se trouver dans la zone d’identifiant configurée.

Si cette zone est ajoutée à un champ d’index, le texte complet sera utilisé comme le texte d’une zone normale et peut être configuré avec les options de configuration des champs d’index (justifier, remplacer, etc.).

Optimiser les résultats d’identification avec <RegEx>

Des expressions régulières peuvent être utilisées comme filtre pour l’identifiant de l’OCR. Une reconnaissance imprécise (par ex. sorties d’imprimante matricielle) peut ainsi être optimisée. Faite précéder <RegEx> dans la zone pour optimiser l’identification.

Exemple :

Page : 1 De :2 est parfois reconnu comme Pa3e: 1 DE: 2.

Le g n’a pas été reconnu par l’OCR. Pour rendre l’identifiant reconnaissable malgré cela, une expression régulière peut être configurée pour ignorer le g.

Cela pourrait ressembler à l’expression suivante :

Elément Texte : <RegEx>Pa.e:[ ]*[1I].?[t]*De:

Conseil

Cochez l’option Trouver le texte n’importe où dans la zone pour éviter d’écraser l’expression lors de la lecture de la zone.

<RegEx> doit être placé au début de la définition de l’élément texte pour indiquer l’utilisation d’une expression régulière. Trouver le texte n’importe où dans la zone est ignoré lors de l’utilisation de <RegEx>

Pa e: La combination de caractères “Pa” est attendue, suivie par un caractère et de deux points.

(Alternativement : [g39] autorise les caractères “g”, “3” and “9”)

[ ] Autorise “0” ou des espaces

[1|]* Autorise “1” ou un “|”, mais un des caractères doit être présent

.? Autorise un point, mais il peut également être absent (parfois un “|” a été lu)

[ t]* Autorise un “0” ou des espaces ou tabulations

De: La combination de caractères “De:” est attendue

Plusieurs expressions peuvent être combinées lorsqu’elles sont séparées par un trait vertical.

Exemple

<RegEx>Expression1|Expression2

Information

Une sélection d’expressions régulières est disponible dans la configuration des champs de masque réguliers (voir Caractères pour les expressions de masque valides).
Une description des expressions régulières est disponible sur le site de Microsoft :
http://msdn2.microsoft.com/en-us/library/az24scfc(vs.71).aspx

Seuil

Le seuil spécifie la similitude minimale qui doit être dépassée pour qu’un document soit reconnu. Cette valeur se trouve dans les paramètres OCR d’un gestionnaire DTD et est valide pour toutes les formes OCR de ce gestionnaire.

Amélioration de l’image (Zones)

L’amélioration de l’image permet de filtrer les résultats de numérisation pour améliorer l’image pour le traitement OCR.

Les filtres suivants sont disponibles :

Elimination des pointsCela permet de supprimer les pixels orphelins de l’image. Le niveau 1 supprime les points les plus petits, le niveau 2 les points légèrement plus grands et le niveau 3 ceux encore plus grands.
Elimination des lignes HorizontalesEnlève les lignes horizontales de l’image
Elimination des lignes VerticalesEnlève les lignes verticales de l’image
EclaircirEclairci l’image – 2 niveaux disponibles
NoircirNoirci l’image – 2 niveaux disponibles
Suppression d’arrière-planSupprimera le texte ou images en arrière-plan
Améliorer le texteAméliore la qualité du texte
Réduction HorizontaleUtilisé pour améliore la qualité de lecture d’impression matricielle
Filtre de CouleurEnlève la couleur d’arrière-plan de l’image

L’amélioration de l’image pour les zones est effectuée après le réglage de filtre de l’option OCR pour l’ensemble de la forme. L’onglet Paramètres OCR permet de régler l’ensemble de la forme Paramètre OCR (propriétés). Lorsqu’un filtre est utilisé pour la forme entière et une zone, l’effet sera doublé.

Les filtres sont exécutés successivement, l’ordre est donc important pour le résultat. Si une page est d’abord noircie, le pixel de point sera agrandi. Si le point est éliminé en premier et que la page est ensuite noircie, le texte restant est accentué.

Le résultat des réglages de filtre peut être immédiatement visualisé et vérifié. Les réglages de filtres tels que Noircir peuvent être utilisés plusieurs fois. L’ordre des filtres peut être modifié via glisser & déposer, cela signifie que vous pouvez, par exemple, déplacer la 5ème entrée en 2de position et voir immédiatement les modifications. Si la zone est déplacée, la modification pour la section relative à la zone est immédiatement visible.

Ces améliorations seront exécutées avant tous les autres ajustements de caractères dans une zone. Après ces changements, une numérisation OCR peut être lancée.

Information

Il n’y a aucune recommandation quant aux meilleurs réglages. Les réglages optimums doivent être testés pour chaque exemple. Ces réglages sont utiles lors de la numérisation d’extraits à peine lisibles, d’impressions matricielles ou de papier couleur. Noter qu’un réglage incorrect affecte le résultat.

Contenu de la zone

Le contenu d’une zone pour la reconnaissance d’index doit être spécifié. Une zone ne peut avoir qu’un seul type de contenu, mais le contenu peut être assigné à plusieurs champs d’index.

Type de contenu

Le type de données présent dans une zone doit être spécifié. Les options suivantes sont disponibles :

AutomatiqueCe réglage tente de reconnaître le type de contenu automatiquement (à l’exception du code à barres et de l’OMR). Si les caractères ne sont pas reconnus, un des réglages spéciaux peut être tenté.
OmnifontCe réglage est adapté au texte imprimé par des imprimantes lasers ou à jet d’encre. Les pages créées sur des machines à écrire sont également reconnues si la qualité est bonne.
dot-matrix 9 aiguillesUtiliser ce réglage si les documents numérisés ont été imprimés à l’origine sur des imprimantes matricielles. Noter que les imprimantes matricielles utilisent des rubans d’encre qui se détériorent dans le temps et affectent la qualité ainsi que la reconnaissance OCR.
dot-matrix 24 aiguilles
Dot digitsLes caractères se composent de simples points.
Dash digitsLes caractères se composent de simples barres.
OCR-APolice spéciale conçue pour la reconnaissance OCR. Les caractères de cette police sont conçus pour se différencier au maximum les uns des autres en termes de forme et de contraste afin de simplifier la reconnaissance OCR. Cette police est utilisée sur les chèques.
OCR-BAutre police spéciale utilisée pour la reconnaissance OCR. Cette police est similaire aux polices d’impression normales et peut être facilement lue.
Encre magnétique MICR (E-13B)E-13B est utilisé par exemple aux Etats-Unis, au Canada, en Australie et en Angleterre (numérique avec 4 caractères de contrôle)
Encre magnétique MICR (CMC-7)CMC-7 est utilisé par exemple en France, en Espagne et en Afrique du Sud (numérique avec 5 caractères de contrôle)
AsianCe réglage n’apparaît que si l’OCR asiatique est sous licence. Il spécifie l’orientation à utiliser pour le texte asiatique à reconnaître.
Asian vertical
Marque Optique(OMR)Cette option est utilisée pour décider si une case à cocher a été cochée ou non.
Code à barresLes codes à barres suivants sont gérés par FileDirector : 2 de 5 entrelacé, Alpha 39, Codabar, Code 128 et PDF 417
Code à barres flottantSi un code à barre flottant est assigné à une zone, le type de code à barre doit être spécifié. Un code à barre flottant recherche des codes à barre sur une page entière et lit le premier code trouvé. Note : Le type de code à barre de 2 de 5 entrelacé est très simple. Le module de code à barre peut être confondu avec des graphiques sur la page. Un code à barre qui ne se trouve que sur la première page d’un document peut être utilisé comme séparateur de document automatique en mode de numérisation par lot
AncreSi une ancre est assignée à une zone, les positions des autres zones spécifiées sur cette page sont calculées par rapport à cette zone. Cela signifie que si un décalage de l’ancre est reconnu – comme cela peut se produire lors de la numérisation ou de l’impression – les positions des autres zones définies sont adaptées à la nouvelle position de l’ancre.
Note : Il est recommandé de définir un texte d’ancre pour une zone avec ancre. Ce texte doit être unique, sinon la première correspondance est considérée comme l’ancre. Cette option ne contient pas de correction de travers automatique.

Caractères autorisés

Pour tester la reconnaissance dans une zone, lancer simplement le moteur OCR sur cette zone par double clic. Si seuls les caractères spéciaux doivent être lus dans cette zone, les caractères autorisés peuvent être limités par exemple comme suit : Majuscule, Minuscule, Chiffre, Ponctuation et Divers. Si un champ d’index est déjà limité par exemple sur un chiffre, la limite doit également être utilisée dans la forme OCR. Si, par exemple 0 (zéro) a été reconnu par erreur comme la lettre O, ce document ne peut être enregistré, car le champ d’index n’autorise pas les lettres.

Le réglage Défini par l’utilisateur utilise la sélection de caractères entrée dans le masque principal des réglages de la forme.

Les réglages du contenu spécifient ce qui peut être reconnu par le moteur OCR. Les caractères lus peuvent être post-édités après la reconnaissance par les réglages de champ.

Marque Optique (OMR)

Le type de contenu marque optique (OMR) permet d’analyser automatiquement les cases à cocher. Si ce type de contenu est actif, Les entrées cochées ou non cochées deviennent actives.

Une zone est placée autour d’une case à cocher

et le système reconnaît si la case est cochée ou non. Le type de coche n’est pas important ( ou ) car le système recherche des lignes diagonales. Les champs sont facilement reconnus même s’ils ont été cochés manuellement.

Information

Cette option peut également être utilisée si un champ d’index doit être défini sur une valeur spéciale si du texte a été écrit à un certain endroit sur une page ou si elle est vide. Si le champ a été conçu comme un champ OMR, le texte deviendrait une case cochée et un champ vide deviendrait une case non cochée. Pour chacun de ces événements, une valeur définie peut être écrite dans ce champ.

Code à barres

Si code à barres est spécifié pour le type de contenu, les champs Type de code à barres et Réglages code à barres deviennent actifs. Un type de code à barres peut être spécifié pour chaque zone.

Les types de codes à barres suivants sont gérés :

2 de 5 entrelacéNe peut contenir que des chiffres.
Alpha 39Peut contenir des lettres et des chiffres, y compris – . + % $ /
CodabarPeut contenir ABCDENT et les caractères spéciaux – / $ : * .
Code 93Peut contenir des lettres et des chiffres, y compris -, ., $, /, +, %, SPACE
Code 128Contient un jeu de caractères complet, comprenant des chiffres et des lettres en majuscule et minuscule. Avec des valeurs numériques, la densité des informations est très élevée. Un chiffre de contrôle est toujours utilisé mais il ne fait pas partie des informations.
PDF 417Le code à barres PDF 417 a deux dimensions, il peut contenir jusqu’à 3000 caractères. Ce code à barres peut contenir le jeu de caractères ANSI complet. Un contrôle interne est toujours implémenté, il permet de corriger les erreurs lors de la lecture. Ce contrôle est automatiquement effectué sur chaque code à barres lu.
DataMatrixDataMatrix est un code à barres matriciel à deux dimensions constitué de « cellules » en noir et blanc ou de modules disposés dans un carré ou dans un rectangle.
QR CodeLe code à barres bidimensionnel matriciel code QR est devenu courant du fait de sa lisibilité rapide et de sa capacité de stockage augmentée par rapport aux codes à barres UPC standard.
Les applications proposent le suivi du produit, l’identification d’article, le suivi du temps, la gestion des documents, le marketing général, et encore plus de codes à barres.
Réglages code à barres

Des réglages supplémentaires peuvent être spécifiés pour les codes à barres. Un code à barres peut contenir un chiffre de contrôle. La reconnaissance et le contrôle avec ce chiffre peuvent être activés ou désactivés pour certains codes à barres.

Si un code à barres est tourné de 90 degrés sur la page, ce réglage peut être défini pour la lecture. Pour les autres types de zones de reconnaissance, cette rotation est impossible.

Recherche étendue (Pas sur les codes à barres flottants)

La recherche étendue est une fonction à utiliser dans des cas exceptionnels pour les codes à barres à peine lisibles. Cette option ne peut pas être utilisée pour les codes à barres flottants.

La reconnaissance utilisant la recherche étendue est lente par rapport à la recherche régulière. Par conséquent, penser à remplacer les codes à barres utilisés par des types plus lisibles.

Seuil code à barres

Avec ce seuil, la valeur de retour peut être affectée, mais pas la qualité des valeurs reconnues. Le seuil filtre le résultat de la reconnaissance et n’est utilisé que dans des cas exceptionnels. Si le réglage par défaut « 0 » est utilisé, toutes les valeurs reconnues sont retournées et aucun filtre n’est défini. S’il est configuré sur « 99 », toutes les valeurs positives sont retournées. Avec le réglage «100», aucune valeur n’est retournée.

Une vérification de reconnaissance hasardeuse est effectuée dans les situations suivantes :

  • Si le chiffre de contrôle est utilisé dans les réglages du code à barres.
  • Dans le code à barres de type 2 de 5 entrelacé. Dans ce cas, la taille de la ligne est contrôlée et il est parfois possible qu’une valeur reconnue non sûre renvoie 50. Dans ce cas, le seuil 51 est configuré, les codes à barres reconnus comme non-sûrs sont filtrés.

Code à barres flottant

La zone pour un code à barres indépendant de la position peut être placée n’importe où sur la page.

Les règles suivantes s’appliquent généralement :

L’index 1 (zone 1) contient le premier code à barres à trouver, l’index 2 (zone 2) contient le second code à barres … si des champs d’index doivent être assignés. Si le second code à barres doit être placé dans le premier champ d’index, un factice doit être créé pour le premier code à barres.

Code à barres flottant comme identifiant

Un code à barre flottant peut uniquement reconnaître le premier code à barre comme identifiant. Le second code à barres ne peut pas être un identifiant. Par conséquent, la série de codes à barres sur une page doit être prise en compte lors de l’utilisation des identifiants. Un code à barres est toujours reconnu du coin supérieur gauche jusqu’au coin inférieur droit. Un code à barres ne doit pas être placé trop de travers sur la page (lors de l’utilisation d’étiquettes). La taille et la qualité des codes à barres doivent être suffisantes.

Assigner les champs d’index

Lors de l’assignation de zones à un champ d’index, vérifier que la longueur du champ d’index spécifiée est suffisamment longue pour accepter les caractères lus. Les préfixes et suffixes ajoutés au nombre maximum de caractères possibles pendant la reconnaissance doivent être pris en compte. Noter qu’un document numérisé peut également être différent de l’extrait stocké et peut fournir plus de caractères par zone après l’OCR.

Assigner le contenu d’une zone à un champ d’index

Créer une zone en faisant glisser le curseur de la souris et en ouvrant le menu déroulant du champ d’index. Les zones du type de document cible peuvent être sélectionnées. Double-cliquer sur cette zone pour afficher le résultat de la lecture de la zone et le résultat du champ d’index.

Les résultats sont différents, si des modifications sont apportées par la suite en spécifiant les réglages Supprimer, Coupe gauche / droite, Depuis gauche / droite ou Préfixe / Suffixe. Cette fonctionnalité permet de vérifier le résultat du contenu du champ d’index.

Assigner plusieurs zones à un champ d’index

Chaque zone peut être assignée à un champ d’index. Si plusieurs zones doivent être écrites dans un champ d’index, connecter simplement la zone au même champ d’index. Le contenu des zones peut être séparé avec les préfixes et suffixes.

Changer l’ordre des zones


Les zones sont écrites dans un champ d’index selon l’ordre créé automatiquement lors de la configuration des zones. Cet ordre peut être modifié avec les boutons de la barre d’outils.

Assigner une zone à plusieurs champs d’index

Il est possible de répartir des segments du contenu de la zone dans différents champs d’index. C’est particulièrement utile lorsqu’un code à barres PDF 417 est utilisé. Ce code à barres peut contenir une adresse complète.

Cette adresse complète est lue dans une zone, mais différents champs d’index sont remplis avec l’information reconnue.

Séparateur de champ

Différents caractères peuvent être utilisés comme séparateur de champ. Ces caractères peuvent être visibles (par ex. virgule, point, trait vertical, etc.), ou invisibles :

{Space}(vide)
{CR}(retour à la ligne)
{LF}(saut de ligne)
{CLRF}(retour en début de ligne suivante)
{TAB}(tabulation)

Ces caractères peuvent être choisis dans une liste de séparateurs de champ. Plusieurs séparateurs de champs peuvent être utilisés ; une entrée définie par l’utilisateur est également possible.

Assigner par numéro d’index

Les segments créés par le séparateur sont numérotés en interne et peuvent être connectés aux champs d’index. Après la connexion aux champs, les options Supprimer, Coupe gauche /droite, Depuis gauche / droite ou Préfixe / Suffixe peuvent être spécifiées individuellement.

Exemple

Segment (Index) 1 = Firma Sand (CRLF)

Segment (Index) 2 = Sandmüllersweg 10 (CRLF)

Segment (Index) 3 = 33333 Sandhausen (CRLF)

Index 1=Name

Le premier segment est écrit dans le champ d’index “Name“ : “Firma Sand“

Index 2=Street

Le second segment est écrit dans le champ d’index “Street“ : “Sandmüllersweg 10“.

Index 3=City

Le troisième segment est écrit dans le champ d’index “City“ : “33333 Sandhausen“ et le contenu est coupé à gauche de 5 caractères.

Index 3=Post code

Le troisième segment est aussi écrit dans le champ d’index “Post code“ : “33333 Sandhausen“ et seul les cinq premiers caractères (les plus à gauche left) sont utilisés.

Assigner par identifiant

Si l’assignation est effectuée par identifiant, un texte peut être spécifié pour l’identification.

Par exemple, le texte Facture #: est reconnu et le numéro suivant ce texte est écrit dans le champ d’index. L’identifiant est ignoré et n’est pas écrit dans le champ d’index. Les éventuels vides entre l’identifiant et l’index sont automatiquement ignorés.

Information

L’option Trouver n’importe où n’est visible que si l’assignation par ID de texte est sélectionnée. Cette option permet de définir l’ID de texte plus facilement.
Si le mot avant l’ID change, la valeur après l’ID est remplie dans le champ d’index sélectionné.

Ajustement des caractères

Ordre de l’ajustement de caractères

Les modifications après la numérisation de la zone seront effectuées dans l’ordre indiqué ci-dessous :

Coupe gauche / droite

Depuis gauche / droite

Préfixe / Suffixe

Supprimer / Remplacer par

Coupe gauche / droite

Avec cette option, des caractères peuvent être supprimés du texte reconnu par l’OCR. Une zone peut lire un texte plus grand, en coupant la partie nécessaire du texte reconnu, elle peut être supprimée.

Depuis gauche /droite

Si un nombre défini de caractères doit être inscrit dans un champ d’index, cette option peut être utilisée. Si, par exemple, les 5 caractères les plus à gauche doivent être utilisés, spécifiez 5 dans Depuis gauche. De la même manière, un nombre défini de caractères depuis la droite peut être spécifié dans Depuis droite.

Conseil

Vous pouvez définir des paramètres supplémentaires pour les espaces ou les tabulations dans les champs coupe gauche/droite ou Depuis gauche/droite. Vous devez saisir -1 pour les espaces et -2 pour les tabulations. Cela peut être utile lorsque, par exemple, vous utilisez l’option Assigner par ID texte, et que plusieurs valeurs sont séparées par des tabulations ou des espaces.

Préfixe / Suffixe

Si plusieurs zones sont reliées à un champ d’index, elles peuvent être séparées par un caractère, qui est défini comme Préfixe ou suffixe. Un préfixe est écrit devant l’index à écrire, un suffixe suit l’index à écrire.

Attention

Assurez-vous que la longueur du champ est assez grande pour stocker le nombre maximum de caractères de toutes les zones concernées y compris le Préfixe et le Suffixe.

Caractère de réglage

Avec cette fonction, vous pouvez supprimer ou remplacer des caractères d’une zone après reconnaissance. Il y a les mêmes choix de caractères (visible et invisible) que pour l’option séparateur de champs.

Supprimer si pas

Avec cette fonction, vous pouvez vider le contenu du champ lu par l’OCR, si le contenu n’est pas conforme à la définition établie dans ce domaine, qui peut être une expression régulière.

Exemple :

Le champ doit être rempli avec un numéro de facture avec le format suivant xx-xxxxx. La définition de l’expression serait :

Élément texte : <RegExClear!>[0-9]{2}-[0-9]{5}

<RegExClear!> doit être placé au début.

[0-9] Seuls les chiffres sont autorisés.

{2} Un total de deux caractères définis dans “[…]” sont attendus.

un “-“ est attendu.

[0-9] là encore, seuls les chiffres sont autorisés.

{5} Un total de cinq caractères définis dans “[…]” sont attendus.


Plusieurs expressions peuvent être combinées « ou » lorsqu’elles sont reliées avec un séparateur trait vertical (pipe).

Exemple

<RegExClear!>Expression1|Expression2

Information

Une sélection d’expressions régulières peut être trouvée dans la configuration des champs de masque réguliers (voir Caractères d’expression de masque valides)

Une description commune des expressions régulières peut être trouvée chez Microsoft :

http://msdn2.microsoft.com/en-us/library/az24scfc(vs.71).aspx

Pages suivantes et page de fin

Cette option permet de définir les pages suivantes et de fin qui diffèrent de la première page. Elle permet également de remplir les champs d’index avec le contenu des pages suivantes et de fin.

Cliquer sur l’onglet Pages suivantes. Un lien s’affiche pour charger la page suivante en tant que modèle pour la configuration. La page de fin est définie de la même manière dans l’onglet Dernière page. Si le modèle est chargé, les identifiants et champs d’index peuvent être définis.

Si les mêmes champs d’index sont mappés sur différentes pages, les valeurs sont comparées. La valeur doit être unique pour remplir les champs d’index avec le contenu approprié.

Paramètres étendus

Des paramètres supplémentaires peuvent être appliqués dans l’onglet Paramètres étendus.

Utiliser code à barre comme… Début de lot/ Fin de lot

Uniquement valide pour une forme statique sans identification de document. En général, ce paramètre est défini pour un début de lot, de sorte qu’un code à barres sur la première page d’un document agisse comme un séparateur de document. Dans de rares cas, le code à barres est placé sur la dernière page et sert comment indicateur de fin de document. Dans ce cas, le réglage doit être défini sur Fin de lot.

Page détruite

Dans certains cas de numérisation de lot, une feuille de séparation est utilisée pour différencier plusieurs lots et débuter un nouveau document.

Pour supprimer cette page de l’archive, configurer la reconnaissance pour cette page puis l’élimination après la reconnaissance. Cette option peut uniquement être définie pour la première page.

La page doit exister

Cette option peut être définie pour les pages suivantes. La première page doit toujours exister pour l’identification. Si une page de fin est définie, elle doit également toujours exister pour reconnaitre la fin d’un document.

Attention

Si cette option est activée et que la page N’existe PAS, des messages d’erreur peuvent apparaître ou un import de fichier peut échouer.

Traiter les zones vides comme vierges

Si l’action automatique d’un champ est définie sur Préserver, le champ est renseigné avec le contenu du jeu de données précédent. Lors de la reconnaissance des zones OCR, un réglage optionnel peut être effectué pour spécifier si une zone doit lire un contenu vide ou préserver la dernière entrée. Ce réglage peut être défini séparément pour des zones OCR normales et pour des zones de code à barres.

Caractères définis par l’utilisateur

Pour le contenu de zone, les caractères autorisés définis par l’utilisateur d’une forme sont définis ici. Lors de l’ouverture de la zone contenu de la zone, sélectionnez sous l’option caractères autorisés, l’option Défini par l’utilisateur. Seuls les caractères définis ici seront reconnus. Les caractères spécifiés doivent être écrits sur une ligne.

Information

La liste ne peut pas être définie pour chaque zone mais est utilisée pour chaque zone dans laquelle défini par l’utilisateur est choisi.

Mettre le champ…à la valeur

Cette option n’est pas importante pour la reconnaissance OCR actuelle, mais, pour l’importation d’un fichier, les champs peuvent être renseignés automatiquement avec des valeurs constantes. Cette option doit être configurée de la même manière que dans le profil de numérisation, mais cette valeur remplace un réglage pour le même champ dans le profil de numérisation.

Paramètres de vérification

Dans cette section, des réglages peuvent être effectués pour l’option Réglages de la forme →Champ d’index → Tracé du champ d’index Vérifier.

La première option correspond à l’effacement des valeurs de champ.

La seconde option permet à l’administrateur de choisir une valeur prédéfinie ou d’entrer une valeur individuelle à renseigner dans un champ de ce type de Documents en cas de vérification valide ou invalide.

Ces réglages permettent de récupérer et de vérifier des documents plus facilement.

Information

La case vérifier doit être sélectionnée pour les champs à contrôler.

Au moins deux zones avec le même contenu pour un champ doivent être sélectionnée pour vérifier le contenu.

Plug-in

Des plug-ins permettent de traiter des fonctions supplémentaires à part de la lecture OCR. Il peut s’agir, par exemple, de transférer des données vers une source externe telle qu’une autre base de données. Les plug-ins sont généralement produits pour des applications spécifiques. Si un Plug-in a été produit, il peut être associé au formulaire OCR en le sélectionnant ici.

Seuil

Le réglage du seuil affecte la luminosité de l’image pour la lecture OCR. La plage de réglage valable est de 1 à 256, la valeur par défaut étant de 128.

Test de reconnaissance / Contrôle des assignations

Reconnaissance

Le paramètre Reconnaissance vérifie si la forme est identifiée et assignée au type de documents approprié et que la reconnaissance d’index et les réglages sont correctement configurés.

Test Configuration

Test de la reconnaissance OCR des documents

Si un document n’est pas reconnu correctement, le fonctionnement de l’OCR peut être testé pour cette option. Utilisez cette fonction lors de la configuration des formes pour vérifier si le modèle est correctement reconnu. Les pages, qui sont numérisées ultérieurement et non reconnues, peuvent également être chargées et testées si les zones sont bien configurées. C’est un parfait outil pour contrôler les erreurs dans la configuration OCR et simplifier la résolution des problèmes.

Les éléments suivants peuvent expliquer une reconnaissance incorrecte des documents :

  • Le document est numérisé avec une résolution différente de celle de l’exemple stocké
  • Aucun identifiant n’est spécifié sur l’exemple
  • Plusieurs formes ont des identifiants similaires, aucune identification unique n’est possible
  • Aucun type de Documents ou un type de documents incorrect spécifié pour Retour
  • La résolution est trop élevée
  • La résolution est trop basse
  • Le seuil est défini trop bas / haut
  • Le moteur OCR n’est pas installé
  • L’image est plus grande que 8400 x 8400 pixels
Type de Documents sélectionné

Sous Reconnaissance de forme, la forme à reconnaitre peut être sélectionnée parmi les formes disponibles. La page affichée dans la fenêtre de prévisualisation est contrôlée. Si Tout est spécifié, toutes les formes disponibles sont contrôlées par rapport au document affiché.

Pour exécuter un nouveau test de reconnaissance, cliquez sur Réinitialiser le lot.

Résultat de la reconnaissance

Si toutes les formes de tous les types de Documents ont été contrôlées, la forme reconnue est affichée dans Sélectionner la forme. Les réglages de cette forme sont utilisés pour l’indexation. Dans Type de Document Cible, le Type de Documents dans lequel le document affiché doit être stocké apparaît.

La liste affiche toutes les formes et leur taux de reconnaissance respectif vérifiés par rapport au document. Si un document ne doit pas être classé de manière unique, il est assigné au type de document de Retour.

La partie inférieure gauche de la fenêtre affiche les résultats de la reconnaissance, si le document peut être classé.

Indépendamment des définitions de page, un page de début doit être reconnue en premier. La page reconnue est affichée dans le champ Statut. Testez la Configuration avec les pages suivantes.

Si une configuration doit être testée avec les pages suivantes et la page de fin, l’ordre doit être rigoureusement conservé pour reconnaître la bonne page.

Numérisez ou chargez la première page et procédez comme suit : Réinitialisez le lot

Choisissez le Type de document Tout ou le type de Document cible

Reconnaissance… Page de démarrage reconnue doit s’afficher

Numérisez ou chargez une page suivante

Reconnaissance… Page suivante reconnue doit s’afficher

Numérisez ou chargez une page de fin (si configurée)

Reconnaissance… Page de fin reconnue doit s’afficher

Si la page correcte ne s’affiche pas, vérifier que la configuration ne présente pas de réglages erronés, par ex. pas de zones à identifiant unique ou de champs d’index doublement mappés avec d’autres contenus sur différentes pages.

Plein texte

Le lancement de la reconnaissance exécute également une lecture plein texte de la page. Il s’agit d’une lecture test pour le contrôle de qualité, le résultat n’est pas conservé. Ce réglage permet de vérifier les mots reconnus et disponibles dans une lecture plein texte.

Paramètre OCR d’une forme

La configuration des formes OCR contient un onglet Paramètres OCR relatif à l’ensemble de la forme et pas seulement aux zones individuelles.

Sélectionnez la langue appropriée pour fournir à la reconnaissance les caractères spécifiques de chaque pays.

En premier lieu, les propriétés de l’ensemble de la forme sont utilisées pour l’amélioration de l’image puis les propriétés de la zone. Se reporter à la section amélioration de l’image (zones) pour savoir comment configurer le filtre pour l’amélioration de l’image.

Toutes les propriétés relatives à une forme sont utilisées dans une reconnaissance test lors de la configuration de la forme et de la reconnaissance des zones. Les différentes propriétés pour la reconnaissance OCR manuelle sont configurées dans le profil de numérisation.

Voir Utilisation de l’OCR et de la reconnaissance de forme

Lors de l’utilisation de la reconnaissance OCR dans un planning d’importation, les réglages de langue des paramètres OCR de la forme concernée sont utilisés.

voir Planning d’importation de fichier

Désactiver une forme OCR

Dans la reconnaissance de forme, toutes les formes configurées sont utilisées.

Pour procéder aux ajustements ou préparer des formes OCR, vous pouvez désactiver les formes afin de les exclure de la reconnaissance.

Pour désactiver une forme OCR, vous devez la sélectionner et choisir Exclu de la reconnaissance de forme. La forme peut être réactivée en choisissant Inclus dans la reconnaissance de forme.

Si une forme dans un profil de numérisation ou dans un planning est directement mappée avec l’option toujours utiliser cette forme, la désactivation est ignorée. Il est possible de mapper les formes directement et de les exclure de la reconnaissance totale de forme. Ces formes sont ignorées pour l’option Reconnaissance totale de forme ou Reconnaissance de forme limitée au type de document.

La reconnaissance de forme peut être mieux contrôlée pour de meilleures performances.

Résumé de la reconnaissance de forme

  • Vérifiez que la licence autorise la création de formes OCR.
  • Créez des types de documents cibles afin de garantir que la reconnaissance OCR puisse attribuer les documents correspondants.
  • Créez un type de documents Retour pour les documents qui ne sont pas reconnus
  • Créez une forme dans Enterprise Manager – assignez le type de documents retour.
  • Sélectionnez le type de documents cible pour lequel la forme a été créée.
  • Si plusieurs formes doivent être automatiquement reconnus, créez un identifiant unique pour ce document.
  • Assignez les champs d’index pour les zones de lecture spécifiées.
  • Testez la reconnaissance, vérifiez le taux de reconnaissance et la classification des documents. Après ceci, la configuration de la forme est terminée.

Numérisation manuelle dans le WinClient :

La reconnaissance pour la numérisation manuelle doit être activée dans le profil de numérisation correspondant, car elle est exécutée à cet endroit.

Voir Utilisation de l’OCR et de la reconnaissance de forme

Reconnaissance de forme automatique :

Si la reconnaissance doit être automatiquement exécutée sur le serveur par un planning d’importation, la reconnaissance OCR doit être activée dans le planning d’importation.

Voir planning d’importation de fichier