Présentation

FileDirector peut renseigner automatiquement les champs d’index avec des formes OCR en appliquant la reconnaissance de texte automatique, un code à barres ou des cases à cocher.
Des graphiques ou du texte peuvent être utilisés pour spécifier une forme. En utilisant différents identifiants sur différentes formes, FileDirector peut identifier la forme appropriée parmi la plage disponible pour la reconnaissance d’index automatique et la sélection du type de document.
Conditions
La reconnaissance de texte OCR dans FileDirector est exécutée par le Moteur OCR. Il doit être installé sur chaque ordinateur exécutant les fonctions OCR. Component Services doit également être installé.
Le moteur OCR est une option sous licence et l’ordinateur utilisé pour configurer les formes OCR doit avoir accès à une licence OCR.
Deux différents types d’OCR sont utilisés :
Reconnaissance de forme manuelle
La reconnaissance de forme peut être lancée manuellement en cas de numérisation avec un profil de numérisation. Dans ce cas, le moteur OCR doit être installé sur le poste de travail utilisé pour la numérisation. Les documents sont numérisés dans la liste locale du poste de travail puis enregistrés après un contrôle d’index manuel.
Reconnaissance de formes automatique
Si un fichier est importé, la reconnaissance de forme peut être exécutée sur le serveur. Ce réglage doit être configuré dans le planning d’importation de fichier. Le moteur OCR doit être installé sur le serveur. Ce réglage est principalement utilisé en association avec le VNP employé pour archiver et indexer les données de sortie.
Fonctionnalité de la reconnaissance de formes OCR
Si la reconnaissance de forme est utilisée, les documents importés ou numérisés doivent avoir une structure unique. Les données d’index à reconnaître et à importer doivent toujours se trouver à la même place sur une page. Les zones de lecture de la reconnaissance OCR peuvent être spécifiées.
Différents documents sont identifiés par un graphique (par exemple logo) ou un texte unique ou une combinaison des deux. Ces identifiants doivent être identiques et présents sur chaque page à reconnaître et lire.
Si un document est identifié, les zones sont lues, l’index est créé et le document est stocké dans le type de document correspondant.
Si le document ne peut pas être reconnu, il est stocké dans un type de document prédéfini (retour). Les documents de ce type peuvent être indexés manuellement.
Propriétés OCR générales
Sélectionnez l’icône OCR puis choisissez l’action Réglages. Vous pouvez configurer les réglages OCR généraux qui doivent être définis avant les propriétés spécifiques d’une forme puissent être configurées.
Une forme OCR ne peut être créée que si un Type de documents de retour a été créé et assigné. Cette étape est exécutée lors de la création de la première forme OCR ou ultérieurement dans les propriétés du nœud OCR dans la section Paramètres OCR. Tous les documents non reconnus sont placés dans ce type de documents, sont indexés puis placés dans le type de documents approprié.
Amélioration plein texte / AutoCapture
Les propriétés OCR définies ici, sont utilisées pour les formes OCR et la lecture plein texte.
La lecture plein texte est une part importante de l’option FileDirector AutoCapture. Ainsi, les propriétés OCR affectent la qualité des résultats de FileDirector AutoCapture.
Langues de reconnaissance (Moteur OCR occidental)
Différentes langues peuvent être définies pour la reconnaissance. Le moteur OCR occidental propose les langues suivantes :
| Anglais | Russe | Polonais |
| Allemand | Norvégien | Tchèque |
| Français | Suédois | Hongrois |
| Hollandais | Finnois | Slovène |
| Espagnol | Danois | Turc |
| Italien | Portugais | Portugais-Brésilien |
| Grec | Catalan |
Lorsque des langues sont sélectionnées, les caractères spéciaux spécifiques associés à cette langue peuvent aussi être reconnus.
Options de reconnaissance
La qualité et la précision de la reconnaissance OCR dépend fortement de la qualité et de la précision de l’image numérisée. Pour améliorer la reconnaissance, plusieurs options peuvent être définies :
Reconnaissance améliorée
Il s’agit d’un réglage général du moteur OCR. En cas de problème de qualité et de contraste, la reconnaissance peut être améliorée.
Correction de travers
Si une page est numérisée manuellement, elle peut ne pas être reconnue si elle a bougé pendant la numérisation. Cette option lance une correction de travers après la numérisation et peut améliorer le résultat.
Améliorer l’image
L’amélioration de l’image vous permet de filtrer l’image numérisée pour augmenter la qualité pour la reconnaissance de la fonction d’identification d’une forme. Ce réglage devient opérationnel si, pendant une reconnaissance de forme, la forme ne peut pas être clairement déterminée. Il est fortement recommandé de tester les filtres et leur ordre sur une forme pour voir le résultat des réglages.
Les filtres suivants sont disponibles :
| Elimination des points | Cela permet de supprimer les pixels orphelins de l’image. Le niveau 1 supprime les points les plus petits, le niveau 2 les points légèrement plus grands et le niveau 3 ceux encore plus grands. |
| Elimination des lignes Horizontales | Enlève les lignes horizontales de l’image |
| Elimination des lignes Verticalesl | Enlève les lignes verticales de l’image |
| Eclaircir | Eclairci l’image – 2 niveaux disponibles |
| Noircir | Noirci l’image – 2 niveaux disponibles |
| Suppression d’arrière-plan | Supprimera le texte ou images en arrière-plan |
| Améliorer le texte | Améliore la qualité du texte |
| Réduction Horizontale | Utilisé pour améliore la qualité de lecture d’impression matricielle |
| Filtre de Couleur | Enlève la couleur d’arrière-plan de l’image |
Les filtres son exécutés successivement de sorte que l’ordre est important pour le résultat. Si vous noircissez la page en premier, les pixels orphelins seront élargis. Si vous éliminez les points en premier puis noircissez la page après, le texte restant sera accentué.
L’ordre des filtres peut être modifié en utilisant le glisser/déposer.
Réglage pour la reconnaissance de forme
Le seuil d’identification et le type de documents cible pour les documents non-reconnus doivent être spécifiés.
Un ou plusieurs identifiants sont spécifiés dans un document. Si la similitude entre le document numérisé et la référence stockée dépasse 80 % (valeur par défaut), le document est traité selon la zone de reconnaissance spécifiée pour cette forme. Les zones sont lues, l’index est stocké et les documents sont stockés dans le type de document lié à cette forme. Si nécessaire, le seuil peut être ajusté pour améliorer ou garantir la reconnaissance.
Si des documents ne peuvent pas être assignés à une des formes stockées, ils sont automatiquement enregistrés dans le type de documents de retour (type pour les documents non reconnus). Si des documents apparaissent dans ce type de documents, ils doivent être indexés manuellement et stockés correctement.
Si la reconnaissance de forme est utilisée, un type de documents de retour doit obligatoirement être spécifié.
Lors de la création de la première forme, ce réglage apparaît automatiquement, car un type de documents de retour doit être spécifié.
Plein texte Asiatique
Réglages de langue Windows
Pour afficher les langues d’Extrême-Orient sur un système d’exploitation Windows occidental, l’option suivante doit être installée :
Panneau de configuration → Réglages de langue → Paramètres régionaux → Installer support de langue Extrême-Orient.
Niveaux des paramètres OCR
Les paramètres OCR sont valides pour :
- Les réglages généraux pour le gestionnaire DTD et tous les types de documents, qui sont définis dans les propriétés OCR.
- Au niveau de la forme, les réglages peuvent être configurés au sein des Profils de numérisation.
Réglages du moteur OCR
Le moteur OCR affiche les caractères qui ne sont pas reconnus comme suit ~ . Le seuil peut être configuré dans un fichier *.config. Ce fichier est stocké dans une installation standard sous :
C:Program filesSpielberg Solutions GmbHFileDirector Component ServiceOCR EngineFileDirector OCR Engine.exe.config.
La valeur par défaut est 75, la valeur maximale est 100. Plus la valeur est élevée, plus le moteur traite avec tolérance les caractères non sécurisés.
key="CertaintyThreshold" value="75"
Créer une forme OCR
Pour créer une nouvelle forme OCR, sélectionnez l’icône OCR puis choisissez Nouveau. La fenêtre de configuration OCR s’ouvrira alors.
Dans l’onglet OCR, un nom et une description sont saisis.
Lors de la création d’une forme OCR, une page d’exemple peut être utilisée pour configurer les propriétés.
Cette page peut être chargée depuis un fichier ou directement être numérisée. En cas de numérisation, l’utilisateur doit avoir accès à un profil de numérisation. Après la sélection du profil de numérisation, la page d’exemple peut être numérisée et apparaît dans la partie droite de la fenêtre de configuration.
![]() | Charger l’image à partir du fichier |
![]() | Numériser |
![]() | Arrêter la numérisation |
![]() | Ajustement horizontal et vertical |
![]() | Ajustement horizontal |
![]() | Taille originale |
![]() | Agrandissement de l’image |
![]() | Réduction de l’image |
Références pour les exemples
Il n’est pas obligatoire d’utiliser la même résolution pour l’exemple et les documents numérisés. C’est néanmoins recommandé car différents filtres, tels que Elimination des points ont différents effets sur les feuilles avec différentes résolutions de numérisation. Le résultat peut être que le résultat de la reconnaissance dans Enterprise Manager peut différer du résultat des numérisations effectuées dans le WinClient.
L’expérience a montré qu’une valeur optimale du fichier TIFF pour la reconnaissance OCR est de 300×300 dpi, mais les valeurs dépendent de la source. Une résolution plus basse peut empirer le résultat. Plus la résolution est basse, plus le fichier final du document numérisé est petit. Un fichier TIFF avec une résolution de 300×300 dpi aura une taille de 30-60 Ko. Essayez plusieurs réglages. Si la qualité est suffisante, utilisez également une résolution plus basse.
Modèles EDoc
Les fichiers électroniques tels que des documents Word et des tableaux Excel peuvent aussi être utilisés comme modèle.
Pour la reconnaissance, un fichier PNG 200dpi est créé en arrière-plan. Lors de l’utilisation des fichiers électroniques créés avec différentes versions du logiciel d’origine (par exemple différentes versions de WORD) l’affichage peut être différent.
Si des documents électroniques doivent être indexés avec la reconnaissance de forme, VNP est recommandé. Le fichier d’exemple doit être créé avec VNP et être utilisé pendant la configuration des formes.
Voir le chapitre VNP dans le Manuel d’Installation.
Réglages / Configuration des Formes
Double-cliquez sur une forme existante ouvrira la fenêtre de configuration des formes.
Dans Forme OCR, le nom et la description d’une forme est affichée. Ces entrées peuvent être modifiées à tout moment.

Changer l’image
Ce bouton permet de rappeler la fenêtre de création de forme. Une nouvelle page d’exemple peut être assignée.

Information de l’image
Ce réglage affiche les informations relatives à la forme et à l’image :
Nombre de zones
Nombre de champs assignés Format de fichier
Largeur (en pixels) Hauteur (en pixels) Résolution X (DPI) Résolution Y (DPI) Qualité Couleur (bits) Taille avant compression Taille compressée Taux de compression

Reconnaissance
Ce bouton permet de tester la reconnaissance et les réglages. Différentes pages peuvent être numérisées pour le test, si elles sont reconnues et que les champs sont lus.
Une description détaillée est disponible dans la section Test de reconnaissance.
![]() | Ajustement horizontal et vertical |
![]() | Ajustement horizontal |
![]() | Taille originale |
![]() | Agrandissement de l’image |
![]() | Réduction de l’image |
![]() | Créer une zone |
![]() | Zoom région |
Si un cadre est glissé lorsque le bouton avec la loupe est affiché, l’affichage est agrandi. Ce bouton permet de basculer le système en mode zone. Lors du glissement, une nouvelle zone est créée.
![]() | Sélectionnez zone précédente / zone suivante |
![]() | Ordre de tri ascendant / descendant des zones |
Reconnaissance de zone
Le moteur OCR est lancé pour la zone actuelle. Alternativement, cette fonction peut être lancée en double-cliquant sur la zone.
Si des caractères ne sont pas reconnus correctement, un signe ~ apparaît.
Reconnaissance de toutes les zones
Cette option reconnaît toutes les zones simultanément et affiche le résultat dans la zone de résultat. Les zones sont toutes affichées individuellement puis sont numérotées même si plusieurs d’entre elles sont assignées au même champ d’index.
Reconnaissance plein texte
La reconnaissance plein texte dans cette zone a des fonctions de test. Les résultats de la reconnaissance plein texte peuvent être affichés pour contrôler la qualité. Les paramètres OCR et leur influence sur les résultats de la reconnaissance peuvent être facilement vérifiés.
Si la recherche plein texte doit être utilisée, elle doit être configurée sur le serveur.
Voir Configuration de la reconnaissance plein texte
Reconnaissance de zones et plein texte
Cette option combine la reconnaissance de toutes les zones et la reconnaissance plein texte. Le résultat s’affiche dans la partie inférieure de la fenêtre.
Obtenir tous les champs d’index
Dans la zone de résultat, le contenu de toutes les zones s’affiche avec les zones respectives. Si plusieurs zones sont assignées à un champ d’index, cette fonction teste l’apparence du contenu du champ. Si le contenu est trop long pour le champ spécifié, un avertissement s’affiche. Des séparateurs de champ peuvent être cochés (→ Préfixe/Suffixe).
Obtenir les résultats d’identification
Si un identifiant de document graphique est spécifié, la similitude d’une page numérisée peut être comparée au masque. Avec un identifiant de texte, seul un résultat de 100 % ou 0 % est possible.
Avec un identifiant graphique, une similitude entre 0 % et 100 % peut être le résultat, car la similitude est contrôlée.
Effacer
Permet d’effacer les zones.
Ajustement horizontal et vertical, ajustement horizontal, taille originale
Si la page d’exemple est zoomée, la partie affichée peut être déplacée en activant le bouton droit de la souris et en déplaçant la souris.
Sélection du type de documents
Sélectionner le type de documents dans lequel enregistrer les pages reconnues de cette forme. Si une page est numérisée et reconnue correctement, elle est stockée dans le type de documents spécifié dans le profil de numérisation.
Créer / sélectionner / changer une zone

Vérifiez que le mode zone est actif.
Glisser une zone de lecture sur la page affichée autour des informations à lire par l’OCR.
Le curseur de la souris devient une croix lorsqu’il passe sur la zone d’affichage. Une zone peut être modifiée à tout moment en faisant glisser ses limites avec le bouton gauche de la souris. Si le curseur de la souris se trouve sur une limite de la zone, il devient un symbole de redimensionnement et la limite peut être glissée en appuyant sur le bouton de la souris. Si le curseur est placé dans une zone, toute la zone peut être déplacée en appuyant sur le bouton gauche de la souris.
Si plusieurs zones sont créées, la zone active est entourée de rouge et les autres de bleu. Pour passer à une autre zone, cliquez une fois sur la zone ou utilisez les boutons zone suivante ou zone précédente.
Identification du document
Pour identifier et classer un document, il doit au moins contenir une zone pour identification unique, qui doit se trouver uniquement sur le document concerné et non sur un autre document. Il peut s’agir d’un élément graphique ou d’un identifiant de texte.
Élément graphique
Si un identifiant graphique est sélectionné, le taux de reconnaissance se trouve entre 0 % et 100 % correspondant à la similitude de cette zone avec l’exemple stocké. Des éléments graphiques identiques donneraient un résultat de 100 %.
Un élément graphique peut être par exemple un logo, qui doit être différent selon les documents à reconnaître. Si un identifiant se trouve sur plusieurs documents et qu’il ne peut pas être assigné de manière unique à une forme, il est stocké dans le type de document de retour.
Élément texte
Un identifiant de texte peut être un texte unique identifiant le document, par exemple le mot FACTURE sur une facture. Si ce texte est reconnu à la position de zone définie, le document est reconnu et classé. Le texte de l’identifiant peut être entré automatiquement lors de la configuration de la forme en double-cliquant sur la zone. Le moteur OCR démarre et écrit le texte lu dans le champ de l’identifiant.
Si la reconnaissance est testée avec les résultats d’identification, le texte est soit reconnu complétement (100%) ou le résultat est 0% si un des caractères ne correspond pas au texte de l’identifiant.
Trouver le texte n’importe où dans la zone
Si cette option est cochée, le texte dans l’identification du document doit se trouver dans la zone d’identifiant configurée.
Si cette zone est ajoutée à un champ d’index, le texte complet sera utilisé comme le texte d’une zone normale et peut être configuré avec les options de configuration des champs d’index (justifier, remplacer, etc.).
Optimiser les résultats d’identification avec <RegEx>
Des expressions régulières peuvent être utilisées comme filtre pour l’identifiant de l’OCR. Une reconnaissance imprécise (par ex. sorties d’imprimante matricielle) peut ainsi être optimisée. Faite précéder <RegEx> dans la zone pour optimiser l’identification.
Exemple :
Page : 1 De :2 est parfois reconnu comme Pa3e: 1 DE: 2.
Le g n’a pas été reconnu par l’OCR. Pour rendre l’identifiant reconnaissable malgré cela, une expression régulière peut être configurée pour ignorer le g.
Cela pourrait ressembler à l’expression suivante :
Elément Texte : <RegEx>Pa.e:[ ]*[1I].?[t]*De:
<RegEx> doit être placé au début de la définition de l’élément texte pour indiquer l’utilisation d’une expression régulière. Trouver le texte n’importe où dans la zone est ignoré lors de l’utilisation de <RegEx>
Pa e: La combination de caractères “Pa” est attendue, suivie par un caractère et de deux points.
(Alternativement : [g39] autorise les caractères “g”, “3” and “9”)
[ ] Autorise “0” ou des espaces
[1|]* Autorise “1” ou un “|”, mais un des caractères doit être présent
.? Autorise un point, mais il peut également être absent (parfois un “|” a été lu)
[ t]* Autorise un “0” ou des espaces ou tabulations
De: La combination de caractères “De:” est attendue
Plusieurs expressions peuvent être combinées lorsqu’elles sont séparées par un trait vertical.
Exemple
<RegEx>Expression1|Expression2
Seuil
Le seuil spécifie la similitude minimale qui doit être dépassée pour qu’un document soit reconnu. Cette valeur se trouve dans les paramètres OCR d’un gestionnaire DTD et est valide pour toutes les formes OCR de ce gestionnaire.
Amélioration de l’image (Zones)
L’amélioration de l’image permet de filtrer les résultats de numérisation pour améliorer l’image pour le traitement OCR.
Les filtres suivants sont disponibles :
| Elimination des points | Cela permet de supprimer les pixels orphelins de l’image. Le niveau 1 supprime les points les plus petits, le niveau 2 les points légèrement plus grands et le niveau 3 ceux encore plus grands. |
| Elimination des lignes Horizontales | Enlève les lignes horizontales de l’image |
| Elimination des lignes Verticales | Enlève les lignes verticales de l’image |
| Eclaircir | Eclairci l’image – 2 niveaux disponibles |
| Noircir | Noirci l’image – 2 niveaux disponibles |
| Suppression d’arrière-plan | Supprimera le texte ou images en arrière-plan |
| Améliorer le texte | Améliore la qualité du texte |
| Réduction Horizontale | Utilisé pour améliore la qualité de lecture d’impression matricielle |
| Filtre de Couleur | Enlève la couleur d’arrière-plan de l’image |
L’amélioration de l’image pour les zones est effectuée après le réglage de filtre de l’option OCR pour l’ensemble de la forme. L’onglet Paramètres OCR permet de régler l’ensemble de la forme Paramètre OCR (propriétés). Lorsqu’un filtre est utilisé pour la forme entière et une zone, l’effet sera doublé.
Les filtres sont exécutés successivement, l’ordre est donc important pour le résultat. Si une page est d’abord noircie, le pixel de point sera agrandi. Si le point est éliminé en premier et que la page est ensuite noircie, le texte restant est accentué.
Le résultat des réglages de filtre peut être immédiatement visualisé et vérifié. Les réglages de filtres tels que Noircir peuvent être utilisés plusieurs fois. L’ordre des filtres peut être modifié via glisser & déposer, cela signifie que vous pouvez, par exemple, déplacer la 5ème entrée en 2de position et voir immédiatement les modifications. Si la zone est déplacée, la modification pour la section relative à la zone est immédiatement visible.
Ces améliorations seront exécutées avant tous les autres ajustements de caractères dans une zone. Après ces changements, une numérisation OCR peut être lancée.
Contenu de la zone
Le contenu d’une zone pour la reconnaissance d’index doit être spécifié. Une zone ne peut avoir qu’un seul type de contenu, mais le contenu peut être assigné à plusieurs champs d’index.
Type de contenu
Le type de données présent dans une zone doit être spécifié. Les options suivantes sont disponibles :
| Automatique | Ce réglage tente de reconnaître le type de contenu automatiquement (à l’exception du code à barres et de l’OMR). Si les caractères ne sont pas reconnus, un des réglages spéciaux peut être tenté. |
| Omnifont | Ce réglage est adapté au texte imprimé par des imprimantes lasers ou à jet d’encre. Les pages créées sur des machines à écrire sont également reconnues si la qualité est bonne. |
| dot-matrix 9 aiguilles | Utiliser ce réglage si les documents numérisés ont été imprimés à l’origine sur des imprimantes matricielles. Noter que les imprimantes matricielles utilisent des rubans d’encre qui se détériorent dans le temps et affectent la qualité ainsi que la reconnaissance OCR. |
| dot-matrix 24 aiguilles | |
| Dot digits | Les caractères se composent de simples points. |
| Dash digits | Les caractères se composent de simples barres. |
| OCR-A | Police spéciale conçue pour la reconnaissance OCR. Les caractères de cette police sont conçus pour se différencier au maximum les uns des autres en termes de forme et de contraste afin de simplifier la reconnaissance OCR. Cette police est utilisée sur les chèques. |
| OCR-B | Autre police spéciale utilisée pour la reconnaissance OCR. Cette police est similaire aux polices d’impression normales et peut être facilement lue. |
| Encre magnétique MICR (E-13B) | E-13B est utilisé par exemple aux Etats-Unis, au Canada, en Australie et en Angleterre (numérique avec 4 caractères de contrôle) |
| Encre magnétique MICR (CMC-7) | CMC-7 est utilisé par exemple en France, en Espagne et en Afrique du Sud (numérique avec 5 caractères de contrôle) |
| Asian | Ce réglage n’apparaît que si l’OCR asiatique est sous licence. Il spécifie l’orientation à utiliser pour le texte asiatique à reconnaître. |
| Asian vertical | |
| Marque Optique(OMR) | Cette option est utilisée pour décider si une case à cocher a été cochée ou non. |
| Code à barres | Les codes à barres suivants sont gérés par FileDirector : 2 de 5 entrelacé, Alpha 39, Codabar, Code 128 et PDF 417 |
| Code à barres flottant | Si un code à barre flottant est assigné à une zone, le type de code à barre doit être spécifié. Un code à barre flottant recherche des codes à barre sur une page entière et lit le premier code trouvé. Note : Le type de code à barre de 2 de 5 entrelacé est très simple. Le module de code à barre peut être confondu avec des graphiques sur la page. Un code à barre qui ne se trouve que sur la première page d’un document peut être utilisé comme séparateur de document automatique en mode de numérisation par lot |
| Ancre | Si une ancre est assignée à une zone, les positions des autres zones spécifiées sur cette page sont calculées par rapport à cette zone. Cela signifie que si un décalage de l’ancre est reconnu – comme cela peut se produire lors de la numérisation ou de l’impression – les positions des autres zones définies sont adaptées à la nouvelle position de l’ancre. Note : Il est recommandé de définir un texte d’ancre pour une zone avec ancre. Ce texte doit être unique, sinon la première correspondance est considérée comme l’ancre. Cette option ne contient pas de correction de travers automatique. |
Caractères autorisés
Pour tester la reconnaissance dans une zone, lancer simplement le moteur OCR sur cette zone par double clic. Si seuls les caractères spéciaux doivent être lus dans cette zone, les caractères autorisés peuvent être limités par exemple comme suit : Majuscule, Minuscule, Chiffre, Ponctuation et Divers. Si un champ d’index est déjà limité par exemple sur un chiffre, la limite doit également être utilisée dans la forme OCR. Si, par exemple 0 (zéro) a été reconnu par erreur comme la lettre O, ce document ne peut être enregistré, car le champ d’index n’autorise pas les lettres.
Le réglage Défini par l’utilisateur utilise la sélection de caractères entrée dans le masque principal des réglages de la forme.
Les réglages du contenu spécifient ce qui peut être reconnu par le moteur OCR. Les caractères lus peuvent être post-édités après la reconnaissance par les réglages de champ.
Marque Optique (OMR)
Le type de contenu marque optique (OMR) permet d’analyser automatiquement les cases à cocher. Si ce type de contenu est actif, Les entrées cochées ou non cochées deviennent actives.
Une zone est placée autour d’une case à cocher 
ou
) car le système recherche des lignes diagonales. Les champs sont facilement reconnus même s’ils ont été cochés manuellement.
Code à barres
Si code à barres est spécifié pour le type de contenu, les champs Type de code à barres et Réglages code à barres deviennent actifs. Un type de code à barres peut être spécifié pour chaque zone.
Les types de codes à barres suivants sont gérés :
| 2 de 5 entrelacé | Ne peut contenir que des chiffres. |
| Alpha 39 | Peut contenir des lettres et des chiffres, y compris – . + % $ / |
| Codabar | Peut contenir ABCDENT et les caractères spéciaux – / $ : * . |
| Code 93 | Peut contenir des lettres et des chiffres, y compris -, ., $, /, +, %, SPACE |
| Code 128 | Contient un jeu de caractères complet, comprenant des chiffres et des lettres en majuscule et minuscule. Avec des valeurs numériques, la densité des informations est très élevée. Un chiffre de contrôle est toujours utilisé mais il ne fait pas partie des informations. |
| PDF 417 | Le code à barres PDF 417 a deux dimensions, il peut contenir jusqu’à 3000 caractères. Ce code à barres peut contenir le jeu de caractères ANSI complet. Un contrôle interne est toujours implémenté, il permet de corriger les erreurs lors de la lecture. Ce contrôle est automatiquement effectué sur chaque code à barres lu. |
| DataMatrix | DataMatrix est un code à barres matriciel à deux dimensions constitué de « cellules » en noir et blanc ou de modules disposés dans un carré ou dans un rectangle. |
| QR Code | Le code à barres bidimensionnel matriciel code QR est devenu courant du fait de sa lisibilité rapide et de sa capacité de stockage augmentée par rapport aux codes à barres UPC standard. Les applications proposent le suivi du produit, l’identification d’article, le suivi du temps, la gestion des documents, le marketing général, et encore plus de codes à barres. |
Réglages code à barres
Des réglages supplémentaires peuvent être spécifiés pour les codes à barres. Un code à barres peut contenir un chiffre de contrôle. La reconnaissance et le contrôle avec ce chiffre peuvent être activés ou désactivés pour certains codes à barres.
Si un code à barres est tourné de 90 degrés sur la page, ce réglage peut être défini pour la lecture. Pour les autres types de zones de reconnaissance, cette rotation est impossible.
Recherche étendue (Pas sur les codes à barres flottants)
La recherche étendue est une fonction à utiliser dans des cas exceptionnels pour les codes à barres à peine lisibles. Cette option ne peut pas être utilisée pour les codes à barres flottants.
La reconnaissance utilisant la recherche étendue est lente par rapport à la recherche régulière. Par conséquent, penser à remplacer les codes à barres utilisés par des types plus lisibles.
Seuil code à barres
Avec ce seuil, la valeur de retour peut être affectée, mais pas la qualité des valeurs reconnues. Le seuil filtre le résultat de la reconnaissance et n’est utilisé que dans des cas exceptionnels. Si le réglage par défaut « 0 » est utilisé, toutes les valeurs reconnues sont retournées et aucun filtre n’est défini. S’il est configuré sur « 99 », toutes les valeurs positives sont retournées. Avec le réglage «100», aucune valeur n’est retournée.
Une vérification de reconnaissance hasardeuse est effectuée dans les situations suivantes :
- Si le chiffre de contrôle est utilisé dans les réglages du code à barres.
- Dans le code à barres de type 2 de 5 entrelacé. Dans ce cas, la taille de la ligne est contrôlée et il est parfois possible qu’une valeur reconnue non sûre renvoie 50. Dans ce cas, le seuil 51 est configuré, les codes à barres reconnus comme non-sûrs sont filtrés.
Code à barres flottant
La zone pour un code à barres indépendant de la position peut être placée n’importe où sur la page.
Les règles suivantes s’appliquent généralement :
L’index 1 (zone 1) contient le premier code à barres à trouver, l’index 2 (zone 2) contient le second code à barres … si des champs d’index doivent être assignés. Si le second code à barres doit être placé dans le premier champ d’index, un factice doit être créé pour le premier code à barres.
Code à barres flottant comme identifiant
Un code à barre flottant peut uniquement reconnaître le premier code à barre comme identifiant. Le second code à barres ne peut pas être un identifiant. Par conséquent, la série de codes à barres sur une page doit être prise en compte lors de l’utilisation des identifiants. Un code à barres est toujours reconnu du coin supérieur gauche jusqu’au coin inférieur droit. Un code à barres ne doit pas être placé trop de travers sur la page (lors de l’utilisation d’étiquettes). La taille et la qualité des codes à barres doivent être suffisantes.
Assigner les champs d’index
Lors de l’assignation de zones à un champ d’index, vérifier que la longueur du champ d’index spécifiée est suffisamment longue pour accepter les caractères lus. Les préfixes et suffixes ajoutés au nombre maximum de caractères possibles pendant la reconnaissance doivent être pris en compte. Noter qu’un document numérisé peut également être différent de l’extrait stocké et peut fournir plus de caractères par zone après l’OCR.
Assigner le contenu d’une zone à un champ d’index
Créer une zone en faisant glisser le curseur de la souris et en ouvrant le menu déroulant du champ d’index. Les zones du type de document cible peuvent être sélectionnées. Double-cliquer sur cette zone pour afficher le résultat de la lecture de la zone et le résultat du champ d’index.
Les résultats sont différents, si des modifications sont apportées par la suite en spécifiant les réglages Supprimer, Coupe gauche / droite, Depuis gauche / droite ou Préfixe / Suffixe. Cette fonctionnalité permet de vérifier le résultat du contenu du champ d’index.
Assigner plusieurs zones à un champ d’index
Chaque zone peut être assignée à un champ d’index. Si plusieurs zones doivent être écrites dans un champ d’index, connecter simplement la zone au même champ d’index. Le contenu des zones peut être séparé avec les préfixes et suffixes.
Changer l’ordre des zones

Les zones sont écrites dans un champ d’index selon l’ordre créé automatiquement lors de la configuration des zones. Cet ordre peut être modifié avec les boutons de la barre d’outils.
Assigner une zone à plusieurs champs d’index
Il est possible de répartir des segments du contenu de la zone dans différents champs d’index. C’est particulièrement utile lorsqu’un code à barres PDF 417 est utilisé. Ce code à barres peut contenir une adresse complète.
Cette adresse complète est lue dans une zone, mais différents champs d’index sont remplis avec l’information reconnue.
Séparateur de champ
Différents caractères peuvent être utilisés comme séparateur de champ. Ces caractères peuvent être visibles (par ex. virgule, point, trait vertical, etc.), ou invisibles :
| {Space} | (vide) |
| {CR} | (retour à la ligne) |
| {LF} | (saut de ligne) |
| {CLRF} | (retour en début de ligne suivante) |
| {TAB} | (tabulation) |
Ces caractères peuvent être choisis dans une liste de séparateurs de champ. Plusieurs séparateurs de champs peuvent être utilisés ; une entrée définie par l’utilisateur est également possible.
Assigner par numéro d’index
Les segments créés par le séparateur sont numérotés en interne et peuvent être connectés aux champs d’index. Après la connexion aux champs, les options Supprimer, Coupe gauche /droite, Depuis gauche / droite ou Préfixe / Suffixe peuvent être spécifiées individuellement.
Exemple
Segment (Index) 1 = Firma Sand (CRLF)
Segment (Index) 2 = Sandmüllersweg 10 (CRLF)
Segment (Index) 3 = 33333 Sandhausen (CRLF)
Index 1=Name
Le premier segment est écrit dans le champ d’index “Name“ : “Firma Sand“
Index 2=Street
Le second segment est écrit dans le champ d’index “Street“ : “Sandmüllersweg 10“.
Index 3=City
Le troisième segment est écrit dans le champ d’index “City“ : “33333 Sandhausen“ et le contenu est coupé à gauche de 5 caractères.
Index 3=Post code
Le troisième segment est aussi écrit dans le champ d’index “Post code“ : “33333 Sandhausen“ et seul les cinq premiers caractères (les plus à gauche left) sont utilisés.
Assigner par identifiant
Si l’assignation est effectuée par identifiant, un texte peut être spécifié pour l’identification.
Par exemple, le texte Facture #: est reconnu et le numéro suivant ce texte est écrit dans le champ d’index. L’identifiant est ignoré et n’est pas écrit dans le champ d’index. Les éventuels vides entre l’identifiant et l’index sont automatiquement ignorés.
Ajustement des caractères
Ordre de l’ajustement de caractères
Les modifications après la numérisation de la zone seront effectuées dans l’ordre indiqué ci-dessous :
Coupe gauche / droite
Depuis gauche / droite
Préfixe / Suffixe
Supprimer / Remplacer par
Coupe gauche / droite
Avec cette option, des caractères peuvent être supprimés du texte reconnu par l’OCR. Une zone peut lire un texte plus grand, en coupant la partie nécessaire du texte reconnu, elle peut être supprimée.
Depuis gauche /droite
Si un nombre défini de caractères doit être inscrit dans un champ d’index, cette option peut être utilisée. Si, par exemple, les 5 caractères les plus à gauche doivent être utilisés, spécifiez 5 dans Depuis gauche. De la même manière, un nombre défini de caractères depuis la droite peut être spécifié dans Depuis droite.
Préfixe / Suffixe
Si plusieurs zones sont reliées à un champ d’index, elles peuvent être séparées par un caractère, qui est défini comme Préfixe ou suffixe. Un préfixe est écrit devant l’index à écrire, un suffixe suit l’index à écrire.
Caractère de réglage
Avec cette fonction, vous pouvez supprimer ou remplacer des caractères d’une zone après reconnaissance. Il y a les mêmes choix de caractères (visible et invisible) que pour l’option séparateur de champs.
Supprimer si pas
Avec cette fonction, vous pouvez vider le contenu du champ lu par l’OCR, si le contenu n’est pas conforme à la définition établie dans ce domaine, qui peut être une expression régulière.
Exemple :
Le champ doit être rempli avec un numéro de facture avec le format suivant xx-xxxxx. La définition de l’expression serait :
Élément texte : <RegExClear!>[0-9]{2}-[0-9]{5}
<RegExClear!> doit être placé au début.
[0-9] Seuls les chiffres sont autorisés.
{2} Un total de deux caractères définis dans “[…]” sont attendus.
– un “-“ est attendu.
[0-9] là encore, seuls les chiffres sont autorisés.
{5} Un total de cinq caractères définis dans “[…]” sont attendus.
Plusieurs expressions peuvent être combinées « ou » lorsqu’elles sont reliées avec un séparateur trait vertical (pipe).
Exemple
<RegExClear!>Expression1|Expression2
Une description commune des expressions régulières peut être trouvée chez Microsoft :
http://msdn2.microsoft.com/en-us/library/az24scfc(vs.71).aspx
Pages suivantes et page de fin
Cette option permet de définir les pages suivantes et de fin qui diffèrent de la première page. Elle permet également de remplir les champs d’index avec le contenu des pages suivantes et de fin.
Cliquer sur l’onglet Pages suivantes. Un lien s’affiche pour charger la page suivante en tant que modèle pour la configuration. La page de fin est définie de la même manière dans l’onglet Dernière page. Si le modèle est chargé, les identifiants et champs d’index peuvent être définis.
Si les mêmes champs d’index sont mappés sur différentes pages, les valeurs sont comparées. La valeur doit être unique pour remplir les champs d’index avec le contenu approprié.
Paramètres étendus
Des paramètres supplémentaires peuvent être appliqués dans l’onglet Paramètres étendus.
Utiliser code à barre comme… Début de lot/ Fin de lot
Uniquement valide pour une forme statique sans identification de document. En général, ce paramètre est défini pour un début de lot, de sorte qu’un code à barres sur la première page d’un document agisse comme un séparateur de document. Dans de rares cas, le code à barres est placé sur la dernière page et sert comment indicateur de fin de document. Dans ce cas, le réglage doit être défini sur Fin de lot.
Page détruite
Dans certains cas de numérisation de lot, une feuille de séparation est utilisée pour différencier plusieurs lots et débuter un nouveau document.
Pour supprimer cette page de l’archive, configurer la reconnaissance pour cette page puis l’élimination après la reconnaissance. Cette option peut uniquement être définie pour la première page.
La page doit exister
Cette option peut être définie pour les pages suivantes. La première page doit toujours exister pour l’identification. Si une page de fin est définie, elle doit également toujours exister pour reconnaitre la fin d’un document.
Traiter les zones vides comme vierges
Si l’action automatique d’un champ est définie sur Préserver, le champ est renseigné avec le contenu du jeu de données précédent. Lors de la reconnaissance des zones OCR, un réglage optionnel peut être effectué pour spécifier si une zone doit lire un contenu vide ou préserver la dernière entrée. Ce réglage peut être défini séparément pour des zones OCR normales et pour des zones de code à barres.
Caractères définis par l’utilisateur
Pour le contenu de zone, les caractères autorisés définis par l’utilisateur d’une forme sont définis ici. Lors de l’ouverture de la zone contenu de la zone, sélectionnez sous l’option caractères autorisés, l’option Défini par l’utilisateur. Seuls les caractères définis ici seront reconnus. Les caractères spécifiés doivent être écrits sur une ligne.
Mettre le champ…à la valeur
Cette option n’est pas importante pour la reconnaissance OCR actuelle, mais, pour l’importation d’un fichier, les champs peuvent être renseignés automatiquement avec des valeurs constantes. Cette option doit être configurée de la même manière que dans le profil de numérisation, mais cette valeur remplace un réglage pour le même champ dans le profil de numérisation.
Paramètres de vérification
Dans cette section, des réglages peuvent être effectués pour l’option Réglages de la forme →Champ d’index → Tracé du champ d’index → Vérifier.
La première option correspond à l’effacement des valeurs de champ.
La seconde option permet à l’administrateur de choisir une valeur prédéfinie ou d’entrer une valeur individuelle à renseigner dans un champ de ce type de Documents en cas de vérification valide ou invalide.
Ces réglages permettent de récupérer et de vérifier des documents plus facilement.
Au moins deux zones avec le même contenu pour un champ doivent être sélectionnée pour vérifier le contenu.
Plug-in
Des plug-ins permettent de traiter des fonctions supplémentaires à part de la lecture OCR. Il peut s’agir, par exemple, de transférer des données vers une source externe telle qu’une autre base de données. Les plug-ins sont généralement produits pour des applications spécifiques. Si un Plug-in a été produit, il peut être associé au formulaire OCR en le sélectionnant ici.
Seuil
Le réglage du seuil affecte la luminosité de l’image pour la lecture OCR. La plage de réglage valable est de 1 à 256, la valeur par défaut étant de 128.
Test de reconnaissance / Contrôle des assignations

Reconnaissance
Le paramètre Reconnaissance vérifie si la forme est identifiée et assignée au type de documents approprié et que la reconnaissance d’index et les réglages sont correctement configurés.
Test Configuration
Test de la reconnaissance OCR des documents
Si un document n’est pas reconnu correctement, le fonctionnement de l’OCR peut être testé pour cette option. Utilisez cette fonction lors de la configuration des formes pour vérifier si le modèle est correctement reconnu. Les pages, qui sont numérisées ultérieurement et non reconnues, peuvent également être chargées et testées si les zones sont bien configurées. C’est un parfait outil pour contrôler les erreurs dans la configuration OCR et simplifier la résolution des problèmes.
Les éléments suivants peuvent expliquer une reconnaissance incorrecte des documents :
- Le document est numérisé avec une résolution différente de celle de l’exemple stocké
- Aucun identifiant n’est spécifié sur l’exemple
- Plusieurs formes ont des identifiants similaires, aucune identification unique n’est possible
- Aucun type de Documents ou un type de documents incorrect spécifié pour Retour
- La résolution est trop élevée
- La résolution est trop basse
- Le seuil est défini trop bas / haut
- Le moteur OCR n’est pas installé
- L’image est plus grande que 8400 x 8400 pixels
Type de Documents sélectionné
Sous Reconnaissance de forme, la forme à reconnaitre peut être sélectionnée parmi les formes disponibles. La page affichée dans la fenêtre de prévisualisation est contrôlée. Si Tout est spécifié, toutes les formes disponibles sont contrôlées par rapport au document affiché.
Pour exécuter un nouveau test de reconnaissance, cliquez sur Réinitialiser le lot.
Résultat de la reconnaissance
Si toutes les formes de tous les types de Documents ont été contrôlées, la forme reconnue est affichée dans Sélectionner la forme. Les réglages de cette forme sont utilisés pour l’indexation. Dans Type de Document Cible, le Type de Documents dans lequel le document affiché doit être stocké apparaît.
La liste affiche toutes les formes et leur taux de reconnaissance respectif vérifiés par rapport au document. Si un document ne doit pas être classé de manière unique, il est assigné au type de document de Retour.
La partie inférieure gauche de la fenêtre affiche les résultats de la reconnaissance, si le document peut être classé.
Indépendamment des définitions de page, un page de début doit être reconnue en premier. La page reconnue est affichée dans le champ Statut. Testez la Configuration avec les pages suivantes.
Si une configuration doit être testée avec les pages suivantes et la page de fin, l’ordre doit être rigoureusement conservé pour reconnaître la bonne page.
Numérisez ou chargez la première page et procédez comme suit : Réinitialisez le lot
Choisissez le Type de document Tout ou le type de Document cible
Reconnaissance… Page de démarrage reconnue doit s’afficher
Numérisez ou chargez une page suivante
Reconnaissance… Page suivante reconnue doit s’afficher
Numérisez ou chargez une page de fin (si configurée)
Reconnaissance… Page de fin reconnue doit s’afficher
Si la page correcte ne s’affiche pas, vérifier que la configuration ne présente pas de réglages erronés, par ex. pas de zones à identifiant unique ou de champs d’index doublement mappés avec d’autres contenus sur différentes pages.
Plein texte
Le lancement de la reconnaissance exécute également une lecture plein texte de la page. Il s’agit d’une lecture test pour le contrôle de qualité, le résultat n’est pas conservé. Ce réglage permet de vérifier les mots reconnus et disponibles dans une lecture plein texte.
Paramètre OCR d’une forme
La configuration des formes OCR contient un onglet Paramètres OCR relatif à l’ensemble de la forme et pas seulement aux zones individuelles.
Sélectionnez la langue appropriée pour fournir à la reconnaissance les caractères spécifiques de chaque pays.
En premier lieu, les propriétés de l’ensemble de la forme sont utilisées pour l’amélioration de l’image puis les propriétés de la zone. Se reporter à la section amélioration de l’image (zones) pour savoir comment configurer le filtre pour l’amélioration de l’image.
Toutes les propriétés relatives à une forme sont utilisées dans une reconnaissance test lors de la configuration de la forme et de la reconnaissance des zones. Les différentes propriétés pour la reconnaissance OCR manuelle sont configurées dans le profil de numérisation.
Voir Utilisation de l’OCR et de la reconnaissance de forme
Lors de l’utilisation de la reconnaissance OCR dans un planning d’importation, les réglages de langue des paramètres OCR de la forme concernée sont utilisés.
voir Planning d’importation de fichier
Désactiver une forme OCR
Dans la reconnaissance de forme, toutes les formes configurées sont utilisées.
Pour procéder aux ajustements ou préparer des formes OCR, vous pouvez désactiver les formes afin de les exclure de la reconnaissance.
Pour désactiver une forme OCR, vous devez la sélectionner et choisir Exclu de la reconnaissance de forme. La forme peut être réactivée en choisissant Inclus dans la reconnaissance de forme.
Si une forme dans un profil de numérisation ou dans un planning est directement mappée avec l’option toujours utiliser cette forme, la désactivation est ignorée. Il est possible de mapper les formes directement et de les exclure de la reconnaissance totale de forme. Ces formes sont ignorées pour l’option Reconnaissance totale de forme ou Reconnaissance de forme limitée au type de document.
La reconnaissance de forme peut être mieux contrôlée pour de meilleures performances.
Résumé de la reconnaissance de forme
- Vérifiez que la licence autorise la création de formes OCR.
- Créez des types de documents cibles afin de garantir que la reconnaissance OCR puisse attribuer les documents correspondants.
- Créez un type de documents Retour pour les documents qui ne sont pas reconnus
- Créez une forme dans Enterprise Manager – assignez le type de documents retour.
- Sélectionnez le type de documents cible pour lequel la forme a été créée.
- Si plusieurs formes doivent être automatiquement reconnus, créez un identifiant unique pour ce document.
- Assignez les champs d’index pour les zones de lecture spécifiées.
- Testez la reconnaissance, vérifiez le taux de reconnaissance et la classification des documents. Après ceci, la configuration de la forme est terminée.
Numérisation manuelle dans le WinClient :
La reconnaissance pour la numérisation manuelle doit être activée dans le profil de numérisation correspondant, car elle est exécutée à cet endroit.
Voir Utilisation de l’OCR et de la reconnaissance de forme
Reconnaissance de forme automatique :
Si la reconnaissance doit être automatiquement exécutée sur le serveur par un planning d’importation, la reconnaissance OCR doit être activée dans le planning d’importation.









