- Démarrage
- Composants de l'infrastructure
- Vue d’ensemble de l’extraction des données
- Assistant de configuration des extracteurs (Configure Extractors Wizard) de l'activité Étendue de l'extraction de données (Data Extraction Scope)
- Regex Based Extractor
- Form Extractor
- Extracteur de formulaires intelligents
- Extracteur d'apprentissage automatique
- FlexiCapture Extractor
- Activités liées à l'extraction de données
- Document Understanding dans AI Center
- Pipelines
- Paquets ML
- Data Manager
- Services OCR
- Licences
- Référence (Reference)
Guide de l'utilisateur de Document Understanding
Regex Based Extractor
L'extracteur basé sur RegEx est l'outil parfait pour les cas d'utilisation simples, dans lesquels, pour certains champs, les données sont toujours récupérées dans un format et un contexte stricts et prévisibles. En d'autres termes, si vous disposez d'un champ pour lequel vous pouvez définir une expression régulière qui s'avère toujours exacte lorsqu'elle est mise en correspondance, c'est que vous avez bien fait de choisir l'extracteur basé sur Regex.
L'activité est livrée avec un assistant de configuration qui vous aide à définir les expressions régulières des champs que vous souhaitez cibler aux fins de l'extraction de données en suivant cette méthode.
L'activité prend en charge à la fois l'extraction de champs simples et l'extraction de champ de table.
Il est recommandé d'opter pour d'autres méthodes d'extraction en cas de forte variabilité de contexte et de format des valeurs attendues. Le cas échéant, il est préférable d'utiliser un extracteur de formulaire ou un extracteur d'apprentissage automatique.
Cet extracteur n'a pas de capacités d'apprentissage et nécessite une configuration initiale.
L'utilisation de l'extracteur basé sur Regex ne présente pas d'exigences particulières.
L'extracteur basé sur Regex doit tenir compte de deux configurations principales :
- L'assistant Configurer les expressions régulières (Configure Regular Expressions), qui vous permet de définir des expressions régulières pour certains champs. Cet assistant met également à disposition l'assistant Regex Editor, qui vous aide à créer vos expressions régulières.
- le paramètre UtiliserAlignementVisuel, qui vous permet de contrôler si les expressions régulières configurées pour un extracteur doivent être appliquées à la sortie texte du composant de numérisation ou à une version texte dans laquelle les lignes de texte sont organisées visuellement et les mots réorganisés sur des lignes en fonction de leur alignement visuel.
L'assistant de configuration d'expressions régulières peut être utilisé pour définir des expressions régulières visant à capturer des données à la fois pour les champs simples et les champs de table.
- CultureInvariant - Indique que les différences culturelles linguistiques sont ignorées.
- ECMAScript - Active le comportement conforme au Script ECMA pour l'expression. Cette valeur ne peut être utilisée qu'avec les options IgnoreCase et Multiline.
- ExplicitCapture - Spécifie que les seules captures valides sont celles des groupes explicitement nommés ou numérotés et définis comme
(?<name> subexpression)
. Toutes les parenthèses sans nom doivent être ignorées. - IgnoreCase - Spécifie que la recherche n'est pas sensible à la casse.
- IgnorePatternWhitespace - Élimine l'espace blanc non échappé du modèle défini et active les commentaires marqués avec
#
. Cette option ne s'applique pas aux classes de caractères, aux quantificateurs numériques ou aux jetons marquant le début d'un élément de langage RegEx individuel. - Singleline - Spécifie que la recherche est lancée sur une seule ligne. Le point
(.)
correspond à tous les caractères, y compris l'exception\n
. - Multiline - Spécifie que la recherche est lancée sur plusieurs lignes. Pour cette option, les caractères spéciaux
^
et$
correspondent au début et à la fin de n'importe quelle ligne. - RightToLeft - Spécifie que la recherche est effectuée de droite à gauche.
Remarque : vous trouverez plus d'informations sur les options d'expression régulière ici.
- Cliquez sur le bouton Modifier (Edit) pour modifier les options de ce champ et le format de l'expression régulière.
- Ajoutez du texte dans le champ Texte de test (Test Text) pour tester les critères de recherche que vous choisissez avec le texte auquel vous souhaitez appliquer RegEx.
- Sélectionnez l'un des types de formule RegEx dans la liste déroulante. Cela définit l'expression régulière pour qu'elle corresponde à l'une des caractéristiques suivantes :
- Littéral (Literal) - Correspond aux caractères exacts que vous avez spécifiés. Cette option est sensible à la casse.
- Chiffre (Digit) - Correspond à un chiffre.
- Un de (One of) - Correspond à un caractère unique présent dans l'ensemble.
- Pas un de (Not one of) - Correspond à un caractère unique absent de l'ensemble.
- N'importe quoi (Anything) - Correspond à n'importe quel caractère, à l'exception de
\n
. - N'importe quel caractère de mot (Any word character) - Correspond à toutes les lettres et tous les chiffres.
- Espace blanc (Whitespace) - Correspond à un espace blanc.
- Commence par (Starts with) - Lance la recherche là où la ligne commence.
- Se termine par (Ends with) - Lance la recherche là où la ligne se termine.
- Avancé (Advanced) - Nécessite une expression personnalisée.
- Email - Correspond à une adresse e-mail.
- URL - Correspond à une URL.
- Date US (US date) - Correspond au format de date US.
- Numéro de téléphone américain (US phone number) - Correspond au format du numéro de téléphone américain.
Remarque : vous trouverez plus d'informations sur les options d'expression régulière ici.
- Utilisez le champ Valeur Value pour écrire la valeur de l'expression régulière.
- Sélectionnez un quantificateur dans la liste déroulante Quantificateurs (Quantifiers).
1
.
Tout (0 ou plus) (Any (0 or more)) - Correspond à l'élément précédent zéro ou plusieurs fois, mais aussi peu de fois que possible.
Au moins un (1 ou plusieurs) (At least one (1 or more)) - Correspond à l'élément précédent une ou plusieurs fois.
Zéro ou un (Zero or one) - Correspond à l'élément précédent zéro ou une fois, mais aussi peu de fois que possible.
x
et y
fois, où x
et y
sont des entiers, mais aussi peu de fois que possible.
- Utilisez le bouton pour ajouter un champ RegEx supplémentaire. Déplacez les champs vers le haut et vers le bas dans la hiérarchie à l'aide des boutons et . Utilisez le bouton pour supprimer le champ.
- Cochez la case de l'option Capturer (Capture) si vous souhaitez extraire ce champ spécifique.
- Le champ Expression complète (Full Expression) affiche l'expression entière exactement comme vous l'avez personnalisée.
- Sélectionnez une ou plusieurs options dans la liste déroulante Options Regex (Regex Options).
- Cliquez sur le bouton Enregistrer (Save) une fois toutes vos configurations terminées pour quitter le mode Édition (Edit), puis cliquez à nouveau sur Enregistrer (Save) pour fermer l'assistant.