- Vue d'ensemble (Overview)
- Construction de modèles
- Validation du modèle
- Vue d'ensemble (Overview)
- Évaluer les performances du modèle
- Collecte de statistiques de validation
- Itération sur la taxonomie
- Déploiement du modèle
- API
- Questions fréquemment posées

Guide de l'utilisateur des documents complexes et non structurés
Évaluer les performances du modèle
Vous pouvez évaluer les performances du modèle aux emplacements suivants :
- L’onglet Construire, qui affiche le score global du projet, ainsi que le taux d’erreur de chaque document.
- L’onglet Mesurer, qui affiche les performances au niveau du groupe de champs et du champ.
Évaluation des performances du modèle dans Construire
Vous pouvez afficher une note globale sous le Score du projet dans l’onglet Construire.
- Les modèles sains ont un score de projet Bon ou Excellent et ne génèrent aucun avertissement de performance du champ.
- La note du projet est calculée en fonction de la note moyenne F1 de tous les champs.

En outre, vous pouvez consulter le taux d’erreur de chaque document dans la colonne Taux d’erreur de la section Documents dans Construire.
Les taux d’erreur sont uniquement disponibles pour les documents annotés et indiquent le nombre d’erreurs que le modèle a fait sur chaque document, c’est-à-dire la différence entre les prédictions du modèle et les annotations de l’utilisateur.

Évaluation des performances du modèle dans Mesurer
The Measure page updates are available in public preview.
La page Mesurer vous aide à évaluer les performances d’un modèle sur des documents annotés avant de les publier. La page comprend :
- Un tableau des performances de champ qui affiche les principales mesures de performance par champ et par groupe de champs.
- Prise en charge de la comparaison des différences de performances entre les versions de modèle, en mettant en évidence les améliorations ou les régressions.
- Visibilité dans la distribution des types d'erreur pour chaque champ de taxonomie.
- Capacités d’exportation de données pour une analyse hors ligne personnalisée.
Les sections suivantes décrivent les principaux composants de Mesurer et expliquent comment les utiliser efficacement lorsque vous analysez les performances du modèle.
Résumé du projet
La section Résumé fournit une vue rapide et de haut niveau des performances de votre version de modèle actuelle au cours du projet. Vous pouvez l’utiliser pour :
- Sélectionnez la version du modèle que vous souhaitez évaluer.
- Obtenez une vue d’ensemble des performances globales en utilisant la note du projet et le score moyen. taux d’erreur du document.
- Déterminez rapidement si les performances globales du projet sont à la hausse ou à la baisse lorsque vous les comparez à une version précédente.

Score du projet
Le score du projet résume les performances globales du modèle.
Pourquoi est-ce utile ?
- Fournit un moyen unique et cohérent de suivre la progression globale au fur et à mesure que vous itérez la taxonomie, les instructions et les annotations.
- Vous aide à déterminer rapidement si une version de modèle s’améliore ou régresse ) avant d’explorer des champs spécifiques.
Comment il est calculé
- Le score du projet est calculé comme la moyenne simple des scores F1 dans tous les champs de la taxonomie.
- Le score F1 est une mesure de performance de modèle standard qui équilibre la précision et le rappel, c’est-à-dire la moyenne équivoque des deux.
- À un niveau élevé :
- Réponses de précision : à quelle fréquence les valeurs prédites du modèle ont-elles été correctes ?
- Rappel des réponses : Quelle quantité de données annotées le modèle a-t-il réussi à trouver ?
Le score du projet est une moyenne. Les régressions ou limitations spécifiques au niveau du champ peuvent être examinées avec le tableau Performances du champ.
Moy taux d’erreur du document
Le nombre moy. le taux d’erreur doc est la moyenne des taux d’erreur pour chaque document annoté dans le projet.
Pourquoi est-ce utile ?
Le nombre moy. le taux d’erreur du document fournit un indicateur rapide de la façon dont les documents sont sujets aux erreurs lorsque la version de modèle sélectionnée les traite, ce qui permet d’évaluer la disponibilité à publier.
Comment il est calculé
La valeur est calculée comme la moyenne simple du taux d’erreur de chaque document entièrement annoté dans le projet.
Tableau des performances des champs
La table Performances du champ est le principal moyen d’analyser les performances du modèle sur la page Mesurer . Il affiche une ligne par champ ou groupe de champs, ainsi que les mesures de performances et d’erreur calculées sur les documents annotés du projet. La table ne prend pas en compte les documents non annotés et partiellement annotés lors du calcul des mesures.

Le tableau permet de répondre à des questions telles que :
- Quels champs limitent les performances globales du modèle ?
- Les erreurs sont-elles concentrées dans quelques champs ou globalement ?
- Un changement de modèle récent a-t-il amélioré ou dégradé certains champs ?
Le tableau Performances des champs comprend plusieurs catégories de mesures qui vous aident à analyser les performances du modèle à partir de différents points de vue. Chaque catégorie répond à une question de diagnostic spécifique sur le comportement de votre modèle entre les champs et les documents.
Statut de validation et résultats partiels Pour réduire le temps d'attente :
- Les mesures de performances des champs deviennent visibles une fois que la validation atteint un seuil de complétion minimum.
- Les avertissements indiquent lorsque la validation est toujours en cours et que les résultats affichés peuvent changer.
Performance metrics
Le but des mesures de performances est d’évaluer la qualité globale de l’extraction pour chaque champ ou groupe de champs.
Les indicateurs de performances sont décrits comme suit :
- Score F1 — La méthode nominale de précision et de rappel : F1 = 2 = (Précision = Rappel) / (Précision + Rappel). Le score F1 ne reste élevé que lorsque la précision et le rappel sont élevés. En pratique, cela fait de F1 un excellent indicateur de qualité globale pour les tâches d'extraction où vous veillez à éviter les valeurs incorrectes et à éviter les valeurs manquantes. Par conséquent, F1 est une première mesure utile à examiner pour analyser les changements de performances de champ entre les versions de modèle.
- Précision — Mesure à quel point les valeurs prédites sont correctes : Précision = Vrai positifs + (Vrai positifs + Faux positifs). Les vrais positifs sont des prédictions qui correspondent à la valeur annotée, excluant les valeurs annotées comme manquantes.
- Rappel — Mesure à quelle fréquence le modèle trouve une valeur lorsqu'elle existe : Rappel = Vrai positifs / (Vrai positifs + Faux négatifs). Les faux négatifs sont des valeurs annotées que le modèle n’a pas prédites, excluant les valeurs annotées comme manquantes.
- Taux d’erreur — Total des erreurs / Total des annotations. Les valeurs marquées comme manquantes sont incluses dans le nombre d’erreurs et d’annotations.
- Taux d’erreur (exclure les erreurs manquantes) — (Nombre total d’erreurs – Prédictions supplémentaires)/Valeurs annotées. Les valeurs annotées marquées comme manquantes sont exclues.
Prédictions et erreurs
Le but des prédictions et des mesures d’erreurs est de comprendre le volume et la proportion d’erreurs qui contribuent à produire des performances médiocres.
Les mesures sont décrites comme suit :
- Erreurs totales — Nombre total d'erreurs pour un champ dans toutes les classes d'erreurs : Erreurs totales = Prédictions incorrectes+Prédictions manquantes + Prédictions supplémentaires.
- Total des prédictions : nombre total de valeurs prédites pour un champ : Total des prédictions = Valeurs correctes + Corrections manquantes + Prédictions incorrectes.
- Prédictions incorrectes : le nombre de prédictions pour lesquelles la valeur extraite ne correspond pas à l'annotation. Exclut les prédictions et les valeurs annotées marquées comme manquantes.
- Prédictions supplémentaires : le nombre de valeurs prédites que le modèle n'a pas dû extraire, ou bien une annotation correspondante n'a pas été marquée comme manquante.
- Prédictions manquantes : nombre de valeurs annotées que le modèle n’a pas pu extraire.
- Valeurs correctes : le nombre de valeurs prévues qui correspondent exactement à l’annotation.
- Correction manquante : nombre d'instances où le modèle a correctement prédit qu'une valeur est manquante.
Annotations
Le but des annotations est de fournir un contexte sur la quantité de données labellisées qui prennent en charge chaque métrique et la fiabilité des scores de performance.
Les mesures sont décrites comme suit :
- Total des annotations : nombre total d'annotations, y compris des valeurs marquées comme manquantes : Total des annotations = Valeurs annotées + Valeurs annotées marquées comme manquantes.
- Valeurs annotées : le nombre total de valeurs de champ annotées, à l’exclusion de celles marquées comme manquantes.
- Annoté comme manquant : le nombre total de fois où un champ a été explicitement marqué comme manquant.
Mesures au niveau du document
Le but des mesures au niveau des documents est de comprendre comment les erreurs sont réparties entre les documents et non uniquement entre les prédictions.
Les mesures sont décrites comme suit :
- Documents avec des erreurs : le nombre total de documents dans lesquels le champ comporte au moins une erreur.
- Documents annotés : le nombre total de documents dans lesquels le champ a au moins une valeur de champ annotée.
- Pourcentage de documents avec des erreurs : pourcentage de documents annotés qui contiennent au moins une erreur pour le champ : Documents avec des erreurs / Documents annotés.
Exemples de scénarios
Scénario 1 : F1 faible + Précision faible, mais le rappel est modéré ou élevé
Ce que vous observez
F1 est faible, la précision est faible et le rappel est modéré ou élevé.
Ce que cela signifie généralement
- Le modèle extrait des valeurs pour un champ, mais il y a plus de valeurs prédites que vous ne le pensez.
- Causes profondes courantes :
- L'instruction du champ est trop étendue ou ambigu. Par exemple, l'instruction de champ capture le montant, mais ne spécifie pas quel montant.
- Le document a des valeurs similaires qui peuvent être confondues les unes avec les autres, par exemple : sous-total par rapport au total, livraison à la facture.
Et ensuite
Comparez les prédictions incorrectes et supplémentaires pour identifier si le problème est lié à l'extraction de la mauvaise valeur ou si la valeur n'a pas du tout été extraite (nombre de prédictions supplémentaires non zéro).
Simplifiez les instructions de champ à l'aide de réviseurs, tels que des libellés, des mots-clés et des contraintes de formatage.
Scénario 2 : prédictions élevées avortées (le rappel est faible), la précision est modéré ou élevée
Ce que vous observez
- Le rappel est faible et la précision est modéré ou élevée (F1 est généralement faible ou modéré).
- Le nombre de prédictions manquantes est élevé, souvent plus qu'un nombre incorrect ou supplémentaire.
Ce que cela signifie généralement
- Le modèle ne parvient pas à extraire les valeurs présentes.
- Causes profondes courantes :
- Les instructions de champ sont trop étroites, ce qui signifie des exemples surlimités ou des exigences de libellé trop spécifiques.
- La valeur apparaît dans plusieurs formats, tels que des dates et des identifiants, et l'instruction ne couvre pas les variantes.
Et ensuite
- Utilisez Prédictions manquantes + Valeurs annotées pour confirmer qu’il s’agit d’un problème de rappel, c’est-à-dire que les valeurs existent mais sont introuvables. Vérifiez les valeurs annotées pour confirmer qu’il existe un nombre raisonnable de points de données annotés pour le champ et les prédictions manquantes pour confirmer que le modèle a du mal à trouver des valeurs au lieu de les prédire de manière incorrecte.
- Développez les instructions pour inclure des variantes acceptables : libellés alternatifs ou synonymes, plusieurs modèles de formatage, conseils de localisation (par exemple, près des détails du demandeur ou sous la section de l'emprunteur).
Scénario 3 : taux d’erreur élevé mais faible nombre de documents avec des erreurs (erreurs consolidées dans quelques documents)
Ce que vous observez
- Le taux d’erreur est élevé ou le nombre total d’erreurs est élevé.
- Le nombre de documents présentant des erreurs est faible par rapport aux documents annotés.
- Souvent, un champ semble incorrect, mais n’échoue que sur un petit sous-ensemble de documents.
Ce que cela signifie généralement
- Les erreurs sont générées par des documents particuliers, et non par un comportement de champ systématique.
- Causes profondes courantes :
- Un document ou un format spécifique se comporte différemment des autres.
- des problèmes d’OCR ou de qualité dans un petit nombre de documents, tels que des scanners flous, des biais et des superpositions manuscrites.
- Le champ est présent dans la plupart des documents mais il est rarement formaté dans quelques-uns, par exemple en mode multiligne ou unique.
Et ensuite
- Comparez les documents avec des erreurs et les documents annotés, et éventuellement le % de documents avec des erreurs, pour confirmer la contenu.
- Triez les documents par Taux d’erreur sur la page Générer et inspectez les documents avec le taux d’erreur le plus élevé pour identifier si le champ fonctionne mal sur un sous-ensemble spécifique.
Scénario 4 : variations importantes des performances entre les versions avec peu d’annotations
Ce que vous observez
- De grandes différences au niveau du F1 ou du taux d’erreur entre les versions du modèle, mais les valeurs annotées sont faibles, les documents annotés sont faibles, ou les deux.
Ce que cela signifie généralement
- Les mesures de champ ne sont pas encore stables en raison de la petite taille d’échantillon.
- Causes profondes courantes :
- Pas suffisamment d’exemples — 1 à 2 documents peuvent modifier considérablement les taux.
- Le champ est rarement présent, c'est-à-dire que de nombreux cas sont manquants et que peu de valeurs sont réelles.
- Plusieurs documents difficiles contrôlent la mesure.
Et ensuite
- Vérifiez les valeurs annotées, les documents annotés et annotés comme manquants pour valider la faible couverture.
- Traitez les mesures comme directionnelles, et non définitifs, jusqu'à ce que la couverture augmente.
- Ajoutez plus de données labellisées spécifiquement pour ce champ : hiérarchisez les documents dans lesquels le champ est présent et incluez un ensemble diversifié d’échantillons ou de variantes.
- Utilisez les comparaisons de version uniquement après que la couverture est suffisante pour réduire le bruit généré par la variabilité.
Filtrage et tri
Pour filtrer les lignes du tableau, sélectionnez un ou plusieurs des filtres rapides disponibles :
- Valeurs annotées <10
- Score F1 du champ < 50
- Score F1 du champ entre 50 et 70
The following images depict an example of the Field performance table results before and after you apply a quick filter:

You can also sort the Field performance table by any metric in the table. When a sort is applied, values are sorted within their respective field group. For example, sorting the table by F1 score sorts the fields within each field group relative to one another:

Paramètres de visibilité
Par défaut, Mesurer affiche les différences pour les mesures de performances, par exemple, le score F1 et le taux d’erreur.
Pour afficher les différences entre toutes les mesures, procédez comme suit :
-
Activez le bouton Afficher les différences dans les scores de : Version .
-
Sélectionnez la liste déroulante Afficher les différences dans les scores de : Version .

-
Sélectionnez Paramètres de visibilité.
-
Dans la fenêtre contextuelle Changements de version - paramètres de visibilité , sélectionnez Toutes les mesures. Les options disponibles sont les suivantes :
- Mesures de performances uniquement : les mesures de performances sont déterminées par les prédictions du modèle comparées aux annotations, telles que le score F1 et le taux d’erreur.
- Toutes les mesures
- Afficher les modifications à l’intérieur de la variabilité du modèle : par défaut, les modifications apportées aux plages de variabilité de la version actuelle ne sont pas considérées comme importantes et sont masquées. Activer pour les afficher. Lorsqu'il est sélectionné, l'option suivante devient disponible :
- Afficher les couleurs pour toutes les modifications — Par défaut, les modifications dans la plage de variabilité sont affichées en gris. Activez la couleur de toutes les modifications en vert ou en rouge.
-
Sélectionnez Enregistrer.
Versions de modèles
Les versions du modèle capturent l'état actuel du projet au moment où la version a été créée. Vous pouvez publier des versions de modèle pour les enregistrer et les utiliser dans une automatisation. Par ailleurs, vous pouvez marquer les versions sur la page Mesurer afin d’enregistrer leurs statistiques de performances. Vous pouvez comparer les performances actuelles par rapport aux versions précédentes pour assurer une amélioration continue des performances pendant l’itération sur les instructions.
Sélectionner une version de modèle
Utilisez la liste déroulante Version pour choisir les résultats de validation d’une version de modèle spécifique qui s’affichent sur la page Mesurer , par exemple Performances des champs, Performances des documents, ainsi que les mesures associées. Lorsque vous changez de version de modèle, toutes les mesures de la page seront mises à jour pour refléter les résultats de validation de la version sélectionnée.

Comparaison des différentes versions de modèle à l’aide des différences de score
Lorsque plusieurs versions de modèle sont disponibles, la page Mesurer vous permet de comparer le modèle actuel par rapport à une version précédente. De cette façon, vous pouvez mieux comprendre l’impact des modifications apportées aux instructions de champ, des modifications aux annotations ou des mises à jour de la configuration du modèle.
Mode de fonctionnement
- Mesurer vous permet d’afficher les différences de score à partir d’une autre version de modèle.
- Les changements positifs ou négatifs mettent en évidence les améliorations ou les régressions. Par défaut, Mesurer effectue des comparaisons par rapport à la version précédente du modèle par rapport à la version du modèle la plus récemment créée.
Pour comparer une version de modèle différente, sélectionnez une version disponible à l'aide de la liste déroulante Afficher les différences dans les scores de la version déroulante.

Comprendre la variabilité du modèle et l’impact sur les différences de score
Certains modèles d’IXP sont non déterministes, ce qui signifie que l’ensemble de prédictions d’un champ entre les versions de modèle peut varier légèrement, même lorsque les instructions de ce champ restent inchangées.
La page Mesurer vous permet de prendre en compte la variabilité du modèle lors de l’analyse des performances. Cela vous aide :
- Comprendre si un changement de performance est significatif.
- Évitez de surinterpréter les petites variations de mesure.
Par défaut :
- Les différences de score qui se situent dans la plage de variabilité d’une mesure sont masquées lors de la comparaison de deux versions de modèle.
- Vous pouvez choisir d'afficher toutes les différences de score ou uniquement les différences supérieures ou égales à la variabilité d'une mesure.
Ces valeurs par défaut garantissent que l'attention est axée sur les changements significatifs dans les performances du modèle, et pas sur le bruit.
Pour afficher les différences entre les versions de modèle quelle que soit la variabilité du modèle, procédez comme suit :
- Activez le bouton Afficher les différences dans les scores de : Version .
- Sélectionnez la liste déroulante Afficher les différences dans les scores de : Version .
- Sélectionnez Paramètres de visibilité.
- Dans la fenêtre contextuelle, sélectionnez Afficher les modifications à l'intérieur de la variabilité du modèle. Les options disponibles sont les suivantes :
- Mesures de performances uniquement : les mesures de performances sont déterminées par les prédictions du modèle comparées aux annotations, telles que le score F1 et le taux d’erreur.
- Toutes les mesures
- Afficher les modifications à l’intérieur de la variabilité du modèle : par défaut, les modifications apportées aux plages de variabilité de la version actuelle ne sont pas considérées comme importantes et sont masquées. Activer pour les afficher. Lorsqu'il est sélectionné, l'option suivante devient disponible :
- Afficher les couleurs pour toutes les modifications — Par défaut, les modifications dans la plage de variabilité sont affichées en gris. Activez la couleur de toutes les modifications en vert ou en rouge.
- Vous pouvez également sélectionner Afficher les couleurs pour toutes les différences si vous souhaitez que toutes les différences de score apparaissent en vert ou en rouge. Par défaut, les différences dans la plage de variabilité sont affichées en gris.
- Sélectionnez Enregistrer.
Épinglage d'une version de modèle
Une nouvelle version de modèle est créée chaque fois que vous apportez des modifications à votre taxonomie, y compris des instructions, ou aux paramètres du modèle. La dernière version du modèle est toujours disponible, mais vous pouvez également ajouter à la fois une version de modèle spécifique pour toujours afficher les statistiques de performances sur le tableau de bord.
Pour épingler une version de modèle, procédez comme suit :
- Développez le menu déroulant Version du modèle pour afficher la liste de toutes les versions disponibles.
- Sélectionnez l'icône en étoile en regard de la version du modèle que vous souhaitez toujours afficher en haut de la liste et sur le tableau de bord.
Le démarrage d'une version de modèle n'enregistre pas la version du modèle elle-même, mais uniquement les statistiques de performances. Pour enregistrer une version de modèle, celle-ci doit être publiée dans l'onglet Publier .

Exporter des données de mesure
Vous pouvez exporter des données à partir de la page Mesurer pour :
- Analyse hors ligne.
- Filtrage personnalisé.
- Partager les résultats avec les parties prenantes.
Les exportations incluent des prédictions au niveau du champ, des annotations et des métriques de performances visibles sur la page Mesurer .
Pour exporter des données, procédez comme suit :
- Accédez à la page Mesurer .
- Sélectionnez l'ellipse verticale.
- Sélectionnez Exporter au format Excel.

- Évaluation des performances du modèle dans Construire
- Évaluation des performances du modèle dans Mesurer
- Résumé du projet
- Tableau des performances des champs
- Versions de modèles
- Sélectionner une version de modèle
- Comparaison des différentes versions de modèle à l’aide des différences de score
- Épinglage d'une version de modèle
- Exporter des données de mesure