ixp
latest
false
  • Vue d'ensemble (Overview)
    • Introduction
    • Extraire des données de documents non structurés
    • Créer et déployer des modèles
    • Quotas
  • Construction de modèles
    • Vue d'ensemble (Overview)
    • Gérer des projets
    • Téléversement d'exemples de documents​
    • Examen des prédictions
    • Valider les prédictions d'extraction
    • Configuration du modèle
  • Validation du modèle
  • Déploiement du modèle
  • API
  • Questions fréquemment posées
Important :
La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.
UiPath logo, featuring letters U and I in white

Guide de l'utilisateur des documents complexes et non structurés

Dernière mise à jour 16 mars 2026

Configuration du modèle

Vue d'ensemble (Overview)

Vous pouvez configurer le LLM sous-jacent ainsi que ses paramètres dans l'option Configuration du modèle de l'onglet Créer.

L'option Configuration du modèle dans l'onglet Créer.

Les paramètres disponibles sont les suivants :

  • Prétraitement intelligent :
    • Aucun (None)
    • Modèle de table - mini
    • Modèle de table
  • Modèle d'extraction :
    • GPT-4o
    • Gemini
  • Options avancées :
    • Attribution
    • Température
    • Premier p
    • Amorçage
    • Pénalité de fréquence
    • Remplacement d’invite

Ajustez ces paramètres pour améliorer la précision des prédictions du modèle et améliorer ses performances.

Prétraitement intelligent

Les options de prétraitement intelligentes améliorent les performances de prédiction lorsque les documents sont difficiles à interpréter pour les modèles en raison d'un formatage complexe.

Cela inclut les options suivantes :

  • Aucun : cette option par défaut convient à la plupart des documents qui ne contiennent pas de contenu tabulaire.
  • Modèle de table - mini : optimisé pour le contenu tabulaire et la latence. Cette option convient mieux aux documents avec des tables simples ou plusieurs tables.
  • Modèle de table : optimisé pour un contenu tabulaire plus complexe. Cette option convient mieux aux documents avec des tables imbriquées complexes, des tables avec des cellules fusionnées, des points à puce ou des tables s'étendant sur plusieurs pages.
    Remarque :
    • Bien que cela fonctionne mieux sur les tableaux complexes, cela augmente la latence des prédictions.
    • Cette fonctionnalité s'appuie sur des modèles Gemini via AI Trust Layer.

Exemple de prétraitement intelligent

L'image suivante contient un exemple d'extraction interrogeant LLM sans utiliser le mode de modèle Table , où les valeurs de la colonne this period sont confondues avec celles de la colonne year to date .

Un exemple d’extraction interrogant un LLM sans modèle de table.

L'image suivante contient un exemple d'extraction utilisant le mode Table , où les valeurs des deux colonnes, this period et year to date, sont correctement extraites.

Un exemple d’extraction interrogant un LLM sans modèle de table.

Modèles d'extraction

L'option Modèle d'extraction représente le LLM sous-jacent utilisé pour l'extraction.

Les modèles disponibles sont les suivants :

  • GPT-4o
  • Gemini

Choisir le modèle le plus approprié

Différents modèles fonctionneront différemment selon les cas d'utilisation, mais il est recommandé d'utiliser Gemini dans la mesure du possible. Plusieurs autres fonctionnalités de pré-traitement et de post-traitement, qui contribuent à optimiser les performances et l'expérience utilisateur, sont également basées sur Gemini.

GPT-4o a une restriction de 50 pages et peut uniquement en traiter plus à l'aide du processus d'appel itératif d'aperçu privé.

Gemini peut traiter des documents dans Extraction et traitement intelligents (IXP) jusqu'à 500 pages en un seul appel avec un nombre de pages plus élevé pris en charge dans l'aperçu.La limite Gemini peut varier légèrement en fonction de la densité des valeurs des champs dans le document. Le modèle Gemini a une limite d'entrée de 500 pages par défaut par comparaison avec la limite d'entrée de 50 pages de GPT-4o.En outre, Gemini dispose d'une fenêtre de contexte de sortie plus longue, ce qui lui permet de gérer plus de valeurs de champ.

Basculer d'un modèle à un autre

Pour basculer d'un modèle à un autre, utilisez la liste déroulante de l'option Modèle d'extraction et sélectionnez Enregistrer. Cela déclenche la création d'une nouvelle version de projet et la génération automatique de nouvelles prédictions.

Important :

Pour les projets expérimentés, les taxonomies, notamment les instructions, et les prédictions confirmées, en particulier pour les champs déduits, sont généralement optimisées pour un type de modèle sur l’autre. Il est probable qu'après le changement, les scores de performances diminuent, car une itération sur les instructions et une révision des prédictions peuvent être nécessaires pour annuler les optimisations spécifiques au modèle susceptibles d'avoir un impact sur les performances de l'autre modèle.

Si vous devez changer de modèle pour des raisons de performances, vérifiez d'abord si le modèle alternatif peut résoudre le problème de base que le modèle actuel ne peut pas résoudre. Si c'est le cas, optimisez le nouveau modèle pour améliorer les mesures de performances dans Measure.

Limites de traitement des documents

Dans la pratique, Extraction et traitement intelligents (IXP) peut extraire de manière fiable jusqu'à environ 1 200 valeurs de champ par document.

Cela signifie que si un document nécessite l'extraction de plus de 1 200 valeurs de champ, le modèle peut atteindre sa limite de jetons. Cela peut se produire même si le document est bien dans les limites de page répertoriées dans cette section. Les travaux de recherche et de développement sont en cours pour prendre en charge des limites de valeur de champ plus élevées dans les versions futures.

Si les limites de jetons sont dépassées, les prédictions peuvent être incomplètes ou vides quel que soit le nombre de pages. Par exemple, un document de 80 pages avec 1 400 valeurs de champ extraites peut déclencher un déclencheur de limite de jetons dans l'interface utilisateur.À Runtime / runtime, lorsque la limite de jetons est dépassée, la réponse de l'API l'affichera en renvoyant les valeurs de confiance d'occurrence et d'extraction de 0.

Si les limites de pages sont dépassées, seules les pages dans les limites spécifiées ci-dessous sont traitées. Ces deux comportements s'appliquent à la fois à Gemini et à GPT-4o.

Les limites de runtime incluent :

  • Nombre de pages par document:
    • Pour Gemini, jusqu'à 500 pages.
    • Pour GPT-4o, 50 pages et jusqu'à 150 pages à l'aide de la fonctionnalité d'aperçu privé itératif de l'appel.
  • Limites de jetons : les documents lourds de données avec plus de 200 extractions, tels que des tableaux de bord longs, atteindront probablement le jour de la limite de jetons. Si GPT4-o atteint sa limite, vous pouvez utiliser la fonctionnalité d’aperçu privé de l’appel itératif pour augmenter la sortie du champ. Gemini, cependant, a une limite de jetons de sortie plus élevée par défaut, de sorte que les deux modèles peuvent renvoyer des quantités similaires de valeurs de champ : Gemini dans un seul appel, et GPT via plusieurs appels.
    Remarque :

    Pour demander l'accès à la fonctionnalité d'aperçu privé de l'appel itératif, contactez votre gestionnaire de compte.

Options avancées

Les options avancées vous permettent de personnaliser les paramètres de vos modèles, de sélectionner la méthode d'attribution à utiliser et d'utiliser la fonction de remplacement de requête.

Remarque :

L'utilisation du remplacement d'invite n'est recommandée que dans les cas exceptionnels.

Développez le paramètre pour afficher toutes les options disponibles :

  • Attribution : la méthode utilisée pour attribuer les prédictions à la partie ou au texte pertinent dans le document. Sélectionnez l'une des options suivantes :
    • Basé sur des règles : utilise un ensemble étendu de règles et d'heuristiques pour faire correspondre les étendues correctes d'une page avec les valeurs prédites du modèle. Il s'agit d'une option à faible latence, mais qui capture les performances en termes d'attributions réussies par rapport à l'option basée sur un modèle.
    • Basé sur le modèle : utilise un appel LLM supplémentaire pour faire correspondre avec succès les valeurs prédites aux étendues correctes de la page, car ces valeurs peuvent souvent être répétées dans différentes parties de la page. Il s'agit de l'option la plus performante en termes d'attributions réussies, mais elle ajoute une latence aux prédictions. Cette option repose sur l'utilisation de modèles Gemini.
  • Température : la température d’échantillonnage à utiliser. Sélectionnez un nombre compris entre 0,0 et 2,0. Des valeurs plus élevées rendent la sortie plus aléatoire.
  • Top P : échantillon uniquement à partir de jetons avec la masse de probabilité de top_p . Sélectionnez un nombre compris entre 0,0 et 1,0.
  • Référence : si spécifié, les requêtes répétées avec la même référence et les mêmes paramètres doivent renvoyer le même résultat​.
  • Pénalité de fréquence : sélectionnez un nombre compris entre −2,0 et 2,0. Les valeurs positives réduisent la probabilité que le modèle répète des jetons qui sont déjà apparus dans le texte.
  • Remplacement d’invite : remplace l’invite système par défaut par une nouvelle valeur. Cette option est désactivée par défaut. Une fois activées, les options Ajouter des instructions de tâche et les options de l’invite Ajouter des instructions de champ sont activées pour la configuration.
    Remarque :

    L’équipe UiPath® a recherché et optimisé les valeurs par défaut pour les paramètres de modèle tels que Température, Top P et Fréquence. Par conséquent, vous n'avez pas besoin d'ajuster ces valeurs, sauf si vous savez les paramètres spécifiques dont vous avez besoin.

  • Vue d'ensemble (Overview)
  • Prétraitement intelligent
  • Exemple de prétraitement intelligent
  • Modèles d'extraction
  • Options avancées

Cette page vous a-t-elle été utile ?

Connecter

Besoin d'aide ? Assistance

Vous souhaitez apprendre ? UiPath Academy

Vous avez des questions ? UiPath Forum

Rester à jour