Guide de l'utilisateur des documents complexes et non structurés

Dernière mise à jour 24 nov. 2025

Configuration du modèle

Vue d'ensemble (Overview)

Vous pouvez configurer le LLM sous-jacent ainsi que ses paramètres dans l'option Configuration du modèle de l'onglet Créer.

Les paramètres disponibles sont les suivants :

Prétraitement intelligent :
- Aucun (None)
- Modèle de table - mini
- Modèle de table
Modèle d'extraction :
- GPT-4o
- Gemini
Options avancées :
- Attribution
- Température
- Premier p
- Amorçage
- Pénalité de fréquence
- Remplacement d’invite

Ajustez ces paramètres pour améliorer la précision des prédictions du modèle et améliorer ses performances.

Prétraitement intelligent

Les options de prétraitement intelligentes améliorent les performances de prédiction lorsque les documents sont difficiles à interpréter pour les modèles en raison d'un formatage complexe.

Cela inclut les options suivantes :

Aucun : cette option par défaut convient à la plupart des documents qui ne contiennent pas de contenu tabulaire.
Modèle de tableau – mini – Optimisé pour le contenu tabulaire et la latence. Cette option est la mieux adaptée aux documents contenant des tableaux simples ou multiples.
Modèle de tableau – Optimisé pour un contenu tabulaire plus complexe. Cette option est mieux adaptée aux documents contenant des tableaux imbriqués complexes, des tableaux avec des cellules fusionnées, des points à puces ou des tableaux s'étendant sur plusieurs pages.
Remarque :
- Bien que cela fonctionne mieux sur les tableaux complexes, cela augmente la latence des prédictions.
- Cette fonctionnalité s'appuie sur des modèles Gemini via AI Trust Layer.

Exemple de prétraitement intelligent

L’image suivante contient un exemple d’extraction interrogant le LLM sans utiliser le mode Modèle Table, dans lequel les valeurs de la colonne this period sont confondues avec celles de la colonne year to date.

L’image suivante contient un exemple d’extraction utilisant le mode Modèle de tableau, dans lequel les valeurs des deux colonnes this period et year to date sont extraites correctement.

Modèles d'extraction

L'option Modèle d'extraction représente le LLM sous-jacent utilisé pour l'extraction.

Les modèles disponibles sont les suivants :

GPT-4o
Gemini

Choisir le modèle le plus approprié

Différents modèles fonctionneront différemment selon les cas d'utilisation, mais il est recommandé d'utiliser Gemini dans la mesure du possible. Plusieurs autres fonctionnalités de pré-traitement et de post-traitement, qui contribuent à optimiser les performances et l'expérience utilisateur, sont également basées sur Gemini.

GPT-4o est limité à 50 pages et ne peut en traiter plus qu'à l'aide de la fonctionnalité d'appel itératif actuellement prévisualisée.

Gemini can process documents in IXP up to 500 pages in a single call, with higher page counts supported in preview. The Gemini limit may vary slightly based on the density of field values within the document. The Gemini model has an input limit of 500 pages by default, compared to the 50-page input limit of GPT-4o. Moreover, Gemini has a higher output context window, which allows it to handle more field values.

Basculer d'un modèle à un autre

Pour basculer d'un modèle à un autre, utilisez la liste déroulante de l'option Modèle d'extraction et sélectionnez Enregistrer. Cela déclenche la création d'une nouvelle version de projet et la génération automatique de nouvelles prédictions.

Important : pour les projets matures, les taxonomies, notamment les instructions et les prédictions confirmées, en particulier pour les champs déduits, sont généralement optimisées pour un type de modèle plutôt que l'autre. Il est probable qu'après le changement de modèle, les scores de performances puissent chuter, car il peut être nécessaire de modifier les instructions et de réexaminer les prédictions pour annuler les optimisations spécifiques au modèle qui peuvent avoir un impact sur les performances de l'autre modèle.

Si vous devez changer de modèle pour des raisons de performances, vérifiez d'abord si le modèle alternatif peut résoudre le problème de base que le modèle actuel ne peut pas résoudre. Si c'est le cas, optimisez le nouveau modèle pour améliorer les mesures de performances dans Measure.

Options avancées

Les options avancées vous permettent de personnaliser les paramètres de vos modèles, de sélectionner la méthode d'attribution à utiliser et d'utiliser la fonction de remplacement de requête.

Remarque : L'utilisation du remplacement de requête n'est recommandée que dans des cas exceptionnels.

Développez le paramètre pour afficher toutes les options disponibles :

Attribution : méthode utilisée pour attribuer des prédictions à la section ou au texte pertinent du document. Sélectionnez l'une des options suivantes :
- Basé sur des règles : utilise un ensemble complet de règles et d'heuristiques pour faire correspondre les segments corrects d'une page aux valeurs prédites du modèle. Il s'agit d'une option à faible latence, mais elle sacrifie les performances en matière d'attributions réussies par rapport à l'option basée sur un modèle.
- Basé sur un modèle – Utilise un appel LLM supplémentaire pour faire correspondre les valeurs prédites aux plages correctes de la page, car ces valeurs peuvent souvent être répétées dans différentes parties de la page. Il s'agit de l'option la plus performante en matière de réussite des attributions, mais elle ajoute une certaine latence aux prédictions. Cette option repose sur l'utilisation de modèles Gemini.
Température – La température d'échantillonnage à utiliser. Sélectionnez un nombre compris entre 0,0 et 2,0. Des valeurs plus élevées rendent la sortie plus aléatoire.
Top P – Échantillons uniquement à partir de jetons avec la masse de probabilité top_p. Sélectionnez un nombre entre 0,0 et 1,0.
Référence : si spécifié, les requêtes répétées avec la même référence et les mêmes paramètres doivent renvoyer le même résultat.
Pénalité de fréquence : sélectionnez un nombre compris entre -2,0 et 2,0. Les valeurs positives réduisent la probabilité que le modèle répète des jetons qui sont déjà apparus dans le texte.
Remplacement de requête : remplace la requête système par défaut par une nouvelle valeur. Cette option est désactivée par défaut. Une fois activées, les options Ajouter une requête d'instructions de tâche et Ajouter une requête d'instructions de champ sont activées pour la configuration.

Remarque : L'équipe UiPath® a étudié et optimisé les paramètres par défaut des modèles tels que Température, Top P et Fréquence. Vous n'avez donc pas besoin d'ajuster ces valeurs, sauf si vous connaissez les paramètres spécifiques dont vous avez besoin.

Sommaire de la page