document-understanding

latest

false

Notes de publication de Document Understanding
Notes de version des paquets ML et des points de terminaison publics
- Mises à jour générales des paquets ML et des points de terminaison publics
- Historique des versions des paquets ML et des points de terminaison publics

Important :

La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

Notes de publication de Document Understanding

PRODUIT :

Dernière mise à jour 24 févr. 2026

Historique des versions des paquets ML et des points de terminaison publics

v25.2.2

UiPath Document Understanding OCR

Date de publication : 6 août 2025

Publié dans l’OCR et les points de terminaison UiPath Document Understanding | v25.2.2

Résolution de bogues

Nous avons corrigé un problème qui amenait le modèle à détecter à tort plusieurs zones de texte dans les images avec un arrière-plan bruité.

Améliorations

Nous avons amélioré la détection de l'écriture manuscrite dans certains formulaires pour les champs liés aux dates qui incluent les jours, les mois et les années. Le modèle précédent regroupait parfois ces champs dans un seul mot, ce qui diminuait les performances de détection.

v25.2.0

UiPath Document Understanding OCR

Date de publication : 11 février 2025

Publié dans l’OCR et les points de terminaison UiPath Document Understanding | v25.2.0

Errata

Ajouté le 20 février 2025

Remarque : les nouvelles fonctionnalités annoncées précédemment, telles que la prise en charge des cases cerclées, soulignées et barrées, ne sont pas encore disponibles.

Améliorations

Avec cette nouvelle version, vous pouvez vous attendre à une amélioration des performances de reconnaissance de l’écriture manuscrite dans vos documents.

La fonctionnalité de détection des cases à cocher a également été améliorée.

La latence est réduite pour les ensembles de données de toutes tailles.

v24.11.3

UiPath Document Understanding OCR

Date de publication : 27 novembre 2024

Publié dans l'OCR et les points de terminaison UiPath Document Understanding | v24.11.3

Améliorations

Dans cette version, nous avons amélioré la précision et les performances de différents types de texte. Cela inclut le texte imprimé sur des images très grandes ou à faible résolution, ainsi que le texte manuscrit.

La reconnaissance des cases à cocher, en particulier celles représentées par des carrés ou des rectangles entièrement noirs, est considérablement améliorée. Par ailleurs, nous avons également affiné la détection des signatures.

v24.10.3

Extraction de données

Date de publication : 27 mai 2025

Publié dans Paquet ML d’extraction de données | v24.10.3

Remarque : Erratum – ajouté le 24 juin 2025 : les améliorations et les correctifs inclus dans la version v24.10.3 ont été annulés en raison de problèmes imprévus. Pour obtenir les dernières informations et mises à jour, consultez nos notes de publication.

Améliorations

Nous avons amélioré l’analyse des nombres pour mieux gérer les nombres lorsque les espaces sont utilisés soit comme décorateurs, soit comme séparateurs décimaux.
Nous avons amélioré l’analyse des dates pour prendre en charge les dates en langue malaise.

Résolution de bogues

Nous avons résolu des problèmes qui perturbait l’ordre des mots dans les valeurs extraites des champs standards.
Nous avons résolu un problème qui bloquait l’extraction du texte japonais dans les documents orientés en paysage.

v24.9.1

UiPath Document Understanding OCR

Date de publication : 3 octobre 2024

Publié dans UiPath Document Understanding OCR et les points de terminaison | v24.9.1

Améliorations

Cette version apporte des améliorations de la précision et des performances pour la reconnaissance de l'écriture manuscrite.

v24.7

UiPath Document OCR

Date de publication : 23 juillet 2024

Publié dans l’OCR et les points de terminaison UiPath Document Understanding (y compris UiPath Document Understanding OCR_CPU) | v24.7

Améliorations

La précision de la langue azerbaïdjanaise a été améliorée grâce à l’ajout de la reconnaissance des caractères əƏ.
La reconnaissance et la détection de Reconnaissance des caractères à l’encre magnétique (MIRC) ont été améliorées, ce qui permet une précision améliorée, en particulier pour les chèques.
Les nombres n’étaient pas auparavant pas reconnus dans certaines cas lorsqu’une espace était utilisée en tant que séparateur. Ceci a été amélioré et les nombres sont désormais reconnus lorsqu’une espace est utilisée comme séparateur.

Résolution de bogues

Le score de confiance de l’OCR UiPath Document Understanding a été amélioré, en particulier lorsqu’il est utilisé avec des images de qualité médiocre. Pour les workflows où le score de confiance est utilisé afin de décider si les documents nécessitent une validation humaine dans Action Center, cette amélioration peut entraîner une augmentation du nombre de documents devant passer par une phase de validation.

v24.4.4

Extraction de données

Date de publication : 3 octobre 2024

Publié dans les paquets ML d'extraction de données | v24.4.4

Résolution de bogues

Nous avons corrigé un problème qui faisait que les pipelines d'entraînement AI Center signalaient des scores élevés inexacts pour les types de champ ID Number et Phone Number. Cela garantit que les scores rapportés correspondent aux scores réels.
Nous avons corrigé un problème lié à l'analyse des valeurs des champs japonais lorsque l'outil Extended Languages OCR était utilisé.

v24.4.3

DocumentUnderstanding et Extraction de données

Date de publication : 14 août 2024

Publié dans les paquets ML Points de terminaison + Document Understanding + Extraction de données | v24.4.3

Améliorations

Amélioration du formatage du texte de champ pour le chinois, le japonais et le coréen lors de l'utilisation de l'outil de reconnaissance optique de caractères UiPath® Extended Languages OCR dans l'étape de numérisation.

v24.4.2

FacturesInde et points de terminaison

Date de publication : 23 juillet 2024

Publié dans les points de terminaison et le paquet ML FacturesInde | v24.4.2

Résolution de bogues

Nous avons résolu un problème qui était lié à l’analyse des nombres dans les factures pour l’Inde.

v24.4.1

DocumentUnderstanding, InvoicesJapan et points de terminaison

Date de publication : 20 juin 2024

Publié dans le paquet ML Points de terminaison + DocumentUnderstanding + InvoicesJapan | v24.4.1

Résolution de bogues

Nous avons résolu un problème lié aux dates dans les champs de colonne spécifiquement pour le japonais.

v24.4.0

DocumentClassifier et extraction de données

Date de publication : 24 mai 2024

Publié dans :

Paquets ML DocumentUnderstanding + Extraction de données | v24.4.0
Paquets ML Classifieur de documents | v24.4.0

Nouveautés

Les nouveaux paquets ML suivants sont désormais en aperçu public :

Améliorations

Cette version apporte également des améliorations à plusieurs autres paquets ML :

La précision du paquet ML Factures Japon a été améliorée. Le modèle Factures Japon comprend également 11 nouveaux champs. Pour obtenir la liste complète des champs extraits, consultez le fichier Détails des modèles prêts à l’emploi.
Les performances du modèle Fiches de paie ont été améliorées.
De nouveaux identifiants sont disponibles pour le paquet ML Cartes d’identité :
- Cartes d’identité Aadhaar
- Cartes d’identité Arabie Saoudite
- Cartes PAN
De nouveaux champs sont disponibles pour le paquet ML UB04. Pour obtenir la liste complète des champs extraits, consultez le fichier Détails des modèles prêts à l’emploi.
De nouveaux champs sont disponibles pour le paquet ML Chèques. Pour obtenir la liste complète des champs extraits, consultez le fichier Détails des modèles prêts à l’emploi.

Erratum - ajouté le 20 juin 2024 : ajout d’informations concernant une résolution de bogue liée à l’analyse des dates en japonais.

Erratum - ajouté le 28 mai 2024 : ajout d’informations concernant plusieurs améliorations.

v24.3.2

Points de terminaison DocumentUnderstandingOCR

Date de publication : 13 mars 2024

Publié dans les Points de terminaison OCRDocumentUnderstanding | v24.3.2

Une nouvelle version de l’outil de reconnaissance optique de caractères Document Understanding OCR est désormais disponible pour un usage général.

Cette version apporte les améliorations suivantes :

Le niveau de précision a été amélioré pour la langue turque (TUR). Les performances ont été améliorées pour les caractères comportant des signes diacritiques (tels que Ç, ç, Ğ, ğ, I, ı, İ, i, Ş, ş, Ö, ö, Ü, ü).
La précision des chiffres arabes orientaux (٠, ١, ٢, ٣, ٤, ٥, ٦, ٧, ٨, ٩) a été améliorée.

v24.2.1

Points de terminaison DocumentUnderstandingOCR

Date de publication : 9 février 2024

Publié dans les Points de terminaison de OCRDocumentUnderstanding | v24.2.1

Nous sommes ravis d’annoncer que la prise en charge de l’arabe (ARN) pour l’OCR d’UiPath Document Understanding est désormais en aperçu public.

v24.2.0

Extraction de données

Date de publication : 1 avril 2024

Publié dans les paquets ML d’extraction de données | v24.2.0

Cette version prend en charge les nouveaux modèles disponibles en aperçu public :

Annexe C du formulaire 1040
Annexe D du formulaire 1040
Annexe E du formulaire 1040
UB04

Document Classifier

Date de publication : 4 mars 2024

Publié dans les Paquets ML de ClassifieurDocuments | v24.2.0

Cette version prend en charge les nouveaux modèles disponibles en aperçu public :

Annexe C du formulaire 1040
Annexe D du formulaire 1040
Annexe E du formulaire 1040
UB04

v23.10.5

UiPath Document Understanding OCR

Date de publication : 15 octobre 2024

Publié dans l'OCR et les points de terminaison UiPath Document Understanding | v23.10.5

Améliorations

Cette version apporte des améliorations de la précision et des performances pour la reconnaissance de l'écriture manuscrite.

Résolution de bogues

Nous avons résolu un problème où les zones d'annotation étaient renvoyées horizontalement, même si certains documents étaient légèrement de travers, ce qui provoquait un problème d'alignement de l'annotation.

v23.10.4

Extraction de données

Date de publication : 28 mars 2024

Publié dans les paquets ML d’extraction de données | v23.10.4

Une nouvelle version pour les paquets ML pré-entraînés prêts à l'emploi est désormais disponible pour un usage général.

Cette version apporte les améliorations suivantes :

Le niveau de précision a été amélioré pour la langue turque (TUR). Les performances ont été améliorées pour les caractères comportant des signes diacritiques (tels que Ç, ç, Ğ, ğ, I, ı, İ, i, Ş, ş, Ö, ö, Ü, ü).
La précision des chiffres arabes orientaux (٠, ١, ٢, ٣, ٤, ٥, ٦, ٧, ٨, ٩) a été améliorée.
La précision des ensembles de données de moins de 400 pages a été améliorée.

v23.10.3

DocumentUnderstanding, extraction de données et points de terminaison

Date de publication : 12 février 2024

Publié dans les Points de terminaison + DocumentUnderstanding + les paquets ML Extraction de données | v23.10.3

Une nouvelle version pour tous les paquets ML pré-entraînés prêts à l’emploi d’AI Center est désormais disponible pour un usage général.

Cette nouvelle version apporte une correction de bug liée à l’extraction des valeurs de texte bidirectionnelles (de gauche à droite et de droite à gauche).

Remarque : actuellement, notre plate-forme ne dispose pas de localisation pour les langues écrites de droite à gauche (telles que l’hébreu ou l’arabe). Par conséquent, lorsqu'il est combiné à des signes de ponctuation ou à des caractères spéciaux, le texte dans ces langues qui apparaît dans l’interface d’annotation (Document Manager) ou l’interface de validation (Station de validation dans Action Center) ne s’affiche pas correctement. En revanche, si les valeurs des chaînes sont saisies dans une application dont le mode de lecture de droite à gauche est activé, le texte devrait s’afficher correctement. Un exemple typique est le Bloc-notes, où l’ordre de lecture de droite à gauche est activé.

v23.10.2

DocumentUnderstanding et Extraction de données

Date de publication : 23 janvier 2024

Publié dans les paquets ML DocumentUnderstanding + Extraction de données | v23.10.2

Une nouvelle version pour tous les paquets ML pré-entraînés prêts à l'emploi est désormais disponible pour un usage général.

Cette version corrige un bogue qui entraînait occasionnellement l’échec de l’entraînement.

v23.10.0

DocumentUnderstanding, extraction de données et points de terminaison

Date de publication : 26 octobre 2023

Publié dans les paquets ML Points de terminaison + Document Understanding + Extraction de données | v23.10.0

Une nouvelle version pour tous les paquets ML pré-entraînés prêts à l'emploi est désormais disponible pour un usage général.

Nous travaillons constamment pour améliorer votre expérience Document Understanding. Pour cette version, nous avons fait en sorte d'apporter des améliorations mineures et des corrections de bogues à notre produit.

UiPath Document Understanding OCR

Date de publication : 2 octobre 2023

Publié dans UiPath Document Understanding OCR | v23.10

Nous sommes ravis d'annoncer que l'hébreu (HEB) est désormais pris en charge par UiPath Document Understanding OCR.

v23.7.0

DocumentUnderstanding et Extraction de données

Date de publication : 3 août 2023

Publié dans les paquets ML DocumentUnderstanding + Extraction de données | v23.7.0

Dans les documents où une table s'étend sur plusieurs pages, une ligne de table (un élément de ligne) est divisée sur 2 pages, voire plus dans certains cas. Les versions précédentes du modèle supposaient que chaque saut de page correspondait également à un saut de ligne, et elle fractionnait les éléments en plusieurs parties. La version actuelle du modèle résout ce problème. Pour bénéficier de cette fonctionnalité dans un workflow, vous devez utiliser la version 1.23.0-preview du package DocumentUnderstanding.ML.Activities et la version 23.7.0 du modèle dans ce workflow spécifique.
Les modèles affichent désormais un temps de prédiction par page plus rapide et utilisent la RAM plus efficacement, permettant le traitement de documents plus volumineux.

v23.6.0

DocumentUnderstanding et points de terminaison

Date de publication : 13 juin 2023

Publié dans DocumentUnderstanding + points de terminaison | v23.6.0

Nous avons amélioré la précision du paquet ML UiPathDocumentOCR.

v23.4.1

DocumentUnderstanding, extraction de données et points de terminaison

Date de publication : 23 mai 2023

Publié dans les paquets ML DocumentUnderstanding + Extraction de données | v23.4.1

Nous avons résolu un problème qui affectait l'entraînement du modèle.

v23.4.5

Document Understanding

Date de publication : 21 avril 2023

publié dans DocumentUnderstanding | v23.4.5

Nous avons amélioré le modèle général de texte saisi et amélioré la fonctionnalité de reconnaissance des cases à cocher.

v23.4.2

Document Understanding

Date de publication : 24 mars 2023

Publié dans DocumentUnderstanding | v23.4.2

Le point de terminaison public UiPath Document OCR a été mis à jour et fournit désormais une prise en charge des langues d'écriture manuscrite pour l'allemand et le français, et une prise en charge des langues d'impression pour le danois, le finnois, le norvégien et le suédois. Voici la liste complète des nouvelles langues prises en charge : danois, suédois, norvégien, finnois, polonais, hongrois, tchèque, slovaque, estonien, letton, lituanien, slovène, croate, serbe, turc.

v23.4.0

DocumentUnderstanding, extraction de données et points de terminaison

Date de publication : 10 mai 2023

Publié dans les paquets ML DocumentUnderstanding + Extraction de données | v23.4.0

UiPath Document OCR est désormais disponible en tant que package pré-entraîné prêt à l’emploi, et il est disponible pour une utilisation à la fois par le GPU et par le processeur. Cela permet aux clients qui préfèrent éviter d’utiliser des points de terminaison publics de déployer UiPath Document OCR dans leurs propres locataires dans un environnement isolé.

Une liste de sept nouveaux paquets ML pré-entraînés prêts à l’emploi est désormais disponible pour un usage général. Voici la liste des sept nouveaux modèles :

Certificat de constitution/conformité
Certificat d'origine
Certificat de produit pour enfants
CMS1500
Déclaration de conformité UE
Factures Expédition
Fiches de paie

DocumentClassifier et points de terminaison

Date de publication : 26 avril 2023

Publié dans les Paquets ML Points de terminaison + ClassifieurDocuments | v23.4.0

Nous avons ajouté de nouveaux types de documents au paquet ML DocumentClassifier, apporté des améliorations générales et corrigé des bogues mineurs.

v23.2.0

DocumentUnderstanding, extraction de données et points de terminaison

Date de publication : 23 février 2023

Publié dans les paquets ML Points de terminaison + DocumentUnderstanding + Extraction de données | v23.2.0

Nouveautés et améliorations

Une nouvelle version des paquets ML pré-entraînés prêts à l’emploi (23.1.0) et de leurs points de terminaison publics ont été publiés, utilisant désormais l’architecture de pointe basée sur LayoutLM Transformers, qui est plus performante et augmente la précision globale, en particulier concernant les champs de colonne (tableaux).

Cette amélioration a rendu les paquets ML pré-entraînés prêts à l’emploi plus performants, ce qui signifie que vous pouvez la latence sera moins plus longue pour l’entraînement et les prédictions.

For all situations where latency is critical (e.g.: attended scenarios) we recommend deploying the models as ML Skills using a GPU.

We have improved how the scores are calculated after Training/Evaluation/Full pipelines to provide a separate score for each column field. Before this improvement, F1 scores were calculated as a whole, for all column fields taken together.

Une suppression a été annoncée pour la fonctionnalité Modifications manuelles utilisée dans l'évaluation du modèle. Pour en savoir plus, cliquez ici.

Problèmes connus

The project import from AI Center is currently disabled. We are actively working on this and expect to have it reenabled by the end of March.

Erratum du 8 mai 2023

Problème connu

Un Fatal Python error: Segmentation fault est reçu lors de l'exécution d'un pipeline complet ou d'un pipeline d'entraînement. Nous vous recommandons d'utiliser les paquets ML avec la version v23.4 jusqu'à ce que ce bogue soit corrigé.

Erratum du 20 avril 2023

Tous les pipelines ont désormais un score de précision. Auparavant, il s'agissait d'un score F1. Les artefacts d'évaluation dans AI Center contiennent toujours à la fois le score de précision et le score F1, à des fins de rétrocomparabilité.

v23.1.0

DocumentClassifier et points de terminaison

Date de publication : 11 janvier 2023

Publié dans Points de terminaison et Classifieur de documents | v23.1.0

Nous avons amélioré les scores F1 et ils sont désormais également affichés pour les pipelines d’entraînement.

Le dossier Artefacts contient une liste mise à jour des artefacts.

Le modèle Classifieur de documents prévoit désormais 25 classes, au lieu de 26, en raison de la suppression de la classe Notes de livraison.

v22.12.2

Points de terminaison

Date de publication : 16 décembre 2022

Publié dans Points de terminaison | v22.12.2

Le point de terminaison public UiPath Document OCR a été mis à jour et fournit désormais une prise en charge des langues d’écriture manuscrite pour l’allemand et le français, et une prise en charge des langues d’impression pour le danois, le finnois, le norvégien et le suédois.

v22.11.0

DocumentUnderstanding, extraction de données et points de terminaison

Date de publication : 13 décembre 2022

Publié dans les packages ML Points de terminaison + DocumentUnderstanding + Extraction de données | v22.11.0

Cette version apporte des améliorations significatives aux points de terminaison publics des paquets ML pré-entraînés prêts à l’emploi, ce qui signifie que nous utilisons désormais la dernière architecture d’apprentissage en profondeur utilisant LayoutLM.

Cette amélioration fournit une meilleure précision sur tous les types de documents, en particulier pour le modèle Factures (Invoices), et améliore également la précision des champs de colonne et des tableaux.

Nous avons ajouté de nouveaux champs extraits au modèle Factures (Invoices) où figure désormais la date d’expédition, l’adresse e-mail du fournisseur, le nom de la banque, le numéro de compte bancaire, l’IBAN, le code SWIFT, l’adresse bancaire, le numéro d’acheminement bancaire et le taux de taxe. Vous pouvez consulter la liste des champs extraits en accédant à cette page et en cliquant sur le lien disponible pour chaque modèle.

Les scores des modèles sont désormais également renvoyés par les pipelines d’entraînement, et pas seulement par les pipelines complets ou d’évaluation.

Les scores F1 sont désormais disponibles pour chaque champ de colonne. Jusqu’à présent, les scores F1 n’étaient disponibles que pour tous les champs de colonne pris ensemble.

v22.10.2

Points de terminaison

Date de publication : 3 février 2023

Publié dans Points de terminaison | v22.10.2

Nous avons mis à jour les points de terminaison publics des paquets ML pré-entraînés prêts à l’emploi, et nous utilisons désormais une architecture de pointe basée sur LayoutLM Transformers.

v22.10.0

DocumentUnderstanding, extraction de données et points de terminaison

Date de publication : 7 octobre 2022

Publié dans les packages ML Points de terminaison + DocumentUnderstanding + Extraction de données | v22.10.0

Nouveautés et améliorations

Les modèles pré-entraînés suivants sont désormais répertoriés comme officiels, sans la balise -Preview : FacturesAustralie, FacturesInde, BonsDeCommande.

Le modèle Feuilles de livraison a été renommé Connaissements.

Dix nouveaux modèles pré-entraînés sont désormais disponibles : Acord25, 1040, Checks, Bank Statements, Financial statements, Packing Lists, Acord131, Acord126, Acord140, Vehicle Titles.

Résolution de bogues

Plusieurs corrections de bogues ont été apportées aux packages mentionnés ci-dessus.

UiPath Document OCR

Date de publication : 4 octobre 2022

Publié dans UiPathDocumentOCR | v22.10.0 Cloud

Une nouvelle fonctionnalité est désormais disponible pour la détection des codes-barres et des codes QR.

Des améliorations de la précision ont été apportées aux chaînes longues telles que les adresses e-mail et les URL, les polices à largeur fixe et la détection de l’écriture manuscrite et des signatures.

La détection de la rotation des pages a également été améliorée.

v22.6.1-preview

DocumentUnderstanding, extraction de données et points de terminaison

Date de publication : 10 octobre 2022

Publié dans les packages ML Points de terminaison + DocumentUnderstanding + Extraction de données | Aperçu v22.6.1

Cette version apporte plusieurs résolutions de bogues aux paquets et aux points de terminaison DocumentUnderstanding et Extraction de données.

v22.6.0-preview

DocumentUnderstanding et Extraction de données

Release date: 6 September 2022

Publié dans les paquets ML DocumentUnderstanding + Extraction de données | v22.6.0-aperçu

18 nouveaux packages Preview ML sont disponibles avec une architecture de modèle plus avancée pour nos packages Document Understanding Machine Learning dans AI Center. Vous pouvez facilement les identifier grâce à l’Aperçu attaché à la fin du nom du package, par exemple : InvoicesPreview, PurchaseOrderPreview, Acord125Preview, etc.

Nous avons mis à jour la liste des points de terminaison publics avec tous les nouveaux paquets ML Aperçu et pouvons être consultés.

Il convient de mentionner le fait que ces modèles de préversion ne consomment pas d’unités DU/AI de votre droit de licence.

Correction d’un bogue sur l’utilisation des compétences privées : désormais, la compétence privée ne peut être utilisée qu’avec une clé API qui appartient à la même organisation qui utilise l’instance AI Center.

v22.5.2

DocumentUnderstanding et Extraction de données

Date de publication : 22 juillet 2022

Publié dans les paquets ML DocumentUnderstanding + Extraction de données | v22.5.2

Résolution de bogues

Ce correctif stabilise le fractionnement des éléments en combinant les méthodes eol classifier et line_detection en une seule méthode.

Problème connu

Il existe un problème connu pour le package Factures (Invoices) qui entraîne parfois une erreur lors de l’exécution d’une boucle de réglage automatique dans AI Center.

v22.5.1

DocumentUnderstanding, DocumentClassifier et extraction de données

Date de publication : 18 juillet 2022

Publié dans Paquets ML DocumentUnderstanding + DocumentClassifier + Extraction de données | v22.5.1

Résolution de bogues

Correction d’un bogue qui affichait les champs extraits sur la mauvaise page dans la Station de validation.
Correction d’un bogue qui empêchait la dernière ligne de texte de certaines pages d’être numérisée dans Document Manager.
Correction d’un bogue qui empêchait l’affichage de certains éléments de score F1 du fichier evaluation_F1_invoices.txt dans les pipelines Complet/Évaluation dans AI Center.
Correction d’un bogue qui entraînait le calcul d’un mauvais score F1 global dans evaluation_F1_invoices.txt file dans les pipelines Complet/Évaluation dans AI Center chaque fois qu’un modèle ne contenait que des champs de colonne.

v22.5.0

Cloud AI Center, extraction de données

Date de publication : 16 juin 2022

Publié dans les paquets ML AI Center Cloud, extraction de données | v22.5.0

Améliorations

Les performances ont été améliorées pour tous les paquets ML d’extraction de données.

v22.4.3

DocumentUnderstanding et Extraction de données

Date de publication : 21 juillet 2022

Publié dans les paquets ML DocumentUnderstanding + Extraction de données | v22.4.3

Ce correctif stabilise le fractionnement des éléments en combinant les méthodes eol classifier et line_detection en une seule méthode.

v22.4.2

DocumentUnderstanding, DocumentClassifier et extraction de données

Date de publication : 14 juillet 2022

Publié dans Paquets ML DocumentUnderstanding + DocumentClassifier + Extraction de données | v22.4.2

Résolution de bogues

Correction d’un bogue qui affichait les champs extraits sur la mauvaise page dans la Station de validation.
Correction d’un bogue qui empêchait la dernière ligne de texte de certaines pages d’être numérisée dans Document Manager.
Correction d’un bogue qui empêchait l’affichage de certains éléments de score F1 du fichier evaluation_F1_invoices.txt dans les pipelines Complet/Évaluation dans AI Center.
Correction d’un bogue qui entraînait le calcul d’un mauvais score F1 global dans evaluation_F1_invoices.txt file dans les pipelines Complet/Évaluation dans AI Center chaque fois qu’un modèle ne contenait que des champs de colonne.

v22.4.1

Cloud AI Center, extraction de données

Date de publication : 3 juin 2022

Date de publication dans les paquets ML AI Center Cloud, extraction de données | v22.4.1

Résolution de bogues

Correction d’un bogue survenant lors de l’exécution d’un pipeline d’évaluation sur un modèle entraîné avec le mode spécial line_detection mode, entraînant des prédictions différentes de celles appelées à partir de la compétence ML.

v22.4.0

DocumentUnderstanding, DocumentClassifier et extraction de données

Date de publication : 10 mai 2022

Paquets ML DocumentUnderstanding + DocumentClassifier + Extraction de données

| v22.4.0

Nouveautés

Les fonctionnalités d’écriture manuscrite sont désormais disponibles pour les packages UiPathDocumentOCR et UiPathDocumentOCR_CPU, en intégrant HandwritingRecognitionOCR. Les mêmes fonctionnalités se trouvent dans le package UiPath.OCR.LocalServer Studio.

Nouvelle architecture d’extraction de paquets ML, avec des avantages majeurs, en particulier pour les modèles entraînés à l’aide du paquet ML Document Understanding.

Les paquets ML Factures de services publics, W9 et Passeports sont désormais disponibles en disponibilité générale. Cinq nouveaux paquets ML pré-entraînés prêts à l’emploi sont désormais disponibles en aperçu public afin de faciliter votre travail.

Cinq nouveaux paquets ML pré-entraînés prêts à l’emploi sont désormais disponibles en aperçu public afin de faciliter votre travail.

Recherche de documents (Document Search) est une nouvelle fonctionnalité disponible dans Document Manager qui facilite la labellisation des documents comportant un nombre élevé de pages.

Améliorations

Des améliorations ont été apportées aux paquets ML pour l’extraction de documents dans AI Center. De nouvelles feuilles ont également été ajoutées au classeur Excel Évaluation, vous permettant de mieux organiser et interpréter les données évaluées.

Les paquets ML dans l’installation hors ligne d’Automation Suite ont reçu un nouveau bundle hors ligne.

La précision et les performances de UiPathDocumentOCR ont été améliorées.

Résolution de bogues

Plusieurs correctifs sur l’analyse des champs de date, y compris les dates dans les champs de colonne, les dates dans les documents turcs, les dates lointaines dans le futur

v22.2.3

UiPathDocumentUnderstandingOCR

Date de publication : 7 mars 2022

Publié dans UiPathDocumentOCR | v22.2.3

Capacité supérieure

HandwritingRecognitionOCR intégré dans UiPathDocumentOCR. Dans de nombreux cas, il y a un mélange de champs. En intégrant la capacité de lecture de l'écriture manuscrite, nous sommes en mesure d'appliquer la reconnaissance correcte à chaque champ : la reconnaissance d'impression pour imprimer du texte et la reconnaissance de l'écriture manuscrite pour du texte manuscrit.

Bien que HandwritingRecognitionOCR puisse détecter n'importe quelle écriture manuscrite, sachez qu'elle est entraînée et optimisée uniquement pour l'anglais.

v22.1.6

DocumentUnderstanding, DocumentClassifier et extraction de données

Date de publication : 14 mars 2022

Paquets ML DocumentUnderstanding + DocumentClassifier + Extraction de données

| v22.1.6

Résolution de bogues

Correction d'un bogue qui entraînait l'échec d'un pipeline d'entraînement ou d'un pipeline complet dans AI Center en raison d'un problème de paquet ML dans le prétraitement des données pour une ligne vide.

v22.1.4

DocumentUnderstanding, DocumentClassifier et extraction de données

Date de publication : 2 mars 2022

Publié dans Paquets ML DocumentUnderstanding + DocumentClassifier + Extraction de données | v22.1.4

Nouveautés

Les paquets ML Factures de services publics (Utility Bills) ML sont désormais disponibles pour tous.

Améliorations

Amélioration globale des performances et de l'évolutivité.

Améliorations significatives des scores lors de l'entraînement sur la nouvelle version du paquet ML DocumentUnderstanding par rapport aux versions précédentes.

Les dates dans les champs de colonne sont désormais analysées correctement.

L'analyse de la date reconnaît désormais les noms de mois turcs.

Modifications

Modification du comportement des pipelines d'entraînement et des pipelines complets lors de l'entraînement sur GPU par rapport au processeur. Le 21.10.x les modèles entraînés sur des processeurs étaient plus petits, ils s'entraînaient donc plus rapidement que les versions précédentes, tout en ayant une précision légèrement inférieure à celle d'avant.

Ce comportement a été inversé avec cette version, de sorte que le modèle entraîné sur GPU et sur processeur est exactement le même modèle, et la vitesse d'entraînement est revenue à ce qu'elle était avant 2021.10, ce qui signifie que l'entraînement sur processeur est à nouveau 10 à 20 fois plus lent que sur GPU.

v21.10.11

Extraction de données

Date de publication : 23 novembre 2021

Publié dans les paquets ML d’extraction de données | v21.10.11

Correction d'un bug qui entraînait l'échec des pipelines de formation et d'évaluation en raison de la logique de post-traitement de la date.

v21.10.9

Extraction de données

Date de publication : 24 novembre 2021

Publié dans les paquets ML d’extraction de données | v21.10.9

Correction d'un bug qui générait une erreur de prédiction au moment du runtime.

Extraction de données et points de terminaison

Date de publication : 22 octobre 2021

Publié dans les paquets ML et les points de terminaison d’extraction de données | v21.10.9

Nouveautés

Le paquet ML PurchaseOrders est désormais généralement disponible et prêt à être utilisé dans vos scénarios de production.

Les paquets ML FacturesChine, DeliveryNotes, RemittanceAdvices, W2 et W9 sont désormais en préversion publique. Nous vous recommandons de consulter ces packages et de commencer à les utiliser pour le type de documents que vous devez traiter.

Améliorations

Implémentation de l'évaluation au niveau du document. Ceci est représentatif des performances d'exécution de votre workflow RPA.

L'évaluation peut également être effectuée sur des ensembles de données avec moins de champs que le paquet ML évalué. Cela facilite l'évaluation des paquets ML pré-formés prêts à l'emploi.

Pour évaluer l'impact de l'OCR sur la précision de l'extraction, vous pouvez désormais la réexécuter lors de l'exécution d'un pipeline d'évaluation. Cela nécessite la configuration de l'OCR lors de la création d'un paquet ML et la variable d'environnement eval.redo_ocr doit être définie sur true dans le pipeline d'évaluation AI Center.

L'entraînement sur processeur utilise désormais un modèle plus petit pour obtenir une accélération de 5x-7x. Cependant, vous devez vous attendre à une précision inférieure de 0-5 % sur le processeur.

Ajout des colonnes Confiance minimale (Minimum Confidence) et Taux de traitement direct (Straight Through Processing Rate) aux fichiers Evaluation.xlsx produits par les pipelines d'évaluation.

Le paquet ML UtilityBills a été considérablement amélioré.

Amélioration de l'analyse des adresses pour les adresses qui sautent 1 à 2 lignes de texte.

Amélioration de l'extraction des valeurs négatives, des très grandes valeurs (11 chiffres ou plus) ou des dates éloignées dans le futur.

Ajout de la prise en charge des boîtes pivotées sur les reçus.

Amélioration des portées concaténées.

Résolution de bogues

Correction d'un bug qui ne renvoyait pas de caractères spéciaux dans les champs de type String.
Correction d'un bug pour le paquet ML Passports où la date écrite sous forme de nombre ordinal (1er, 2e, 3e, 4e, etc.) n'était pas analysée correctement.

Problèmes connus

Le recyclage des paquets ML InvoicesJapan et InvoicesChina à l'aide des données de la Station de validation n'est actuellement pas pris en charge. Pour contourner ce problème, veuillez utiliser Google Cloud Vision OCR.

Obsolescences à venir

Tous les points de terminaison publics, à l'exception de UiPathDocumentOCR, FormExtractor, IntelligentFormExtractor et IntelligentKeywordClassifier, seront obsolètes pour les régions autres que l'Europe de l'Ouest à compter du 1er décembre 2021.

v21.10.5

Points de terminaison UiPathDocumentOCR

Date de publication : 13 décembre 2021

Publié dans les points de terminaison UiPathDocumentOCR | v21.10.5

Améliorations

UiPathDocumentOCR est lui aussi désormais disponible dans la région de Singapour.

Points de terminaison publics

v21.10.1

Extraction de données et points de terminaison pour UiPathDocumentOCR

Date de publication : 24 septembre 2021

Publié dans Extraction de données et points de terminaison pour UiPathDocumentOCR | v21.10.1

Améliorations

Ajout de la prise en charge du texte pivoté, même si la rotation présente des angles différents pour chaque mot.

Ajout de la prise en charge du texte vertical. Cette amélioration n'est pour le moment disponible que pour UiPath.IntelligentOCR.Activities, y compris la Station de Validation. Data Manager et l'Extracteur d'apprentissage automatique ne prennent pas encore en charge le texte vertical.

Amélioration de la précision sur les images ou les photos bruitées : par exemple, les reçus, les cartes d'identité ou les passeports.

v21.10

Extracteur de formulaires, Extracteur de formulaires intelligents et Classifieur de mots clés intelligents

Date de publication : 13 décembre 2021

Publication de l’extracteur de formulaires + Extracteur de formulaires intelligents + Classifieur de mots clés intelligents en points de terminaison | v21.10

Améliorations

Extracteur de formulaires, Extracteur de formulaires intelligents et Classifieur de mots clés intelligents (Intelligent Keyword Classifier) sont désormais également disponibles dans la région de Singapour.

Points de terminaison publics

v21.7

Extraction de données et points de terminaison pour la reconnaissance de l’écriture manuscrite

Date de publication : 11 août 2021

Publié dans Extraction de données et points de terminaison pour la reconnaissance de l’écriture manuscrite | V21.7

Améliorations

Capacité à gérer plusieurs shreds en un seul appel au modèle.

Réentraînement du modèle et quelques autres changements pour une meilleure précision du modèle.

Résolution de bogues

Correction d'un bug qui faisait redémarrer le pod lorsqu'il n'y avait plus de mémoire.

v21.6.3

UiPathDocumentOCR dans les points de terminaison

Date de publication : 9 juin 2021

Publié dans les points de terminaison pour UiPathDocumentOCR | v21.6.3

Améliorations

Détection améliorée à un chiffre.

Précision améliorée sur les caractères 1 , I et l.

Détection améliorée du texte lorsqu’il est rapproché.

v21.5.5

Extraction de données et points de terminaison

Date de publication : 18 juin 2021

Publié dans les points de terminaison et les paquets ML d’extraction de données | v21.5.5

Correction d’un bug qui provoquait des différences de prédiction entre le Gestionnaire de données (Data Manager) et l’activité Numériser le document (Digitize Document).

v21.5.3

Extraction de données et points de terminaison

Date de publication : 8 juin 2021

Publié dans les points de terminaison et les paquets ML d’extraction de données | v21.5.3

Nouveautés

Deux nouveaux packages prêts à l’emploi préformés ont été publiés pour les images difficiles à lire, comme dans le cas des cartes d’identité et des passeports.

Améliorations

Champs de classification réentrainables intégrés dans nos packages pré-entraînés prêts à l’emploi.

v21.4.7

Extraction de données et points de terminaison

Date de publication : 20 avril 2021

Publié dans les points de terminaison et les paquets ML d’extraction de données | v21.4.7

Amélioration de l’analyse des dates pour les paquets ML d'extraction de données.

v21.4.5

Extraction de données et points de terminaison

Date de publication : 15 avril 2021

Publié dans les points de terminaison et les paquets ML d’extraction de données | v21.4.5

Nouveautés

Déploiement de tous les critères d’évaluation publics dans la région des États-Unis.

Déploiement de critères d’évaluation publics pour l’extracteur de formulaires, l’extracteur de formulaire intelligent et le classificateur intelligent de mots clés dans les régions du Canada et du Japon.

v21.4

Extraction de données et points de terminaison pour HandwritingRecognition et DocumentClassifier

Date de publication : 9 mars 2021

Publié dans les paquets ML et les points de terminaison d’extraction de données pour HandwritingRecognition, DocumentClassifier, Docker autonome pour UiPathDocumentOCR | v21.4

Nouveautés

HandwritingRecognition avec une reconnaissance améliorée utilisant des corrections orthographiques et la capacité de lire du texte imprimé à la machine est mise en disponibilité générale.

DocumentClassifier est également passé en disponibilité générale.

Améliorations apportées à UiPath Document OCR pour :

Détection des boutons radio et des cases à cocher
Précision sur les formulaires à bulles
Précision générale

v21.1.8

Extraction de données et points de terminaison

Date de publication : 17 février 2021

Publié dans les points de terminaison et les paquets ML d’extraction de données | v21.1.8

Améliorations

Amélioration de la précision.

Factures, Inde (InvoiceIndia) et Factures, Australie (Invoices-Australia) sont maintenant disponibles pour tous.

Points de terminaison publics déployés dans la région de l’Australie.

L’argument d’édition n’est plus nécessaire dans les URL de point de terminaison. Par exemple, https://du.uipath.com/ie/invoices fonctionnera à la fois pour le trafic d’entreprise et pour le trafic communautaire.

v20.11.3

Extraction de données

Date de publication : 18 décembre 2020

Publié dans les paquets ML d’extraction de données | v20.11.3

Améliorations

Améliorations apportées à la formation sur les processeurs pour qu’ils soient plus rapides et nécessitent moins de mémoire.

Amélioration de l’analyse des dates pour les documents non américains.

Reconnaissance des cases à cocher pour UiPathDocumentOCR, y compris les cases à cocher imprimées ou manuscrites.

v20.10.4

Extraction de données et points de terminaison

Date de publication : 10 novembre 2020

Publié dans les points de terminaison et les paquets ML d’extraction de données | v20.10.4

Nouvelles fonctionnalités et améliorations

Nouveau modèle pour les factures japonaises.

Les pipelines d’évaluation renvoient désormais des mesures pour les champs Classification également.

Prise en charge de Microsoft Read OCR version 3.

Améliorations du formatage/analyse des dates pour la détection des formats jour/mois/année par rapport aux formats mois/jour/année.

Améliorations de la détection de la décimale et des séparateurs de milliers pour une analyse correcte des nombres.

La formation sur processeur est prise en charge dans toutes les versions d’AI Fabric.

Amélioration de l’analyse des champs avec le type de contenu id-no.

Prise en charge de la formation des champs de classification uniquement (pas de champs réguliers ou de colonnes).

Augmentation du nombre maximum de champs autorisés de 32 à 40.

Niveaux de confiance des rapports pour les champs Colonne (Column).

Problèmes connus

Lors de la création d’un package UiPath.DocumentUnderstanding.ML.Activities dans AI Center, le nom du package ne doit pas être un mot clé python réservé, tel que class , break, from, finally, global, None, etc. Notez que cette liste n’est pas exhaustive puisque le nom du package est utilisé pour class <pkg-name> et import <pkg-name>.

Sommaire de la page