- Visão geral
- Contratos de Processamento de Documentos
- Notas de versão
- Sobre os Contratos de Processamento de Documentos
- Classe Box
- Interface IPersistedActivity
- Classe PrettyBoxConverter
- Interface IClassifierActivity
- Interface IClassifierCapabilitiesProvider
- Classe ClassifierDocumentType
- Classe ClassifierResult
- Classe ClassifierCodeActivity
- Classe ClassifierNativeActivity
- Classe ClassifierAsyncCodeActivity
- Classe ClassifierDocumentTypeCapability
- ContentValidationData Class
- EvaluatedBusinessRulesForFieldValue Class
- EvaluatedBusinessRuleDetails Class
- Classe ExtractorAsyncCodeActivity
- Classe ExtractorCodeActivity
- Classe ExtractorDocumentType
- Classe ExtractorDocumentTypeCapabilities
- Classe ExtractorFieldCapability
- Classe ExtractorNativeActivity
- Classe ExtractorResult
- FieldValue Class
- FieldValueResult Class
- Interface ICapabilitiesProvider
- Interface IExtractorActivity
- Classe ExtractorPayload
- Enumeração DocumentActionPriority
- Classe DocumentActionData
- Enumeração DocumentActionStatus
- Enumeração DocumentActionType
- Classe DocumentClassificationActionData
- Classe DocumentValidationActionData
- Classe UserData
- Classe Document
- Classe DocumentSplittingResult
- Classe DomExtensions
- Classe Page
- Classe PageSection
- Classe Polígono
- Classe PolygonConverter
- Classe de metadados
- Classe WordGroup
- Classe Word
- Enumeração ProcessingSource
- Classe ResultsTableCell
- Classe ResultsTableValue
- Classe ResultsTableColumnInfo
- Classe ResultsTable
- Enumeração Rotation
- Rule Class
- RuleResult Class
- RuleSet Class
- RuleSetResult Class
- Enumeração SectionType
- Enumeração WordGroupType
- Interface IDocumentTextProjection
- Classe ClassificationResult
- Classe ExtractionResult
- Classe ResultsDocument
- Classe ResultsDocumentBounds
- Classe ResultsDataPoint
- Classe ResultsValue
- Classe ResultsContentReference
- Classe ResultsValueTokens
- Classe ResultsDerivedField
- Enumeração ResultsDataSource
- Classe ResultConstants
- Classe SimpleFieldValue
- Classe TableFieldValue
- Classe DocumentGroup
- Classe DocumentTaxonomy
- Classe DocumentType
- Classe Field
- Enumeração FieldType
- FieldValueDetails Class
- Classe LanguageInfo
- Classe MetadataEntry
- Enumeração de tipo de texto
- Classe TypeField
- Interface ITrackingActivity
- Interface ITrainableActivity
- Interface ITrainableClassifierActivity
- Interface ITrainableExtractorActivity
- Classe TrainableClassifierAsyncCodeActivity
- Classe TrainableClassifierCodeActivity
- Classe TrainableClassifierNativeActivity
- Classe TrainableExtractorAsyncCodeActivity
- Classe TrainableExtractorCodeActivity
- Classe TrainableExtractorNativeActivity
- Classe BasicDataPoint - visualização
- Classe ExtractionResultHandler — visualização
- Document Understanding ML
- Document Understanding OCR Local Server
- Document Understanding
- Notas de versão
- Sobre o pacote de atividades Document Understanding
- Compatibilidade do projeto
- Configuração da conexão externa
- Definir Senha do PDF
- Merge PDFs
- Get PDF Page Count
- Extract PDF Text
- Extract PDF Images
- Extract PDF Page Range
- Extract Document Data
- Criar tarefa de validação e aguardar
- Aguarde a tarefa de validação e retome
- Create Validation Task
- Classificar Documento
- Create Classification Validation Task
- Create Classification Validation Task and Wait
- Aguardar a tarefa de Validação de Classificação e retomar
- IntelligentOCR
- Notas de versão
- Sobre o pacote de atividades IntelligentOCR
- Compatibilidade do projeto
- Carregar Taxonomia
- Digitize Document
- Classificar Escopo do Documento
- Classificador baseado em palavra-chave
- Document Understanding Project Classifier
- Intelligent Keyword Classifier
- Create Document Classification Action
- Create Document Validation Artifacts
- Recuperar artefatos de validação de documento
- Aguardar ação de classificação do documento e retomar
- Train Classifiers Scope
- Instrutor de Classificador Baseado em Palavra-chave
- Intelligent Keyword Classifier Trainer
- Escopo da Extração de Dados
- Document Understanding Project Extractor
- Document Understanding Project Extractor Trainer
- Regex Based Extractor
- Form Extractor
- Intelligent Form Extractor
- Rasurar documento
- Create Document Validation Action
- Wait For Document Validation Action And Resume
- Escopo de Extratores de Treinamento
- Exportar Resultados da Extração
- Machine Learning Extractor
- Machine Learning Extractor Trainer
- Machine Learning Classifier
- Machine Learning Classifier Trainer
- Classificador Generativo
- Extrator Generativo
- Configuração da autenticação
- Validação de documentos com ações de aplicativos
- Validação manual para digitalizar documentos
- Extração de dados baseada em âncora usando a atividade Intelligent Form Extractor
- Validation Station
- Atividades generativas — Boas práticas
- Extrator generativo — boas práticas
- Classificador generativo — Boas práticas
- Serviços de ML
- OCR
- Contratos de OCR
- Notas de versão
- Sobre os Contratos OCR
- Compatibilidade do projeto
- Interface IOCRActivity
- Classe OCRAsyncCodeActivity
- Classe OCRCodeActivity
- Classe OCRNativeActivity
- Character Class
- Classe OCRResult
- Classe Word
- Enumeração FontStyles
- Enumeração OCRRotation
- Classe OCRCapabilities
- Classe OCRScrapeBase
- Classe OCRScrapeFactory
- Classe ScrapeControlBase
- Enumeração ScrapeEngineUsages
- ScrapeEngineBase
- Classe ScrapeEngineFactory
- Classe ScrapeEngineProvider
- OmniPage
- PDF
- [Não listado] Abbyy
- [Não listado] Abbyy Embedded

Atividades do Document Understanding
Sobre o pacote de atividades IntelligentOCR
O UiPath.IntelligentOCR.Activities contém a infraestrutura para habilitar os fluxos de processamento de documentos usando uma abordagem completa, aberta e extensível.
When installing the UiPath.IntelligentOCR.Activities package, the UiPath.DocumentUnderstanding.ML.Activities package is automatically installed to perform ML-based classification and extraction.
Limitação conhecida
Se você estiver usando atividades do tipo "Wait for" que suspendem os fluxos de trabalho e você estiver trabalhando com variáveis DataTable , é crucial que as variáveis DataTable sejam serializáveis. Por exemplo, se uma variável DataTable for inicializada com new System.Data.DataTable, então ela se torna não serializável e isso pode fazer com que a execução do seu projeto falhe. Para evitar isso, você pode: deixar o valor padrão da variável DataTable vazio, ou atribuir um nome à variável DataTable , como: new System.Data.DataTable("MyTable").
Substituição de versões removidas
A tabela a seguir mostra as versões do pacote que foram removidas e, em vez disso, a versão recomendada para usar.
Table 1. The removed versions and their recommended replacements
| Versão recomendada | |
|---|---|
| 4.3.0-preview | 4.4.0-preview |
| 2.1.0 | 2.2.0 |
| 1.4.0 | 1.5.0 |
| 1.2.0 | 1.2.1 |
Importante
- Starting with the v6.19.0 release, when installing the UiPath.IntelligentOCR.Activities package in a project, the UiPath.DocumentUnderstanding.ML.Activities package is automatically installed as well and you do not need to install it separately.
- If you are using UiPath® Studio 2023.4.4 or earlier, make sure to install the latest version of Windows .NET 6.0 Desktop Runtime.
Compatibilidade da versão
Updating the UiPath.IntelligentOCR.Activities also requires an update for the UiPath.UIAutomation.Activities package and for UiPath.OCR.Activities package if included in the project.
UiPath.IntelligentOCR.Activities and UiPath.DocumentUnderstanding.Activities should not be used together in the same project. The UiPath.IntelligentOCR.Activities package should be used for Windows (or Legacy) workflows, while the UiPath.DocumentUnderstanding.Activities package should be used for Cross-platform workflows.
Before using the Monitor feature, take into consideration the following:
- Only UiPath.DocumentUnderstanding.Activities v 2.7.0 or newer versions support Monitor;
- Only IntelligentOCR.Activities v6.20 or newer versions include the Document Understanding Project Extractor activity which supports Monitor
Formatos suportados
O pacote de atividades IntelligentOCR pode ser compatível com qualquer um dos seguintes tipos de arquivo: .png, .gif, .jpe, .jpg, .jpeg, .tiff, .tif, .bmp e .pdf.
Suporte para a linguagem de projeto C#
A partir da versão 4.10.0, este pacote de atividades é validado para uso em projetos C#.
Funcionalidades
Esta seção mostra as várias funcionalidades do pacote Intelligent.OCR.
Digitalize documentos
You can achieve this using the Digitize Document activity. This retrieves the text from any PDF or image, using, only if necessary, the OCR engine of your choice.
Como os documentos são processados um a um, eles passam pelo processo de digitalização. A diferença para documentos não digitais (digitalizados) é que você precisa aplicar o mecanismo de OCR de sua escolha. As saídas desta etapa são o Document Object Model e uma variável de string contendo todo o texto do documento e são passadas para as próximas etapas.
Classifique documentos
You can achieve this using the Classify Document activity. This allows identifying what type of document a file is by using any classification algorithm.
Após a digitalização, o documento é classificado. Se você estiver trabalhando com vários tipos de documentos no mesmo projeto, para extrair os dados corretamente, você precisa saber com que tipo de documento está trabalhando. O importante é que você pode usar vários classificadores no mesmo escopo, pode configurar os classificadores e, posteriormente no framework, treiná-los. Os resultados da classificação ajudam na aplicação da estratégia correta na extração.
A lista a seguir mostra os classificadores disponíveis:
- The Keyword Based Classifier activity is the first such classifier, targeting classification for titled documents.
- The Intelligent Keyword Classifier activity can not only classify but also "split" files that contain multiple document types within them.
- The Machine Learning Classifier activity can classify your files using a powerful ML Model, that you can train according to your needs.
- The Generative Classifier activity allows you to classify documents using generative models.
Validar classificação automática
You can achieve this using the Present Classification Station attended activity, which presents a document processing specific user interface for validating and correcting automatic classification outputs.
Especialmente para casos de uso em que a divisão de arquivos está envolvida, o uso da etapa de validação de classificação humana é altamente recomendável, para garantir que o processamento downstream para extração de dados funcione corretamente.
An alternative to the attended activity is available through the usage of Long-Running Workflows, which are designed to optimally enable human-robot collaboration. The Create Document Classification Action and the Wait For Document Classification Action And Resume activities enable this scenario.
Classificadores de trem
You can achieve this using the Train Classifiers Scope activity. This empowers the closing of the feedback loop to any classification algorithm capable of learning. Drag and drop your classifier trainers within this Scope activity and enable them using the Configure Classifiers wizard to ensure that the information validated by humans through the Classification Station or Validation Station is used by your classifiers to improve their own performance.
A classificação é tão eficiente quanto os classificadores usados. Se um documento não foi classificado corretamente, significa que era desconhecido dos classificadores ativos. O Framework oferece a oportunidade de treinar os classificadores, para melhorar o reconhecimento das classes de documentos.
A seguir está uma lista dos treinadores de classificadores disponíveis:
- The Keyword Based Classifier Trainer is the trainer activity paired with the Keyword Based Classifier.
- The Intelligent Keyword Classifier Trainer enables the feedback loop for Intelligent Keyword Classifier.
- The Machine Learning Classifier Trainer is the trainer activity paired with the Machine Learning Classifier.
Extrair dados de documentos
You can achieve this using the Data Extraction Scope activity. This allows the usage of any data extraction algorithm for identifying different fields in a classified document.
A extração está obtendo apenas os dados nos quais você está interessado de um determinado tipo de documento. Por exemplo, extrair dados específicos de um documento de 5 páginas é bastante problemático se você quiser fazer isso com manipulação de string. Nesta estrutura, você pode usar extratores diferentes, para as diferentes estruturas de documentos, no mesmo escopo de extração de dados. Os resultados da extração são passados para validação.
A seguir está uma lista de extratores disponíveis:
- The RegEx Based Extractor is a basic data extractor that applies regular expression matching to identify the best candidates for a specific field.
- The Form Extractor uses predefined templates to enable the processing of structured, fixed form documents.
- The Machine Learning Extractor leverages the power of AI and Machine Learning to identify information in structured or semi-structured documents by either using one of UiPath®'s public data extraction services or by calling custom trained Machine Learning models that you can build and host in AI Center.
- The Generative Extractor allows you to extract documents using generative models.
Valide os resultados da extração automática de dados
You can achieve this using the Present Validation Station attended activity, which presents a document processing specific user interface for data validation and correction.
- The extracted data can be validated by a human user through the Validation Station. A best practice is to build logic around the decision of adding or not a human validation step, with rules depending on the specific use case to be implemented. Validation results can then be exported and used in further automation activities.
- You can also enable human validation through long-running workflows, optimizing human-robot collaboration, using the Create Document Validation Action and Wait for Document Validation Action and Resume activities.
extratores de trem
You can achieve this using the Train Extractors Scope activity. This empowers the closing of the feedback loop to any data extraction algorithm capable of learning. Drag and drop your extractor trainers within this Scope activity and enable them using the Configure Extractors wizard to ensure that the information validated by humans through the Validation Station is used by your extractors to improve their own performance.
A extração é tão eficiente quanto os extratores utilizados. Se os valores dos campos não foram extraídos corretamente, significa que eles eram desconhecidos para os extratores ativos. O Framework oferece a oportunidade de treinar os extratores, para melhorar o reconhecimento dos valores de campo.
The Machine Learning Extractor Trainer closes the feedback loop for ML-based data extraction, by collecting the data required for retraining a Machine Learning model hosted in AI Center. This activity is the companion of the Machine Learning Extractor activity.
Exportar informações extraídas
You can achieve this using the Export Extraction Results activity. This allows you to export the complex structure of extracted data to a simple DataSet (collection of DataTables).
Depois de ter suas informações validadas, você pode usá-las como estão ou salvá-las em um formato DataTable que pode ser convertido facilmente em um arquivo Excel.
The UiPath.IntelligentOCR.Activities package is compatible with any custom classification or data extraction activity that is built based on the public UiPath.DocumentProcessing.Contracts package. It offers full flexibility to build your own algorithm specific to your use case, as well as integrating it with any third-party solution for document classification and data extraction.
As seguintes versões do pacote foram removidas do feed oficial. Se você tiver algum problema, entre em contato com nossas equipes de suporte.
- Limitação conhecida
- Substituição de versões removidas
- Importante
- Compatibilidade da versão
- Formatos suportados
- Suporte para a linguagem de projeto C#
- Funcionalidades
- Digitalize documentos
- Classifique documentos
- Validar classificação automática
- Classificadores de trem
- Extrair dados de documentos
- Valide os resultados da extração automática de dados
- extratores de trem
- Exportar informações extraídas