- Visão geral
- Contratos de Processamento de Documentos
- Notas de versão
- Sobre os Contratos de Processamento de Documentos
- Classe Box
- Interface IPersistedActivity
- Classe PrettyBoxConverter
- Interface IClassifierActivity
- Interface IClassifierCapabilitiesProvider
- Classe ClassifierDocumentType
- Classe ClassifierResult
- Classe ClassifierCodeActivity
- Classe ClassifierNativeActivity
- Classe ClassifierAsyncCodeActivity
- Classe ClassifierDocumentTypeCapability
- Classe ExtractorAsyncCodeActivity
- Classe ExtractorCodeActivity
- Classe ExtractorDocumentType
- Classe ExtractorDocumentTypeCapabilities
- Classe ExtractorFieldCapability
- Classe ExtractorNativeActivity
- Classe ExtractorResult
- Interface ICapabilitiesProvider
- Interface IExtractorActivity
- Classe ExtractorPayload
- Enumeração DocumentActionPriority
- Classe DocumentActionData
- Enumeração DocumentActionStatus
- Enumeração DocumentActionType
- Classe DocumentClassificationActionData
- Classe DocumentValidationActionData
- Classe UserData
- Classe Document
- Classe DocumentSplittingResult
- Classe DomExtensions
- Classe Page
- Classe PageSection
- Classe Polígono
- Classe PolygonConverter
- Classe de metadados
- Classe WordGroup
- Classe Word
- Enumeração ProcessingSource
- Classe ResultsTableCell
- Classe ResultsTableValue
- Classe ResultsTableColumnInfo
- Classe ResultsTable
- Enumeração Rotation
- Enumeração SectionType
- Enumeração WordGroupType
- Interface IDocumentTextProjection
- Classe ClassificationResult
- Classe ExtractionResult
- Classe ResultsDocument
- Classe ResultsDocumentBounds
- Classe ResultsDataPoint
- Classe ResultsValue
- Classe ResultsContentReference
- Classe ResultsValueTokens
- Classe ResultsDerivedField
- Enumeração ResultsDataSource
- Classe ResultConstants
- Classe SimpleFieldValue
- Classe TableFieldValue
- Classe DocumentGroup
- Classe DocumentTaxonomy
- Classe DocumentType
- Classe Field
- Enumeração FieldType
- Classe LanguageInfo
- Classe MetadataEntry
- Enumeração de tipo de texto
- Classe TypeField
- Interface ITrackingActivity
- Interface ITrainableActivity
- Interface ITrainableClassifierActivity
- Interface ITrainableExtractorActivity
- Classe TrainableClassifierAsyncCodeActivity
- Classe TrainableClassifierCodeActivity
- Classe TrainableClassifierNativeActivity
- Classe TrainableExtractorAsyncCodeActivity
- Classe TrainableExtractorCodeActivity
- Classe TrainableExtractorNativeActivity
- Digitalizador do Document Understanding
- Document Understanding ML
- Document Understanding OCR Local Server
- Processo do Document Understanding - Modelo do Studio
- Document Understanding
- Notas de versão
- About the Document Understanding activity package
- Compatibilidade do projeto
- Dados do documento
- Definir Senha do PDF
- Merge PDFs
- Get PDF Page Count
- Extract PDF Text
- Extract PDF Images
- Extract PDF Page Range
- Extract Document Data
- Criar tarefa de validação e aguardar
- Aguarde a tarefa de validação e retome
- Create Validation Task
- Classificar Documento
- Create Classification Validation Task
- Create Classification Validation Task and Wait
- Aguardar a tarefa de Validação de Classificação e retomar
- IntelligentOCR
- Notas de versão
- About the IntelligentOCR activity package
- Compatibilidade do projeto
- Carregar Taxonomia
- Digitize Document
- Classificar Escopo do Documento
- Classificador baseado em palavra-chave
- Intelligent Keyword Classifier
- Present Classification Station
- Create Document Classification Action
- Wait For Document Classification Action And Resume
- Train Classifiers Scope
- Instrutor de Classificador Baseado em Palavra-chave
- Intelligent Keyword Classifier Trainer
- Escopo da Extração de Dados
- Regex Based Extractor
- Form Extractor
- Intelligent Form Extractor
- Present Validation Station
- Create Document Validation Action
- Wait For Document Validation Action And Resume
- Escopo de Extratores de Treinamento
- Exportar Resultados da Extração
- Serviços de ML
- OCR
- Contratos de OCR
- Notas de versão
- Sobre os Contratos OCR
- Compatibilidade do projeto
- Interface IOCRActivity
- Classe OCRAsyncCodeActivity
- Classe OCRCodeActivity
- Classe OCRNativeActivity
- Character Class
- Classe OCRResult
- Classe Word
- Enumeração FontStyles
- Enumeração OCRRotation
- Classe OCRCapabilities
- Classe OCRScrapeBase
- Classe OCRScrapeFactory
- Classe ScrapeControlBase
- Enumeração ScrapeEngineUsages
- ScrapeEngineBase
- Classe ScrapeEngineFactory
- Classe ScrapeEngineProvider
- OmniPage
- PDF
- [Não listado] Abbyy
- [Não listado] Abbyy Embedded
About the IntelligentOCR activity package
UiPath.IntelligentOCR.Activities contains the infrastructure for enabling document processing flows using a complete, open, extensible approach.
Versão removida |
Versão recomendada |
---|---|
4.3.0-visualização | 4.4.0-visualização |
4.5.2 |
2.1.0 | 2.2.0 | 2.3.0 |
4.0.1 |
1.4.0 | 1.5.0 | 1.6.0 | 1.6.1 | 2.0.0 | 2.0.1 |
2.0.2 |
1.2.0 | 1.2.1 | 1.3.0 |
1.3.2 |
- Starting with the v6.19.0 release, when installing the UiPath.IntelligentOCR.Activities package in a project, the UiPath.DocumentUnderstanding.ML.Activities package is automatically installed as well and you do not need to install it separately.
- If you are using UiPath® Studio 2023.4.4 or earlier, make sure to install the latest version of Windows .NET 6.0 Desktop Runtime.
Updating the UiPath.IntelligentOCR.Activities also requires an update for the UiPath.UIAutomation.Activities package and for UiPath.OCR.Activities package if included in the project.
UiPath.IntelligentOCR.Activities and UiPath.DocumentUnderstanding.Activities should not be used together in the same project. The UiPath.IntelligentOCR.Activities package should be used for Windows (or Legacy) workflows, while the UiPath.DocumentUnderstanding.Activities package should be used for Cross-platform workflows.
This section shows the multiple functionalities of the Intelligent.OCR package.
Você pode fazer isso usando a atividade Digitize Document . Isso recupera o texto de qualquer PDF ou imagem, usando, apenas se necessário, o mecanismo OCR de sua escolha.
- Como os documentos são processados um a um, eles passam pelo processo de digitalização. A diferença para documentos não digitais (digitalizados) é que você precisa aplicar o mecanismo de OCR de sua escolha. As saídas desta etapa são o Document Object Model e uma variável de string contendo todo o texto do documento e são passadas para as próximas etapas.
Você pode fazer isso usando a atividade Classify Document . Isso permite identificar que tipo de documento é um arquivo usando qualquer algoritmo de classificação.
Após a digitalização, o documento é classificado. Se você estiver trabalhando com vários tipos de documentos no mesmo projeto, para extrair os dados corretamente, você precisa saber com que tipo de documento está trabalhando. O importante é que você pode usar vários classificadores no mesmo escopo, pode configurar os classificadores e, posteriormente no framework, treiná-los. Os resultados da classificação ajudam na aplicação da estratégia correta na extração.
The following list shows the available classifiers:
- A atividade Keyword Based Classifier é o primeiro classificador desse tipo, direcionando a classificação para documentos títulos.
- A atividade Intelligent Keyword Classifier pode não apenas classificar, mas também "dividir" arquivos que contêm vários tipos de documentos dentro deles.
- The Machine Learning Classifier activity can classify your files using a powerful ML Model, that can you can train according to your needs.
- The Generative Classifier activity allows you to classify documents using generative models.
Você pode fazer isso usando a atividade Present Classification Station Attended , que apresenta uma interface de usuário específica do processamento de documentos para validar e corrigir as saídas de classificação automática.
- Especialmente para casos de uso em que a divisão de arquivos está envolvida, o uso da etapa de validação de classificação humana é altamente recomendável, para garantir que o processamento downstream para extração de dados funcione corretamente.
- Uma alternativa à atividade Attended está disponível através do uso de Fluxos de Trabalho de Longa Execução, que são projetados para habilitar de forma otimizada a colaboração humano-robô. As atividades Create Document Classification Actions e Wait for Document Classification Actions and Resume habilitam esse cenário.
Você pode fazer isso usando a atividade Train Classifiers Scope . Isso capacita o fechamento do ciclo de feedback para qualquer algoritmo de classificação capaz de aprender. Arraste e solte seus treinadores de classificadores dentro desta atividade do Escopo e habilite-os usando o assistente Configurar Classificadores para garantir que as informações validadas por humanos por meio da Estação de Classificação ou Estação de Validação sejam usadas por seus classificadores para melhorar seu próprio desempenho.
A classificação é tão eficiente quanto os classificadores usados. Se um documento não foi classificado corretamente, significa que era desconhecido dos classificadores ativos. O Framework oferece a oportunidade de treinar os classificadores, para melhorar o reconhecimento das classes de documentos.
The following is a list of the available classifier trainers:
- O Keyword Based Classifier Trainer é a atividade do treinador emparelhada com o Classificador baseado em palavras-chave.
- O Intelligent Keyword Classifier Trainer habilita o loop de feedback para o Intelligent Keyword Classifier.
- The Machine Learning Classifier Trainer is the trainer activity paired with the Machine Learning Classifier.
Você pode fazer isso usando a atividade Data Extraction Scope . Isso permite o uso de qualquer algoritmo de extração de dados para identificar diferentes campos em um documento classificado.
A extração está obtendo apenas os dados nos quais você está interessado de um determinado tipo de documento. Por exemplo, extrair dados específicos de um documento de 5 páginas é bastante problemático se você quiser fazer isso com manipulação de string. Nesta estrutura, você pode usar extratores diferentes, para as diferentes estruturas de documentos, no mesmo escopo de extração de dados. Os resultados da extração são passados para validação.
The following is a list of available extractors:
- O RegEx Based Extractor é um extrator de dados básico que aplica a correspondência de expressões regulares para identificar os melhores candidatos para um campo específico.
- O Form Extractor usa modelos predefinidos para habilitar o processamento de documentos de formulário fixo e estruturado.
- The Machine Learning Extractor leverages the power of AI and Machine Learning to identify information in structured or semi-structured documents by either using one of UiPath®'s public data extraction services or by calling custom trained Machine Learning models that you can build and host in AI Center. This activity is part of the UiPath.DocumentUnderstanding.ML.Activities package.
- The Generative Extractor allows you to extract documents using generative models. This activity is part of the UiPath.DocumentUnderstanding.ML.Activities package.
Você pode fazer isso usando a atividade Present Validation Station Attended , que apresenta uma interface de usuário específica de processamento de documentos para validação e correção de dados.
- Os dados extraídos podem ser validados por um usuário humano através da Estação de Validação. Uma boa prática é construir uma lógica em torno da decisão de adicionar ou não uma etapa de validação humana, com regras dependendo do caso de uso específico a ser implementado. Os resultados da validação podem ser exportados e usados em outras atividades de automação.
- Também é possível habilitar a validação manual por meio de Fluxos de trabalho de longa duração, otimizando a colaboração humano-robô. As ActionsCriar validação de documento e Aguardar Actions de validação de documento e retomar
.
Você pode fazer isso usando a atividade Train Extractors Scope . Isso capacita o fechamento do ciclo de feedback para qualquer algoritmo de extração de dados capaz de aprender. Arraste e solte seus treinadores de extratores dentro desta atividade do Escopo e habilite-os usando o assistente Configurar Extratores para garantir que as informações validadas por humanos por meio da Estação de Validação sejam usadas por seus extratores para melhorar seu próprio desempenho.
- A extração é tão eficiente quanto os extratores utilizados. Se os valores dos campos não foram extraídos corretamente, significa que eles eram desconhecidos para os extratores ativos. O Framework oferece a oportunidade de treinar os extratores, para melhorar o reconhecimento dos valores de campo.
- O Machine Learning Extractor Trainer fecha o loop de feedback para a extração de dados baseada em ML, coletando os dados necessários para um novo treinamento de um modelo de Machine Learning hospedado no AI Center. Essa atividade funciona em conjunto com o Machine Learning Extractor e faz parte do pacote UiPath.DocumentUnderstanding.ML.Activities .
Você pode fazer isso usando a atividade Export Extraction Results . Isso permite exportar a estrutura complexa dos dados extraídos para um DataSet simples (conjunto de DataTables).
- Depois de ter suas informações validadas, você pode usá-las como estão ou salvá-las em um formato DataTable que pode ser convertido facilmente em um arquivo Excel.
O pacote UiPath.IntelligentOCR.Activities é compatível com qualquer classificação personalizada ou atividade de extração de dados que seja criada com base no pacote público UiPath.DocumentProcessing.Contracts . Ele oferece total flexibilidade para construir seu próprio algoritmo específico para seu caso de uso, além de integrá-lo com qualquer solução de terceiros para classificação de documentos e extração de dados.
As seguintes versões do pacote foram removidas do feed oficial. Se você tiver algum problema, entre em contato com nossas equipes de suporte.
- Importante
- Version compatibility
- Supported formats
- Support for C# project language
- Funcionalidades
- Digitalize documentos
- Classifique documentos
- Validar classificação automática
- Classificadores de trem
- Extrair dados de documentos
- Valide os resultados da extração automática de dados
- extratores de trem
- Exportar informações extraídas