Atividades
Mais recente
falso
Imagem de fundo do banner
Atividades de Document Understanding
Última atualização 29 de abr de 2024

About the IntelligentOCR activity package

UiPath.IntelligentOCR.Activities contains the infrastructure for enabling document processing flows using a complete, open, extensible approach.

Versão removida

Versão recomendada

4.3.0-visualização | 4.4.0-visualização

4.5.2

2.1.0 | 2.2.0 | 2.3.0

4.0.1

1.4.0 | 1.5.0 | 1.6.0 | 1.6.1 | 2.0.0 | 2.0.1

2.0.2

1.2.0 | 1.2.1 | 1.3.0

1.3.2

Importante

  • Starting with the v6.19.0 release, when installing the UiPath.IntelligentOCR.Activities package in a project, the UiPath.DocumentUnderstanding.ML.Activities package is automatically installed as well and you do not need to install it separately.
  • If you are using UiPath® Studio 2023.4.4 or earlier, make sure to install the latest version of Windows .NET 6.0 Desktop Runtime.

Version compatibility

Updating the UiPath.IntelligentOCR.Activities also requires an update for the UiPath.UIAutomation.Activities package and for UiPath.OCR.Activities package if included in the project.

UiPath.IntelligentOCR.Activities and UiPath.DocumentUnderstanding.Activities should not be used together in the same project. The UiPath.IntelligentOCR.Activities package should be used for Windows (or Legacy) workflows, while the UiPath.DocumentUnderstanding.Activities package should be used for Cross-platform workflows.

Supported formats

The IntelligentOCR activity package can support any of the following file types: .png, .gif, .jpe, .jpg, .jpeg, .tiff, .tif, .bmp, and .pdf.

Support for C# project language

A partir da versão 4.10.0, este pacote de atividades é validado para uso em projetos C#.

Funcionalidades

This section shows the multiple functionalities of the Intelligent.OCR package.

Digitalize documentos

Você pode fazer isso usando a atividade Digitize Document . Isso recupera o texto de qualquer PDF ou imagem, usando, apenas se necessário, o mecanismo OCR de sua escolha.

  • Como os documentos são processados um a um, eles passam pelo processo de digitalização. A diferença para documentos não digitais (digitalizados) é que você precisa aplicar o mecanismo de OCR de sua escolha. As saídas desta etapa são o Document Object Model e uma variável de string contendo todo o texto do documento e são passadas para as próximas etapas.

Classifique documentos

Você pode fazer isso usando a atividade Classify Document . Isso permite identificar que tipo de documento é um arquivo usando qualquer algoritmo de classificação.

Após a digitalização, o documento é classificado. Se você estiver trabalhando com vários tipos de documentos no mesmo projeto, para extrair os dados corretamente, você precisa saber com que tipo de documento está trabalhando. O importante é que você pode usar vários classificadores no mesmo escopo, pode configurar os classificadores e, posteriormente no framework, treiná-los. Os resultados da classificação ajudam na aplicação da estratégia correta na extração.

The following list shows the available classifiers:

  • A atividade Keyword Based Classifier é o primeiro classificador desse tipo, direcionando a classificação para documentos títulos.
  • A atividade Intelligent Keyword Classifier pode não apenas classificar, mas também "dividir" arquivos que contêm vários tipos de documentos dentro deles.
  • The Machine Learning Classifier activity can classify your files using a powerful ML Model, that can you can train according to your needs.
  • The Generative Classifier activity allows you to classify documents using generative models.

Validar classificação automática

Você pode fazer isso usando a atividade Present Classification Station Attended , que apresenta uma interface de usuário específica do processamento de documentos para validar e corrigir as saídas de classificação automática.

  • Especialmente para casos de uso em que a divisão de arquivos está envolvida, o uso da etapa de validação de classificação humana é altamente recomendável, para garantir que o processamento downstream para extração de dados funcione corretamente.
  • Uma alternativa à atividade Attended está disponível através do uso de Fluxos de Trabalho de Longa Execução, que são projetados para habilitar de forma otimizada a colaboração humano-robô. As atividades Create Document Classification Actions e Wait for Document Classification Actions and Resume habilitam esse cenário.

Classificadores de trem

Você pode fazer isso usando a atividade Train Classifiers Scope . Isso capacita o fechamento do ciclo de feedback para qualquer algoritmo de classificação capaz de aprender. Arraste e solte seus treinadores de classificadores dentro desta atividade do Escopo e habilite-os usando o assistente Configurar Classificadores para garantir que as informações validadas por humanos por meio da Estação de Classificação ou Estação de Validação sejam usadas por seus classificadores para melhorar seu próprio desempenho.

A classificação é tão eficiente quanto os classificadores usados. Se um documento não foi classificado corretamente, significa que era desconhecido dos classificadores ativos. O Framework oferece a oportunidade de treinar os classificadores, para melhorar o reconhecimento das classes de documentos.

The following is a list of the available classifier trainers:

Extrair dados de documentos

Você pode fazer isso usando a atividade Data Extraction Scope . Isso permite o uso de qualquer algoritmo de extração de dados para identificar diferentes campos em um documento classificado.

A extração está obtendo apenas os dados nos quais você está interessado de um determinado tipo de documento. Por exemplo, extrair dados específicos de um documento de 5 páginas é bastante problemático se você quiser fazer isso com manipulação de string. Nesta estrutura, você pode usar extratores diferentes, para as diferentes estruturas de documentos, no mesmo escopo de extração de dados. Os resultados da extração são passados para validação.

The following is a list of available extractors:

Valide os resultados da extração automática de dados

Você pode fazer isso usando a atividade Present Validation Station Attended , que apresenta uma interface de usuário específica de processamento de documentos para validação e correção de dados.

  • Os dados extraídos podem ser validados por um usuário humano através da Estação de Validação. Uma boa prática é construir uma lógica em torno da decisão de adicionar ou não uma etapa de validação humana, com regras dependendo do caso de uso específico a ser implementado. Os resultados da validação podem ser exportados e usados em outras atividades de automação.
  • Também é possível habilitar a validação manual por meio de Fluxos de trabalho de longa duração, otimizando a colaboração humano-robô. As ActionsCriar validação de documento e Aguardar Actions de validação de documento e retomar

    .

extratores de trem

Você pode fazer isso usando a atividade Train Extractors Scope . Isso capacita o fechamento do ciclo de feedback para qualquer algoritmo de extração de dados capaz de aprender. Arraste e solte seus treinadores de extratores dentro desta atividade do Escopo e habilite-os usando o assistente Configurar Extratores para garantir que as informações validadas por humanos por meio da Estação de Validação sejam usadas por seus extratores para melhorar seu próprio desempenho.

  • A extração é tão eficiente quanto os extratores utilizados. Se os valores dos campos não foram extraídos corretamente, significa que eles eram desconhecidos para os extratores ativos. O Framework oferece a oportunidade de treinar os extratores, para melhorar o reconhecimento dos valores de campo.
  • O Machine Learning Extractor Trainer fecha o loop de feedback para a extração de dados baseada em ML, coletando os dados necessários para um novo treinamento de um modelo de Machine Learning hospedado no AI Center. Essa atividade funciona em conjunto com o Machine Learning Extractor e faz parte do pacote UiPath.DocumentUnderstanding.ML.Activities .

Exportar informações extraídas

Você pode fazer isso usando a atividade Export Extraction Results . Isso permite exportar a estrutura complexa dos dados extraídos para um DataSet simples (conjunto de DataTables).

  • Depois de ter suas informações validadas, você pode usá-las como estão ou salvá-las em um formato DataTable que pode ser convertido facilmente em um arquivo Excel.

O pacote UiPath.IntelligentOCR.Activities é compatível com qualquer classificação personalizada ou atividade de extração de dados que seja criada com base no pacote público UiPath.DocumentProcessing.Contracts . Ele oferece total flexibilidade para construir seu próprio algoritmo específico para seu caso de uso, além de integrá-lo com qualquer solução de terceiros para classificação de documentos e extração de dados.

As seguintes versões do pacote foram removidas do feed oficial. Se você tiver algum problema, entre em contato com nossas equipes de suporte.

Was this page helpful?

Obtenha a ajuda que você precisa
Aprendendo RPA - Cursos de automação
Fórum da comunidade da Uipath
Logotipo branco da Uipath
Confiança e segurança
© 2005-2024 UiPath. All rights reserved.