Guia do usuário do Document Understanding.

ENTREGA:

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

Última atualização 29 de jul de 2024

Machine Learning Extractor

O que Machine Learning Extractor

O Machine Learning Extractor é uma ferramenta de extração de dados que usa modelos de aprendizado de máquina para identificar e relatar dados direcionados para extração de dados.

Esta atividade funciona em conjunto com os Modelos do UiPath Document Understanding, como meio de consumir esses modelos em seus fluxos de trabalho.

A abordagem de machine learning (ML) é fortemente recomendada para documentos estruturados ou semiestruturados nos quais os layouts de diferentes provedores de documentos variam muito. Dada sua abordagem de machine learning, o extrator usa um modelo de machine learning treinado, que aprende e pode então inferir valores para os campos de destino, mesmo em documentos e layouts que nunca foram vistos antes. Em outras palavras, se os documentos não seguem um padrão de texto ou layout, o Machine Learning Extractor pode ser uma boa opção para o seu caso de uso.

O Modelo de Machine Learning pode ser usado de várias maneiras:

com um dos endpoints públicos do Document Understanding do UiPath, se você deseja usar modelos genéricos direcionados a determinados tipos de documentos; ou
com modelos de machine learning treinados personalizados a partir dos modelos disponíveis do UiPath Document Understanding.

Este extrator pode ser treinado / retreinado. Consulte a seção Como treinar para obter detalhes.

Importante: imagens com resolução inferior a 50x50 pixels não podem ser processadas, gerando um erro.

Requisitos especiais

Você precisa usar

um dos endpoints públicos do Document Understanding do UiPath para extração de dados ou
modelos de machine learning hospedados no AI Center no Automation Cloud ou
modelos de machine learning hospedados no AI Center local, mas licenciados por meio do Automation Cloud; você precisa usar sua chave de API do Automation Cloud Document Understanding.

Para usar o Machine Learning Extractor com licenciamento local, você precisa hospedar seus modelos do Document Understanding em sua instância do AI Center local (instalação isolada).

Como configurar

Configuração da atividade

Se o endpoint que você está usando for licenciado por meio do Automation Cloud, é necessário fornecer sua chave de API do Cloud Document Understanding.

Se você estiver usando o Machine Learning Extractor com um endpoint público do UiPath Document Understanding ou com uma Habilidade de ML pública no AI Center, será necessário configurar o argumento Endpoint da atividade com o URL correspondente.

Se você estiver usando o Machine Learning Extractor com uma Habilidade de ML implantada, precisará configurar o argumento Habilidade de ML da atividade com a seleção correta da lista de habilidades de ML hospedada no AI Center.

Se você tentar implantar ambas as opções, um erro será exibido - no Assistente de Configuração ou diretamente no fluxo de trabalho:

Configurando recursos do Extrator de ML

Quando inserido pela primeira vez em uma atividade Data Extraction Scope, o Machine Learning Extractor abrirá um assistente de configuração. O mesmo assistente está disponível se você abrir o assistente Configurar Extratores do Data Extraction Scope e clicar no ícone de configuração sob o nome do extrator.

O assistente permite inserir um Ponto de extremidade ou uma Habilidade de ML, bem como fornecer uma ChaveDaAPI (se necessário). Se você inserir um Ponto de extremidade e uma ChaveDaAPI, precisará inseri-los sem aspas - e os valores não podem ser variáveis.

Se desejar, é possível usar a opção "Atualizar argumentos da atividade" para preencher previamente os argumentos da atividade com os valores adicionados no assistente.

Ao clicar na opção "Obter recursos", o Extrator de Machine Learning irá "ler e relatar" seus recursos internos (quais tipos de documentos e quais campos sabe processar), com o objetivo de ajudar você a configurar corretamente a extração de dados.

É recomendável usar o assistente de recursos do ML Extractor toda vez que alterar a Habilidade de ML ou Ponto de extremidade usado em seu fluxo de trabalho para garantir que a configuração e o mapeamento de taxonomia no escopo de extração de dados permaneçam válidos.

Configurando o Extrator de ML no Data Extraction Scope

Após a execução do assistente de recursos do ML Extractor, você notará que o assistente Configurar Extratores não apresenta mais caixas de texto para mapeamento de taxonomia, mas listas suspensas.

Expanda o tipo de documento para o qual deseja extrair dados e comece a selecionar os campos de destino, marcando as caixas de seleção ao lado dos campos apropriados e selecionando, na lista suspensa disponível, o campo correto do modelo de ML que você deseja mapear para cada campo específico. A lista suspensa contém todos os campos que o Machine Learning Extractor, usando o ponto de extremidade inserido no assistente do Machine Learning Extractor, declara como capacidade de extração.

Para verificar se você está usando os recursos mais recentes do extrator, clique em Obter ou atualizar recursos do extrator, o que abre o assistente do Machine Learning Extractor.

Importante: não é possível escolher a mesma opção para dois campos distintos.

Se você também deseja usar os recursos de treinamento do Extrator, é altamente recomendável inserir uma string exclusiva, valor alfanumérico, no campo de configuração Framework Alias e, em seguida, usar exatamente o mesmo valor de string no campo Framework Alias correspondente da configuração do Train Extractors Scope, para os treinadores que precisam receber os dados completos do treinamento.

Selecione o botão Salvar assim que todos os dados estejam configurados corretamente.

Como treinar

Use a atividade Machine Learning Extractor Trainer contida na atividade Train Extractors Scope para coletar dados de treinamento para sua instância do modelo Machine Learning Extractor. Os dados coletados dessa forma podem ser usados para curadoria e depois importados para fins de treinamento, em sua instância do AI Center (nuvem ou local).

Nesta página