- Visão geral
- Introdução
- Atividades
- Painéis de insights
- Processo do Document Understanding
- Tutoriais de início rápido
- Componentes do framework
- Detalhes do modelo
- Visão geral
- Document Understanding - Pacote de ML
- DocumentClassifier - Pacote de ML
- Pacotes de ML com recursos de OCR
- 1040 - Pacote de ML
- 1040 Schedule C - Pacote de ML
- 1040 Schedule D - Pacote de ML
- 1040 Schedule E - Pacote de ML
- 1040x - Pacote de ML
- 3949a - Pacote de ML
- 4506T - Pacote de ML
- 709 - Pacote de ML
- 941x - Pacote de ML
- 9465 - Pacote de ML
- ACORD125 - Pacote de ML
- ACORD126 - Pacote de ML
- ACORD131 - Pacote de ML
- ACORD140 - Pacote de ML
- ACORD25 - Pacote de ML
- Extratos bancários - Pacote de ML
- ConhecimentoDeEmbarque - Pacote de ML
- Certificado de incorporação - Pacote de ML
- Certificado de origem - Pacote de ML
- Cheques - Pacote de ML
- Certificado de produtos filhos - Pacote de ML
- CMS1500 — Pacote de ML
- Declaração de Conformidade da UE - Pacote de ML
- Demonstrações financeiras - Pacote de ML
- FM1003 - Pacote de ML
- I9 - Pacote de ML
- Cartões de identificação - Pacote de ML
- Faturas - Pacote de ML
- FaturasAustrália - Pacote de ML
- FaturasChina - Pacote de ML
- Faturas em hebraico - Pacote de ML
- FaturasÍndia - Pacote de ML
- FaturasJapão - Pacote de ML
- Envio de faturas - Pacote de ML
- Romaneio de carga - Pacote de ML
- Contracheques — Pacote de ML
- Passaportes - Pacote de ML
- Ordens de compra - Pacote de ML
- Recibos – Pacote de ML
- AvisosDePagamento - Pacote de ML
- UB04 - Pacote de ML
- Contas de serviços - Pacote de ML
- Títulos de veículos - Pacote de ML
- W2 - Pacote de ML
- W9 - Pacote de ML
- Outros pacotes de ML prontos para uso
- Endpoints públicos
- Limitações de tráfego
- Configuração de OCR
- Pipelines
- Pipelines de treinamento
- Pipelines de avaliação
- Pipelines completos
- Ajuste fino
- O loop de ajuste fino automático (pré-visualização pública)
- Serviços de OCR
- Idiomas suportados
- Aprendizagem profunda
- Dados e segurança
- Lógica de licenciamento e carregamento

Document Understanding classic user guide
O loop de ajuste fino automático (pré-visualização pública)
Ao treinar/retreinar um modelo de ML, a primeira coisa a ter em mente é que os melhores resultados são obtidos acumulando todos os dados em um único conjunto de dados grande e, idealmente, cuidadosamente selecionado. Treinar no conjunto de dados A e, em seguida, treinar novamente o modelo resultante no conjunto de dados B produzirá resultados muito piores do que treinar no conjunto de dados combinado A+B.
A segunda coisa a ter em mente é que nem todos os dados são os mesmos. Os dados rotulados em uma ferramenta dedicada, como o Document Manager, são de melhor qualidade e resultarão em um modelo de melhor desempenho do que os dados rotulados em ferramentas com foco diferente - como o Validation Station. Os dados da Estação de validação podem ser de alta qualidade do ponto de vista do processo de negócios, mas menos do ponto de vista do treinamento de modelos, porque um Modelo de ML precisa de dados de uma forma muito específica, que é quase sempre diferente da forma necessária pelos processos de negócios. dados de dados Por exemplo, em uma fatura de 10 páginas, o número da fatura pode aparecer em cada página, mas na Validation Station é suficiente indicá-lo na primeira página, enquanto no Document Manager você o rotularia em todas as páginas. Nesse caso, 90% dos rótulos corretos estão ausentes dos dados da Estação de validação. Por esse motivo, os dados da Estação de validação têm uma utilidade limitada.
Para treinar efetivamente um modelo de ML, você precisa de um conjunto de dados único, completo, de alta qualidade e representativo. Uma abordagem cumulativa, portanto, é adicionar mais dados ao conjunto de dados de entrada e, portanto, treinar o modelo de ML com um conjunto de dados maior a cada vez. Uma maneira de fazer isso é usar o loop de ajuste fino automático.
O ciclo de vida de um modelo de ML
No ciclo de vida de qualquer modelo de Machine Learning, existem duas fases principais:
- a fase de construção e
- A fase de manutenção
A fase de compilação
Nesta primeira fase, você usa o Document Manager para preparar o conjunto de dados de treinamento e o conjunto de dados de avaliação para obter o melhor desempenho possível.
Ao mesmo tempo, você cria a automação de RPA e a lógica comercial em torno do modelo de ML, sendo pelo menos tão importante quanto o próprio modelo para obter o retorno do investimento esperado.
A fase de manutenção
Nesta segunda fase, você tenta manter o nível de alto desempenho alcançado na fase de construção, evitando regressões.
O ajuste fino automático (e os dados do Validação do Station em geral) pertencem estritamente à fase de manutenção. O objetivo do ajuste fino automático é principalmente impedir que o modelo de ML regrida à medida que os dados que fluem pelo processo mudam.
Data fed back from the human validation using Validation Station should not be used to build a model from scratch. Building a model should be done by preparing training and evaluation datasets in Document Manager.
Os componentes de loop automático de ajuste fino
O loop de ajuste fino automático tem os seguintes componentes:
- Fluxo de trabalho do robô: atividade Machine Learning Extractor Trainer
- Document Manager: funcionalidade Agendar Exportação
- AI Center: Pipeline de retreinamento automático programado
-
- (Optional) Auto-update ML Skills
Pré-requisitos
Para poder implementar esta funcionalidade, dois requisitos devem ser atendidos de antemão:
-
Você precisa ter criado uma sessão do Document Manager no AI Center e ter configurado um certo número de campos, mais precisamente para rotular conjuntos de dados de treinamento e avaliação de alta qualidade. Você pode definir manualmente seus campos ou importar um esquema. Caso os campos não sejam configurados, a aba Agendar (Pré-visualização) não é habilitada e a seguinte mensagem é exibida na tela:

-
Você precisa ter treinado algumas versões do seu modelo de ML, testado, corrigido quaisquer problemas que possam ter ocorrido e implantado em sua automação de RPA+IA.
1. Fluxo de trabalho do robô: atividade Machine Learning Extractor Trainer
-
Add the Machine Learning Extractor Trainer activity into your workflow in a Train Extractors Scope and properly configure the scope
-
Make sure the Framework Alias contains the same alias as the Machine Learning Extractor alias in the Data Extraction Scope.
-
Select the Project and the Dataset associated with the Document Manager session that contains your Training and Evaluation datasets. The drop-down menus are prepopulated once you are connected to Orchestrator.
Observação:You can set a value for the Output Folder property if you want to export the data locally in the workflow.

Você pode verificar o nome do conjunto de dados na visão Rotulagem de dados no AI Center, ao lado do nome da sessão Rotulagem de dados:

Para o conjunto de dados selecionado, o que a atividade do Machine Learning Extractor Trainer faz é criar uma pasta chamada ajuste fino e gravar os documentos exportados em 3 pastas: documentos, metadados e previsões.

Esta pasta foi designada para a importação automática de dados para o Document Manager. Os dados importados serão mesclados com os dados existentes anteriormente. Os dados mesclados serão exportados no formato correto para uso em um pipeline de Treinamento ou Completo. Os dados importados são automatically categorizados em dois conjuntos: treinamento e validação, mantendo uma divisão de 80% / 20%. Como resultado, os dados exportados conterão conjuntos de treinamento e validação dos dados recém-coletados. Os dados são importados automaticamente somente se a exportação Agendada estiver habilitada no Document Manager.
2. Document Manager: funcionalidade Agendar Exportação
From a Document Manager session, select the Export button
, go to the Schedule (Preview) tab, and enable the Scheduling slider. Then select a start time and a recurrence. When ready, select the Schedule button.
A caixa de seleção Exportação compatível com versões anteriores permite aplicar o comportamento de exportação herdado, que é exportar cada página como um documento separado. Tente isso se o modelo treinado usando a exportação padrão estiver abaixo das expectativas. Deixe esta opção desmarcada para exportar os documentos em seu formulário original de várias páginas.
The minimum recurrence is 7 days and the maximum recurrence is 60 days. Given the fact that AI Center training pipelines are mainly configured to run weekly, a recurrence of 7 days is recommended.

When you set the schedule for export, the imported data from the fine-tune folder is exported to the export folder under auto-export time_stamp.
There is a 2000 page import limit per auto-retrain run.
Para ser mais específico, a exportação agendada importa os dados que existem na pasta ajuste fino criada na Etapa 1 e, em seguida, exporta o conjunto de dados completo, incluindo os dados existentes anteriormente e os dados recém-importados do Validation Station, para a pasta de exportação. Assim, a cada exportação programada, o conjunto de dados exportado fica cada vez maior.
The file latest.txt is updated or created if this is the first scheduled export. Here you can check the name of the latest export made by Document Manager. Schema export, however, does not update latest.txt. This file is used by the auto-retraining pipeline in AI Center to determine which is the latest export so it can always train on the latest data, so you should never remove or modify it, otherwise, your auto-retraining pipelines will fail.

The Scheduled import+export operation might take up to 1-2 hours, depending on how much data was sent from Step 1 during the previous week. We recommend you choose a time when you will not use the Document Manager due to the fact that when an export operation is ongoing no other exports or imports are allowed. However, labeling is always possible.
3. AI Center: Pipeline de retreinamento automático programado
Ao agendar um treinamento ou pipeline completo no AI Center, há alguns aspectos que precisam ser levados em consideração.
Primeiro, é altamente recomendável que você crie um conjunto de dados de avaliação e agende apenas pipelines completos. Os pipelines completos executam o treinamento e a avaliação juntos, e o pipeline de avaliação usa o conjunto de dados de avaliação para produzir uma pontuação. Essa pontuação será fundamental para decidir se a nova versão é melhor que a anterior e pode ser implantada para ser consumida por Robôs.
Além disso, para o pipeline completo, você precisa especificar dois conjuntos de dados: um conjunto de dados de entrada e um conjunto de dados de avaliação.

Não há alteração no conjunto de dados de avaliação no contexto da funcionalidade de loop de ajuste fino automático. Você ainda precisa selecionar um conjunto de dados como de costume, contendo as duas pastas: imagens e mais recentes, e os dois arquivos: schema.json e split.csv.
No entanto, o conjunto de dados de entrada não é mais um conjunto de dados, você precisa selecionar a pasta export no conjunto de dados do AI Center que está conectado à sessão do Data Labelling. Dessa forma, o treinamento é executado na exportação mais recente de sua sessão do Data Labelling, enquanto a avaliação é executada no mesmo conjunto de dados de avaliação que você especificou.
If you do not select the export folder, the auto-retraining does not work.
Terceiro, você precisa definir a variável de ambiente de retreinamento automático como True.
Por fim, você precisa selecionar Recorrente e definir um dia e hora para deixar tempo suficiente para que a exportação do Document Manager seja concluída. Por exemplo, se a exportação do Document Manager for executada à 1h no sábado, o Pipeline poderá ser executado às 2 ou 3h no sábado. Se a exportação não for concluída quando o pipeline for executado, ele usará a exportação anterior e poderá treinar novamente nos mesmos dados treinados na semana anterior.

4. (Opcional) Atualização automática das Habilidades de ML
Se você deseja implantar automaticamente a versão mais recente do pacote de ML produzido pelos pipelines de treinamento agendados automaticamente, você pode habilitar a funcionalidade de atualização automática em Habilidade de ML.
The ML Skill is automatically updated regardless of whether the accuracy score improved over the previous training, so please use this feature with care. In some cases, it is possible that the overall score improves even if a specific field might regress a little bit. However, that field might be critical for your business process, so auto-updating and auto-retraining, in general, requires careful monitoring in order to be successful.

O loop de ajuste fino automático está concluído. Agora, você pode retreinar automaticamente seus modelos de ML usando dados do Validation Station.
- O ciclo de vida de um modelo de ML
- A fase de compilação
- A fase de manutenção
- Os componentes de loop automático de ajuste fino
- Pré-requisitos
- 1. Fluxo de trabalho do robô: atividade Machine Learning Extractor Trainer
- 2. Document Manager: funcionalidade Agendar Exportação
- 3. AI Center: Pipeline de retreinamento automático programado
- 4. (Opcional) Atualização automática das Habilidades de ML