- Visão geral
- Processo do Document Understanding
- Tutoriais de início rápido
- Componentes do framework
- Pacotes de ML
- Pipelines
- Sobre pipelines
- Pipelines de treinamento
- Pipelines de avaliação
- Pipelines completos
- Ajuste fino
- O loop de ajuste fino automático (pré-visualização pública)
- Document Manager
- Serviços de OCR
- Document Understanding implantado no Automation Suite
- Document Understanding implantado no AI Center autônomo
- Aprendizagem profunda
- Licenciamento
- Referências
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Guia do usuário do Document Understanding.
O loop de ajuste fino automático (pré-visualização pública)
Ao treinar/retreinar um modelo de ML, a primeira coisa a ter em mente é que os melhores resultados são obtidos acumulando todos os dados em um único conjunto de dados grande e, idealmente, cuidadosamente selecionado. Treinar no conjunto de dados A e, em seguida, treinar novamente o modelo resultante no conjunto de dados B produzirá resultados muito piores do que treinar no conjunto de dados combinado A+B.
A segunda coisa a ter em mente é que nem todos os dados são iguais. Os dados rotulados em uma ferramenta dedicada como o Document Manager são, em geral, de melhor qualidade e resultarão em um modelo de melhor desempenho do que os dados rotulados em ferramentas com um foco diferente - como o Validation Station. Os dados do Validation Station podem ser de alta qualidade do ponto de vista do processo de negócios, mas menos do ponto de vista do treinamento do modelo, porque um modelo de ML precisa de dados em uma forma muito específica, sendo quase sempre diferente da forma necessária para processos de negócios. Por exemplo, em uma fatura de 10 páginas, o número da fatura pode aparecer em cada página, mas no Validation Station é suficiente indicá-lo na primeira página, enquanto no Document Manager você o rotularia em todas as páginas. Nesse caso, 90% dos rótulos corretos estão faltando nos dados do Validation Station. Por esta razão, os dados do Validation Station têm utilidade limitada, conforme descrito acima.
Para treinar efetivamente um modelo de ML, você precisa de um conjunto de dados único, completo, de alta qualidade e representativo. Uma abordagem cumulativa, portanto, é adicionar mais dados ao conjunto de dados de entrada e, portanto, treinar o modelo de ML com um conjunto de dados maior a cada vez. Uma maneira de fazer isso é usar o loop de ajuste fino automático.
Para entender melhor esse recurso, vamos ver onde o ajuste fino automático se encaixa no ciclo de vida do modelo de ML.