- Visão geral
- Processo do Document Understanding
- Tutoriais de início rápido
- Componentes do framework
- Pacotes de ML
- Visão geral
- Document Understanding - Pacote de ML
- DocumentClassifier - Pacote de ML
- Pacotes de ML com recursos de OCR
- 1040 - Pacote de ML
- 4506T - Pacote de ML
- 990 - Pacote de ML - Prévia
- ACORD125 - Pacote de ML
- ACORD126 - Pacote de ML
- ACORD131 - Pacote de ML
- ACORD140 - Pacote de ML
- ACORD25 - Pacote de ML
- Extratos bancários - Pacote de ML
- ConhecimentoDeEmbarque - Pacote de ML
- Certificado de incorporação - Pacote de ML
- Certificado de origem - Pacote de ML
- Cheques - Pacote de ML
- Certificado de produtos filhos - Pacote de ML
- CMS1500 — Pacote de ML
- Declaração de Conformidade da UE - Pacote de ML
- Demonstrações financeiras - Pacote de ML
- FM1003 - Pacote de ML
- I9 - Pacote de ML
- Cartões de identificação - Pacote de ML
- Faturas - Pacote de ML
- FaturasAustrália - Pacote de ML
- FaturasChina - Pacote de ML
- FaturasÍndia - Pacote de ML
- FaturasJapão - Pacote de ML
- Envio de faturas - Pacote de ML
- Romaneio de carga - Pacote de ML
- Passaportes - Pacote de ML
- Contracheques — Pacote de ML
- Ordens de compra - Pacote de ML
- Recibos - Pacote de ML
- AvisosDePagamento - Pacote de ML
- Contas de serviços - Pacote de ML
- Títulos de veículos - Pacote de ML
- W2 - Pacote de ML
- W9 - Pacote de ML
- Outros pacotes de ML prontos para uso
- Endpoints públicos
- Requisitos de Hardware
- Pipelines
- Document Manager
- Serviços de OCR
- Aprendizagem profunda
- Document Understanding implantado no Automation Suite
- Document Understanding implantado no AI Center autônomo
- Licenciamento
- Atividades
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Caixas de seleção e assinaturas
Existem diversos tipos de campos de múltipla escolha que usam caixas de seleção:
- as caixas de seleção mutuamente exclusivas
- as caixas de seleção não mutuamente exclusivas, onde você pode selecionar mais de uma opção.
Outro aspecto importante é o número de opções disponíveis para um determinado campo de múltipla escolha. Em alguns casos, pode haver uma única opção, na qual a caixa de seleção está marcada ou não; em outros casos pode haver 10, 20 ou mais opções, organizadas em uma grade ou tabela, como em muitos formulários de saúde.
Há duas maneiras principais pelas quais você pode rotular esses tipos de campos de múltipla escolha.
Vamos dar um exemplo para entender como você pode rotular as opções. Os formulários podem incluir as opções Projeto ou Política. Neste caso, você tem apenas um campo e rotula somente a palavra selecionada, ou seja, rotula Projeto se a caixa de seleção ao lado dela estiver marcada ou Política se a caixa de seleção ao lado estiver marcada. Se nenhuma das palavras estiver marcada, nada será rotulado, e como ambas não marcadas não é um resultado aceitável, esses documentos seriam excluídos do conjunto de treinamento.
Essa abordagem tem a vantagem de ter um único campo, o que requer menos dados. Também tem a vantagem de não depender de uma detecção bem-sucedida de caixas de seleção. Se uma caixa de seleção for detectada como uma letra X, o modelo ainda poderá aprender a reconhecer que isso significa que a opção próxima a ela está selecionada.
A desvantagem é que você precisa garantir que ambas as opções sejam representadas de maneira aproximadamente igual, o que nem sempre é o caso. Potencialmente, em seu conjunto de treinamento, 90% dos documentos podem ter Projeto marcado. Nesse caso, o modelo pode não ter um bom desempenho e essa abordagem falha. O problema piora quando você tem mais opções, pois algumas delas quase sempre são pouco frequentes. Nesses casos, pode ser necessário criar documentos falsos com as opções menos frequentes marcadas para equilibrar a análise.
No exemplo acima, você pode ter um campo chamado Projeto onde sempre marca a caixa de seleção para Projeto, e um campo chamado Política onde sempre marca a caixa de seleção para Política, estejam elas marcadas ou não. Isso tem a vantagem de que o saldo importa muito menos, mesmo que uma das opções seja marcada 90% das vezes, o modelo ainda aprende a reconhecê-las, pois as caixas de seleção estão sempre no mesmo lugar.
A desvantagem é que você tem dois campos em vez de um. Quando há duas opções, isso pode não ser um grande problrma, mas quando há 10 a 20 opções, ter 10 a 20 campos em vez de um torna muito mais difícil rotular e o modelo é mais difícil de treinar, exigindo mais treinamento dados.
Outra desvantagem é que, às vezes, a caixa de seleção pode não ser detectada corretamente e pode ser necessário adicionar uma lógica mais complexa no fluxo de trabalho para lidar com todos os caracteres X, V ou K retornados. Em alguns casos, o OCR pode até mesclar a caixa de seleção com a palavra ao lado dela, como XProject, exigindo uma lógica de RPA ainda mais complexa para lidar com essa situação.
Os campos de valores múltiplos fazem parte da versão 2022.10 do Document UnderstandingTM. Isso facilita a rotulagem, não sendo afetado por opções desbalanceadas em verificação e não se houver um grande número de opções. No entanto, ainda depende da precisão da detecção da caixa de seleção ou do risco de que as caixas de seleção possam ser mescladas com as opções próximas a elas. Os erros de OCR são muito difíceis de previnir.
A partir do lançamento da versão 2022.4, Versão LTS Enterprise, as assinaturas podem ser detectadas usando o UiPath Document OCR, portanto, os modelos de aprendizado de máquina podem detectar assinaturas diretamente.
Rotule uma assinatura como qualquer outro campo é rotulado em seu documento. Uma vez detectado pelo UiPath Document OCR, o modelo de Machine Learning aprende a reconhecer o campo como uma assinatura.