- Visão geral
- Contratos de Processamento de Documentos
- Notas de versão
- Sobre os Contratos de Processamento de Documentos
- Classe Box
- Interface IPersistedActivity
- Classe PrettyBoxConverter
- Interface IClassifierActivity
- Interface IClassifierCapabilitiesProvider
- Classe ClassifierDocumentType
- Classe ClassifierResult
- Classe ClassifierCodeActivity
- Classe ClassifierNativeActivity
- Classe ClassifierAsyncCodeActivity
- Classe ClassifierDocumentTypeCapability
- Classe ExtractorAsyncCodeActivity
- Classe ExtractorCodeActivity
- Classe ExtractorDocumentType
- Classe ExtractorDocumentTypeCapabilities
- Classe ExtractorFieldCapability
- Classe ExtractorNativeActivity
- Classe ExtractorResult
- Interface ICapabilitiesProvider
- Interface IExtractorActivity
- Classe ExtractorPayload
- Enumeração DocumentActionPriority
- Classe DocumentActionData
- Enumeração DocumentActionStatus
- Enumeração DocumentActionType
- Classe DocumentClassificationActionData
- Classe DocumentValidationActionData
- Classe UserData
- Classe Document
- Classe DocumentSplittingResult
- Classe DomExtensions
- Classe Page
- Classe PageSection
- Classe Polígono
- Classe PolygonConverter
- Classe de metadados
- Classe WordGroup
- Classe Word
- Enumeração ProcessingSource
- Classe ResultsTableCell
- Classe ResultsTableValue
- Classe ResultsTableColumnInfo
- Classe ResultsTable
- Enumeração Rotation
- Enumeração SectionType
- Enumeração WordGroupType
- Interface IDocumentTextProjection
- Classe ClassificationResult
- Classe ExtractionResult
- Classe ResultsDocument
- Classe ResultsDocumentBounds
- Classe ResultsDataPoint
- Classe ResultsValue
- Classe ResultsContentReference
- Classe ResultsValueTokens
- Classe ResultsDerivedField
- Enumeração ResultsDataSource
- Classe ResultConstants
- Classe SimpleFieldValue
- Classe TableFieldValue
- Classe DocumentGroup
- Classe DocumentTaxonomy
- Classe DocumentType
- Classe Field
- Enumeração FieldType
- Classe LanguageInfo
- Classe MetadataEntry
- Enumeração de tipo de texto
- Classe TypeField
- Interface ITrackingActivity
- Interface ITrainableActivity
- Interface ITrainableClassifierActivity
- Interface ITrainableExtractorActivity
- Classe TrainableClassifierAsyncCodeActivity
- Classe TrainableClassifierCodeActivity
- Classe TrainableClassifierNativeActivity
- Classe TrainableExtractorAsyncCodeActivity
- Classe TrainableExtractorCodeActivity
- Classe TrainableExtractorNativeActivity
- Digitalizador do Document Understanding
- Document Understanding ML
- Document Understanding OCR Local Server
- Document Understanding
- Notas de versão
- Sobre o pacote de atividades Document Understanding
- Compatibilidade do projeto
- Definir Senha do PDF
- Merge PDFs
- Get PDF Page Count
- Extract PDF Text
- Extract PDF Images
- Extract PDF Page Range
- Extract Document Data
- Criar tarefa de validação e aguardar
- Aguarde a tarefa de validação e retome
- Create Validation Task
- Classificar Documento
- Create Classification Validation Task
- Create Classification Validation Task and Wait
- Aguardar a tarefa de Validação de Classificação e retomar
- IntelligentOCR
- Notas de versão
- Sobre o pacote de atividades IntelligentOCR
- Compatibilidade do projeto
- Configuração da autenticação
- Carregar Taxonomia
- Digitize Document
- Classificar Escopo do Documento
- Classificador baseado em palavra-chave
- Document Understanding Project Classifier
- Intelligent Keyword Classifier
- Create Document Classification Action
- Aguardar ação de classificação do documento e retomar
- Train Classifiers Scope
- Instrutor de Classificador Baseado em Palavra-chave
- Intelligent Keyword Classifier Trainer
- Escopo da Extração de Dados
- Document Understanding Project Extractor
- Regex Based Extractor
- Form Extractor
- Intelligent Form Extractor
- Present Validation Station
- Create Document Validation Action
- Wait For Document Validation Action And Resume
- Escopo de Extratores de Treinamento
- Exportar Resultados da Extração
- Serviços de ML
- OCR
- Contratos de OCR
- Notas de versão
- Sobre os Contratos OCR
- Compatibilidade do projeto
- Interface IOCRActivity
- Classe OCRAsyncCodeActivity
- Classe OCRCodeActivity
- Classe OCRNativeActivity
- Character Class
- Classe OCRResult
- Classe Word
- Enumeração FontStyles
- Enumeração OCRRotation
- Classe OCRCapabilities
- Classe OCRScrapeBase
- Classe OCRScrapeFactory
- Classe ScrapeControlBase
- Enumeração ScrapeEngineUsages
- ScrapeEngineBase
- Classe ScrapeEngineFactory
- Classe ScrapeEngineProvider
- OmniPage
- PDF
- [Não listado] Abbyy
- [Não listado] Abbyy Embedded
Form Extractor
UiPath.IntelligentOCR.Activities.DataExtraction.FormExtractor
O Form Extractor é mais adequado para extrair, combinar e relatar informações específicas, analisando a posição da palavra dentro do documento ou detectando uma assinatura. Esta atividade pode ser usada apenas em conjunto com a atividade Escopo de extração de dados . O texto manuscrito também pode ser detectado se a atividade Form Extractor for usada junto com a atividade UiPath Document OCR .
Painel de Propriedades
Comum
- NomeDeExibição - o nome de exibição da atividade.
Entrada
- ApiKey - Especifica a chave de API da conta. O campo Chave de API é automaticamente pré-preenchido se isso for definido nas configurações de projeto locais ou na estrutura do Document Understanding.
- Endpoint - O URL para o servidor UiPath®. Por padrão, o ponto de extremidade é
https://du.uipath.com/svc/formextractor
. Para obter mais informações, acesse Endpoints públicos do Document Understanding. - MinOverlapPercentage - Especifica a área de sobreposição mínima (em porcentagem) entre uma caixa no documento e uma caixa no modelo necessária para fazer uma extração. O valor percentual pode ser definido entre
0
e100
. O valor padrão é65
. - Tempo limite — especifica o tempo (em milissegundos) a ser aguardado para que uma resposta do servidor seja executada antes de gerar um erro. O valor padrão é 100.000 milissegundos (100 segundos).
Diversos
- Privado - Se selecionado, os valores de variáveis e argumentos não são mais registrados no nível Verbose.
Observação: vários modelos podem ser definidos para um tipo de documento. Quando a atividade é executada, o extrator seleciona o modelo mais adequado com base nas informações encontradas na primeira página.
Permite criar, editar, gerenciar e exportar/importar modelos para os tipos de documentos definidos na taxonomia.
Criar um modelo
- Adicione uma atividade Form Extractor a seu fluxo de trabalho dentro da atividade Data Extraction Scope.
- Configure o extrator selecionando Gerenciar modelos.
A janela Gerenciador de modelos é exibida.Figura 1. Visão geral do assistente Gerenciador de modelos
- Selecione Criar modelo para criar um novo modelo.
Figure 2. Overview of the Create a new template configuration fields
Observação:Se o pacote UiPath.IntelligentOCR.Activities for atualizado para a v5.1.0, em seguida, o parâmetro ForçarAplicaçãoDeOCR foi substituído pelo ApplyOcrOnPDF. Aqui está a compatibilidade entre os parâmetros antigos e novos:
- ForçarAplicaçãoDeOCR = True é substituído por AplicarOcrOnPDF = Yes;
- ForçarAplicaçãoDeOCR = False é substituído por ApplyOcrOnPDF = Auto;
- ForçarAplicaçãoDeOCR = Empty é substituído por ApplyOcrOnPDF = Auto;
- ForçarAplicaçãoDeOCR =
<user-defined variable>
é substituído por AplicarOcrOnPDF = Auto.
A opção Aplicar OCR em PDF estabelece se o processo de OCR deve ser aplicado ou não a documentos PDF. Três opções estão disponíveis na lista suspensa: True, Falsee Auto.
Se definido como True, o OCR é aplicado a todas as páginas PDF do documento. Se definido como False, apenas o texto inserido digitalmente é extraído. O valor padrão é Auto, determinando se o documento requer a aplicação do algoritmo OCR dependendo do documento de entrada.
Each OCR engine comes with its own set of custom options. Visit OCR Engine for more details about all options available for each OCR engine. The default OCR engine is UiPath Document OCR.
- Selecione o tipo de documento para o seu modelo na lista suspensa Tipo de documento
Observação: Todos os Tipos de documento são baseados na Taxonomia. Certifique-se de adicionar ou criar uma Taxonomia dentro da pasta do projeto.
- Adicione o nome do modelo no campo Nome do modelo. Escolha um nome relevante que reflita a versão ou o layout do seu documento.
- Adicione o caminho do documento no campo Modelo de documento.
Navigate to the file's path by using the Browse option.
- Selecione um OCR na lista suspensa Mecanismo de OCR e configure de acordo com suas necessidades.
- Selecione Configurar para disparar a edição do modelo.
If you have already created a template, then it can be edited, exported, or removed. Delete and Export options become available only when at least one template is selected. The Edit and Remove options for an individual template are always available.
Boolean
content interpretation, which is mapping a captured value to a Yes or No reported value.
Você pode importar modelos criados e exportados de outros fluxos de trabalho. Use esses recursos para compartilhar modelos entre projetos. Depois que um tipo de documento é configurado usando a atividade Form Extractor, você não precisa reconfigurar os modelos em uma nova implementação.
Procedimento de exportação
Essas são as etapas que você precisa seguir para exportar um modelo:
- Crie um ou mais modelos seguindo as etapas explicadas no início desta página.
- Selecione os modelos que deseja exportar.
- Selecione uma opção Exportar:
- Exportar com arquivos originais
A exportação com arquivos originais os anexa à exportação.
- Exportar sem arquivos originaisFigure 5. The action of selecting the Export with original files options
- Exportar com arquivos originais
- Salve o arquivo do modelo com o nome desejado.
- Uma mensagem é exibida assim que o modelo é salvo. Selecione OK.
Figure 6. The "X" template(s) successfully exported message
Observação:Se você não puder compartilhar o conteúdo dos documentos nos quais você criou seus modelos, use a opção Exportar sem arquivos originais. Você ainda pode compartilhar e importar o arquivo de modelo em outros projetos, mas não pode mais editá-los ou visualizá-los.
Se você quiser editar os modelos uma vez importados em um projeto diferente, certifique-se de usar a opção Exportar com arquivos originais ao exportar e, em seguida, importá-los.
Procedimento de importação
Aqui estão as etapas que você precisa seguir para importar um modelo:
- Selecione Importar.
Figure 7. The action of selecting Import in the Template Manager wizard
- Select an archive. The import wizard appears and presents all document types and all templates available in the selected export archive. Select the templates you wish to import and choose the desired Import option:
- Importar com arquivos originais
- Importar sem arquivos originaisFigure 8. The Import options in the Template Manager wizard
Observação:- Quando os modelos são importados, os tipos de documento são criados automaticamente na Taxonomia do projeto. Se já existir um tipo de documento com o mesmo nome, outro será criado anexando uma contagem ao nome do tipo de documento.
- Se estiver importando modelos que foram exportados sem os arquivos originais ou se optar por importar modelos sem os arquivos originais, você não terá opções de exibição ou edição para esses modelos.
When a template is imported, several special situations might occur. The following list explains each situation and its particularities:
- New document type: If a new document type is imported, then a new field is added in the wizard configurator, informing you that a new template is to be created.
- Tipo de documento duplicado: se um tipo de documento idêntico for importado, a seguinte mensagem de aviso aparecerá: "Esse modelo já existe e será substituído."
- Extended template: If a document type template that includes extra fields than the already existing one, is imported, then the following warning message appears: "This document type will be updated as follows: The following field(s) do not exist and will be created".
- Tipo de documento estendido: se o usuário importar um tipo de documento que inclui campos extras do que o já existente, a seguinte mensagem de aviso aparecerá: "Esse tipo de documento será atualizado da seguinte forma: o(s) seguinte(s) campo(s) não têm configurações para importar".
- Tipo de documento com nome idêntico, mas conteúdo diferente: se o usuário importar um tipo de documento que tenha o mesmo nome que o existente, mas campos diferentes, a seguinte mensagem de aviso aparecerá: "Esse tipo de documento será atualizado da seguinte forma":
- "Os seguintes campos não existem e serão criados"
- "Os seguintes campos não têm configurações para importar"
- Tipo de documento com tabela ausente: se o usuário importar um tipo de documento que não inclui uma tabela, a seguinte mensagem de aviso aparecerá: "Esse tipo de documento será atualizado da seguinte forma: o(s) seguinte(s) campo(s) não têm configurações para importar."
- Document type with extended table: If the user imports a document type that includes a table with extra columns, then the following warning message appears: "This document will be updated as follows: The following field(s) do not exist and will be created".
- Document type with reduced table: If the user imports a document type that includes a table with missing columns, then the following warning message appears: "This document will be updated as follows: The following field(s) don't have configurations to import"
- Table template with different document types: If you import a document type template that includes a table with different document types, then a new template is created. If your taxonomy includes a table that has a field with a different document type, then the following message appears: "The field with id
xyz
was found both in the imported taxonomy as well in the existing taxonomy but their types are incompatible (either both should be tables or neither of them)."
Considerações gerais
The Template Editor is built on top of the functionality present in the Validation station. To access it, select Edit for a template.
Acesse Estação de validação para saber mais sobre o uso básico da Estação de Validação.
- : Sets the anchor selection mode;
- : Clears the whole anchor selection.
Ao criar um novo modelo, um texto explicativo aparece ao abrir o Editor de modelo. Caso você queira acessar o texto novamente, acesse a seção Visualização de documentos no lado direito, selecione Mais opções e, em seguida, Mostrar texto explicativo.
Table information can be modified at cell or table level. Visit Present Validation Station for more information about how to configure tables at cell level and at table level.
As âncoras podem ser definidas uma vez que o Editor de modelo é aberto no Gerenciador de modelos e podem ser encontradas entre as opções do Modo de seleção.
Ao definir ou editar um modelo de nível de página, embora seja opcional, a primeira coisa que precisa ser executada é a seleção de informações de correspondência da página 1. Esta etapa é obrigatória apenas para modelos de formulários fixos.
Situada no lado esquerdo da tela, a seleção de informações de correspondência da página 1 requer uma entrada de texto (somente tokens são aceitos) da primeira página do modelo que está sempre na mesma posição dentro desse layout de modelo específico e forma um gráfico exclusivo de palavras (considerando distâncias relativas e ângulos entre palavras) em todos os modelos definidos para um determinado tipo de documento.
Em outras palavras, as informações de correspondência da página 1 (e todos os outros campos de informações de correspondência da página) são "impressões digitais" de uma página específica e são amplamente usadas na identificação do modelo de correspondência correto em runtime.
Por esse motivo, para o campo Page 1 Matching Info , é altamente recomendável selecionar de 10 a 20 palavras, de preferência mais longas, espalhadas por toda a área da página.
Os outros campos de Informações de correspondência da página (um para cada página de modelo) devem ser preenchidos apenas se você estiver tentando extrair dados dessa página específica e não exigir mais exclusividade entre modelos. Se nenhum campo precisar ser extraído de uma página específica, não é obrigatório definir as informações de correspondência de nível de página para essa página.
Para todos os campos exceto Tabelas, a configuração do modelo consiste em selecionar uma Área personalizada e atribuí-la a um determinado campo.
Para configurações de formulário fixo, os campos de dados só podem ser configurados usando as seleções de Área personalizada.
For a field you can define one or more such Custom Areas, using the Add button. If two or more Custom Areas are defined for a single field, then at runtime, if the field is defined in the Taxonomy as Single Value, all values are concatenated into a single reported value. If the field is defined as Multi Value, then each value is reported individually.
O ícone ao lado de cada campo indica o tipo de seleção compatível: Tokens ou área personalizada.
Se uma área vazia for selecionada, a seleção será automaticamente definida como Área personalizada.Se texto for detectado dentro da área selecionada, você será solicitado a escolher o tipo de seleção entre Tokens ou Área personalizada.
Use a funcionalidade de modo seleção da Estação de Validação para bloquear sua seleção entre Tokens e Áreas personalizadas.
Conforme mencionado acima, há campos nos quais as informações podem ser adicionadas apenas por meio de Tokens (como os campos de Informação de correspondência de página) ou apenas usando uma Área personalizada (como os campos simples). Para campos de tabela, você pode fazer o seguinte:
- Define each cell one by one, once the Table Editor is expanded - by adding Custom Area selection to each cell individually;
- use a funcionalidade de marcação de tabela - marcando a área da tabela, desenhando linha e separadores de coluna e, em seguida, atribuindo a tabela assim marcada ao campo. Certifique-se de que a área extraída tenha o mesmo número de colunas e linhas que a área do modelo.
- Selecione Mais opções para o campo de tabela
- Selecione Extrair nova tabela.
- Selecione a tabela que você deseja extrair.
- Para cada campo acima de cada coluna de tabela, selecione o nome da coluna que você deseja que ele represente.
Você também pode optar por Extrair cabeçalho.
- Por fim, selecione Salvar nova tabela.
Um método distinto de definir os limites de uma área personalizada da qual os dados devem ser extraídos é usar âncoras no nível do campo. Isso permite direcionar a extração de dados com base em configurações de nível de campo, possibilitando assim mais flexibilidade ao definir suas regras de extração de formulário.
Consequently, at run-time, the Form Extractor knows how to perform the following:
- identificar se um modelo de nível de página corresponde e extrair informações de acordo com a melhor correspondência de modelo de nível de página que ele reconhece;
- identificar se alguma configuração baseada em âncora corresponde e extrair informações de acordo com sua aplicação no documento a ser processado;
- calcule pontuações de confiança apropriadas para todas as correspondências possíveis para poder relatar o melhor resultado (a correspondência de maior probabilidade) de todas as opções disponíveis.
Criando uma nova configuração de âncora
- Certifique-se de estar no modo Seleção de Âncora .
- Desenhe uma caixa ao redor da área de valor.
- Selecione um Rótulo (âncora principal) para sua área de valor usando um dos seguintes métodos:
- Selecione a primeira palavra e, em seguida, use
Ctrl + Select
para a última palavra da seleção. - Selecione, arraste e, em seguida, solte para capturar um intervalo de palavras.
Observação: um rótulo só pode conter palavras consecutivas da mesma linha visual.
- Selecione a primeira palavra e, em seguida, use
- Selecione qualquer âncora adicional que identificaria exclusivamente seu rótulo. O mesmo princípio de seleção se aplica.
- Atribua sua construção de âncora ao campo apropriado selecionando Extrair valor para um campo em específico.
Figura 12. Exemplo de criação de várias âncoras para um campo
Observação: você também pode usar os exemplos anteriores desta página para saber como criar um modelo e definir áreas e âncoras de extração.
Edite uma configuração de âncora existente
- Destaque sua configuração de âncora.
- Faça alterações (exclua quaisquer âncoras, o rótulo, até mesmo a área de valor, se desejar, adicione novos elementos, etc.).
- Selecione Mais opções para uma âncora de campo e, em seguida, use a opção Alterar valor extraído para atualizar sua associação de campo.
Figura 13. Exemplo de alteração do valor extraído para um campo
Observação:- Se você excluir a área de destino, todas as âncoras serão excluídas e o processo deve ser reiniciado.
- Se você excluir o rótulo (âncora principal), a primeira âncora na ordem em que foi criada se tornará o novo rótulo.
Excluir uma configuração de âncora existente
To delete an anchor setting, you can use one of the following options:
- Selecione Mais opções para uma âncora de campo e use a opção Marcar como Ausente para um valor salvo.
Figura 14. Exemplo de uso da opção Marcar como ausente para excluir uma configuração de âncora
- Selecione Mais opções para uma âncora de campo e use a opção Remover valor, caso de uma lista de âncoras definidas para um determinado campo.
Figure 15. Example of using the Remove Value option to delete an anchor setting
Configurações de combinação e junção
Você pode definir quantos modelos quiser para o mesmo tipo de documento. Você pode ter vários modelos de nível de página, várias âncoras para o mesmo campo, até mesmo modelos contendo âncoras de nível de página e de campo.
- Ao definir âncoras no nível do campo, certifique-se de que seu rótulo esteja próximo à sua área de valor e seja suportado por âncoras adicionais se a mesma construção de texto puder ser encontrada em vários locais no mesmo documento.
- Quanto maior o comprimento dos seus rótulos e âncoras, mais precisão você recebe.
- A área de valor é sempre calculada com base em sua posição relativa em relação ao seu rótulo (âncora principal). Escolha suas âncoras principais adequadamente.
- Ter âncoras no nível do campo permite que os campos se movam dentro do modelo e ainda sejam capturados, oferecendo mais flexibilidade nas alterações de layout do documento.
A atividade Form Extractor faz parte das Document Understanding Solutions. Visite o Guia do Document Understanding para obter mais informações.
- Description
- Compatibilidade do projeto
- Configuração
- Assistente do Gerenciador de modelos
- Configurando o processamento de campo booleano
- Exportando e importando modelos
- Situações especiais ao importar um modelo
- Assistente do Editor de modelos
- Configuração de âncoras
- Configurando campos simples
- Configurando tabelas
- Configuração das âncoras
- Integração de Compreensão de Documentos