activities

latest

false

Importante :

A tradução automática foi aplicada parcialmente neste conteúdo. A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.

Atividades de Document Understanding

Última atualização 5 de dez de 2024

Digitize Document

UiPath.IntelligentOCR.Activities.Digitization.DigitizeDocument

Description

Digitaliza um documento, extraindo seu Document Object Model (DOM) e texto e armazenando-os em seus tipos de variáveis correspondentes.

Observação: você deve atribuir um mecanismo de OCR a essa atividade arrastando-o para o corpo da atividade. O mecanismo de OCR escolhido deve ser usado apenas se os documentos recebidos precisarem de processamento de OCR. Acesse Mecanismos de OCR para verificar os mecanismos de OCR disponíveis. Os parâmetros de entrada e saída do mecanismo de OCR selecionado são definidos automaticamente pela atividade Digitalizar Documento.

Compatibilidade do projeto

Windows-Legacy | Windows

Configuração

Painel de Propriedades

Comum

NomeDeExibição - o nome de exibição da atividade.

Entrada

AplicarOcrEmPDF — estabelece se o processo OCR deve ser aplicado ou não a documentos PDF. Se definido como Yes, o OCR é aplicado a todas as páginas PDF do documento. Se definir como Não, apenas o texto inserido digitalmente será extraído. O valor padrão é Auto, determinando se o documento requer a aplicação do algoritmo OCR dependendo do documento de entrada.
DegreeOfParalelism - Especifica quantas páginas, se houver, a serem analisadas em paralelo. O valor -1 usa o "Número de núcleos na máquina - 1". Isso significa que a atividade tenta processar tantas páginas em paralelo quanto o valor do número de núcleos - 1, enquanto a especificação de um valor positivo usa esse número específico de processadores lógicos. Por padrão, essa propriedade é definida como -1.
Esta propriedade aceita qualquer valor que não seja maior que LogicalProcessorCount - 1.
DetectarCaixasDeSeleção - Detecta as caixas de seleção disponíveis do documento ao digitalizá-lo. O valor padrão é True.
CaminhoDoDocumento - O caminho do documento que você deseja digitalizar. Esse campo é compatível apenas com strings e variáveis String.
Observação:
- Em caso de falha na classificação de um documento que tem dados suficientes, na atividade Digitize Document, defina a propriedade AplicarOcrEmPDF como Sim.
- A extração de texto de arquivos PDF foi atualizada. Isso resulta em um processo de extração otimizado, no qual o texto nativo e o digitalizado são recuperados ao mesmo tempo. O processo aplica OCR apenas nas imagens identificadas no arquivo PDF. Essa melhoria está disponível apenas quando a opção AplicarOcrEmPDF é definida como Auto.
Observação: os tipos de arquivos suportados para este campo de propriedade são .png, .jpe, .jpg, .jpeg, .tiff, .tif e .pdf.

Diversos

Privado - Se selecionado, os valores de variáveis e argumentos não são mais registrados no nível Verbose.

Saída

DocumentObjectModel - O Document Object Model (DOM) do arquivo, armazenado em uma variável Document . Este campo suporta apenas Document variáveis.
TextoDoDocumento - O texto extraído do documento especificado. Essa variável pode ser usada subsequentemente na atividade Present Validation Station. Este campo é compatível apenas com variáveis String.
Observação: a partir do pacote UiPath.IntelligentOCR.Activities v6.3.0-preview, a atividade Digitize Document vem com um mecanismo de OCR pré-selecionado padrão, o mecanismo UiPath® Document OCR.

Ambas as variáveis de saída, emparelhadas por serem dependentes, podem ser usadas ainda mais no processamento de documentos em toda a estrutura de processamento de documentos (classificação, extração de dados, validação humana etc.).

Importante

Se o pacote UiPath.IntelligentOCR.Activities for atualizado para a v5.1.0, em seguida, o parâmetro ForçarAplicaçãoDeOCR foi substituído pelo ApplyOcrOnPDF. Aqui está a compatibilidade entre os parâmetros antigos e novos:

ForçarAplicaçãoDeOCR = True é substituído por AplicarOcrOnPDF = Yes;
ForçarAplicaçãoDeOCR = False é substituído por ApplyOcrOnPDF = Auto;
ForçarAplicaçãoDeOCR = Empty é substituído por ApplyOcrOnPDF = Auto;
ForçarAplicaçãoDeOCR = Sua variável definida é substituída por AplicarOcrEmPDF = Auto.

Observação: a atividade Digitize Document extrai o texto de um arquivo PDF e, para documentos complexos, ela aplica algoritmos de pré-processamento e pós-processamento. Essa atividade pode ser usada junto com outras atividades do Document Understanding.

Modelo de Objeto do Documento

O Modelo de Objeto de Documento é capturado em um objeto proprietário. Acesse Classe de documentos para obter mais informações.

Dica: para digitalizar e processar com sucesso seus documentos, considere o seguinte conselho:

Para que uma imagem seja digitalizada/processada com sucesso, suas dimensões de largura e altura devem estar entre 50 e 10000 pixels. Qualquer imagem abaixo ou acima desse intervalo é rejeitada, com uma mensagem de exceção. Uma imagem validada com as dimensões mencionadas anteriormente e com um tamanho total maior que 14 MP é reduzida para 14 MP, mantendo a proporção (proporção de largura ou altura).
Os melhores resultados são obtidos mantendo o ângulo de inclinação entre +/- 20 graus.

Exemplo de uso da atividade Digitalizar documento

Acesse Validação manual para digitalizar documentos para verificar como a atividade Digitize Document é usada em um exemplo que incorpora várias atividades.

Nesta página