Atividades
Mais recente
falso
Imagem de fundo do banner
Atividades de Document Understanding
Última atualização 29 de abr de 2024

Digitize Document

UiPath.IntelligentOCR.Activities.Digitization.DigitizeDocument

Digitaliza um documento, extraindo seu Document Object Model (DOM) e texto e armazenando-os em seus tipos de variáveis correspondentes.

Observação: você deve atribuir um mecanismo de OCR a essa atividade arrastando-o para o corpo da atividade. O mecanismo de OCR escolhido deve ser usado apenas se os documentos recebidos precisarem de processamento de OCR. Os mecanismos de OCR disponíveis podem ser encontrados aqui. Os parâmetros de entrada e saída do mecanismo de OCR selecionado são definidos automaticamente pela atividade Digitize Document.

Propriedades

Comum
  • NomeDeExibição - o nome de exibição da atividade.
Entrada
  • AplicarOcrEmPDF — estabelece se o processo OCR deve ser aplicado ou não a documentos PDF. Se definido como Yes, o OCR é aplicado a todas as páginas PDF do documento. Se definir como Não, apenas o texto inserido digitalmente será extraído. O valor padrão é Auto, determinando se o documento requer a aplicação do algoritmo OCR dependendo do documento de entrada.
  • DegreeOfParalelism - Especifica quantas, se houver, páginas a serem analisadas em paralelo. O valor -1 usa o "Número de núcleos na máquina - 1" (o que significa que ele tenta processar tantas páginas em paralelo quanto o número de núcleos - valor 1), ao especificar um valor positivo usa esse número específico de processadores lógicos . Por padrão, essa propriedade é definida como -1.
  • DetectCheckboxes - Detecta as caixas de seleção disponíveis no documento durante a digitalização. O valor padrão é True.
  • DocumentPath - O caminho do arquivo do documento que você deseja digitalizar. Este campo suporta apenas strings e variáveis String.

    Observação:
    • Em caso de falha ao classificar um documento que tenha dados suficientes, defina a propriedade ApplyOcrOnPDF como Sim na atividade Digitize Document.
    • A extração de texto de arquivos PDF foi aprimorada, resultando em um processo de extração otimizado, onde o texto nativo e o digitalizado são recuperados ao mesmo tempo, sendo o OCR aplicado apenas nas imagens identificadas no arquivo PDF. Essa melhoria está disponível somente quando a opção ApplyOCROnPDF está definida como Auto.
    Observação: os tipos de arquivos suportados para este campo de propriedade são .png, .jpe, .jpg, .jpeg, .tiff, .tif e .pdf.
Diversos
  • Privado - Se selecionado, os valores de variáveis e argumentos não são mais registrados no nível Verbose.
Saída
  • DocumentObjectModel - O Document Object Model (DOM) do arquivo, armazenado em uma variável Document . Este campo suporta apenas Document variáveis.
  • DocumentText - O texto extraído do documento especificado. Esta variável pode ser utilizada posteriormente na atividade Estação de Validação Presente . Este campo suporta apenas variáveis String.

    Note: Starting with UiPath.IntelligentOCR.Activities package v6.3.0-preview, the Digitize Document activity comes with a default preselected OCR engine, the UiPath® Document OCR engine.

Ambas as variáveis de saída, emparelhadas como dependentes, podem ser usadas posteriormente no Processamento de Documentos em toda a Estrutura de Processamento de Documentos (classificação, extração de dados, validação humana, etc.)

Importante

Se o pacote UiPath.IntelligentOCR.Activities foi atualizado para v5.1.0, então o parâmetro ForceApplyOCR foi substituído pelo ApplyOcrOnPDF. Aqui está a compatibilidade entre os parâmetros antigos e novos:

  • ForçarAplicaçãoDeOCR = True está sendo substituído por AplicarOcrEmPDF = Sim

  • ForceApplyOCR = False está sendo substituído por ApplyOcrOnPDF = Auto • ForceApplyOCR = Empty está sendo substituído por ApplyOcrOnPDF = Auto

  • ForceApplyOCR = <variável definida pelo usuário> está sendo substituído por ApplyOcrOnPDF = Auto

Observação: a atividade Digitalizar documento extrai o texto de um arquivo PDF e, para documentos complexos, aplica algoritmos de pré-processamento e pós-processamento. Esta atividade pode ser usada em conjunto com outras atividades de Entendimento de Documentos.

Modelo de Objeto do Documento

O Modelo de Objeto do Documento é capturado em um objeto proprietário documentado aqui.

Observação:

Para que uma imagem seja digitalizada/processada com sucesso, suas dimensões de largura e altura devem estar entre 50 e 10000 pixels. Qualquer imagem abaixo ou acima deste intervalo deve ser rejeitada, com uma mensagem de exceção. Uma imagem validada com as dimensões mencionadas anteriormente e com um tamanho total superior a 14 MP, deve ser reduzida para 14 MP, mantendo a proporção (relação largura/altura).

Os resultados de OCR em documentos digitalizados foram aprimorados e agora os melhores resultados são obtidos mantendo o ângulo de inclinação entre +/- 20 graus.

Exemplo de uso da atividade Digitalizar documento

Você pode ver como a atividade Digitize Document é usada em um exemplo que incorpora várias atividades.

Você pode verificar e baixar o exemplo aqui.

Was this page helpful?

Obtenha a ajuda que você precisa
Aprendendo RPA - Cursos de automação
Fórum da comunidade da Uipath
Logotipo branco da Uipath
Confiança e segurança
© 2005-2024 UiPath. All rights reserved.