- Visão geral
- Contratos de Processamento de Documentos
- Notas de versão
- Sobre os Contratos de Processamento de Documentos
- Classe Box
- Interface IPersistedActivity
- Classe PrettyBoxConverter
- Interface IClassifierActivity
- Interface IClassifierCapabilitiesProvider
- Classe ClassifierDocumentType
- Classe ClassifierResult
- Classe ClassifierCodeActivity
- Classe ClassifierNativeActivity
- Classe ClassifierAsyncCodeActivity
- Classe ClassifierDocumentTypeCapability
- ContentValidationData Class
- EvaluatedBusinessRulesForFieldValue Class
- EvaluatedBusinessRuleDetails Class
- Classe ExtractorAsyncCodeActivity
- Classe ExtractorCodeActivity
- Classe ExtractorDocumentType
- Classe ExtractorDocumentTypeCapabilities
- Classe ExtractorFieldCapability
- Classe ExtractorNativeActivity
- Classe ExtractorResult
- FieldValue Class
- FieldValueResult Class
- Interface ICapabilitiesProvider
- Interface IExtractorActivity
- Classe ExtractorPayload
- Enumeração DocumentActionPriority
- Classe DocumentActionData
- Enumeração DocumentActionStatus
- Enumeração DocumentActionType
- Classe DocumentClassificationActionData
- Classe DocumentValidationActionData
- Classe UserData
- Classe Document
- Classe DocumentSplittingResult
- Classe DomExtensions
- Classe Page
- Classe PageSection
- Classe Polígono
- Classe PolygonConverter
- Classe de metadados
- Classe WordGroup
- Classe Word
- Enumeração ProcessingSource
- Classe ResultsTableCell
- Classe ResultsTableValue
- Classe ResultsTableColumnInfo
- Classe ResultsTable
- Enumeração Rotation
- Rule Class
- RuleResult Class
- RuleSet Class
- RuleSetResult Class
- Enumeração SectionType
- Enumeração WordGroupType
- Interface IDocumentTextProjection
- Classe ClassificationResult
- Classe ExtractionResult
- Classe ResultsDocument
- Classe ResultsDocumentBounds
- Classe ResultsDataPoint
- Classe ResultsValue
- Classe ResultsContentReference
- Classe ResultsValueTokens
- Classe ResultsDerivedField
- Enumeração ResultsDataSource
- Classe ResultConstants
- Classe SimpleFieldValue
- Classe TableFieldValue
- Classe DocumentGroup
- Classe DocumentTaxonomy
- Classe DocumentType
- Classe Field
- Enumeração FieldType
- FieldValueDetails Class
- Classe LanguageInfo
- Classe MetadataEntry
- Enumeração de tipo de texto
- Classe TypeField
- Interface ITrackingActivity
- Interface ITrainableActivity
- Interface ITrainableClassifierActivity
- Interface ITrainableExtractorActivity
- Classe TrainableClassifierAsyncCodeActivity
- Classe TrainableClassifierCodeActivity
- Classe TrainableClassifierNativeActivity
- Classe TrainableExtractorAsyncCodeActivity
- Classe TrainableExtractorCodeActivity
- Classe TrainableExtractorNativeActivity
- Classe BasicDataPoint - visualização
- Classe ExtractionResultHandler — visualização
- Document Understanding ML
- Document Understanding OCR Local Server
- Document Understanding
- Notas de versão
- Sobre o pacote de atividades Document Understanding
- Compatibilidade do projeto
- Configuração da conexão externa
- Definir Senha do PDF
- Merge PDFs
- Get PDF Page Count
- Extract PDF Text
- Extract PDF Images
- Extract PDF Page Range
- Extract Document Data
- Criar tarefa de validação e aguardar
- Aguarde a tarefa de validação e retome
- Create Validation Task
- Classificar Documento
- Create Classification Validation Task
- Create Classification Validation Task and Wait
- Aguardar a tarefa de Validação de Classificação e retomar
- IntelligentOCR
- Notas de versão
- Sobre o pacote de atividades IntelligentOCR
- Compatibilidade do projeto
- Carregar Taxonomia
- Digitize Document
- Classificar Escopo do Documento
- Classificador baseado em palavra-chave
- Document Understanding Project Classifier
- Intelligent Keyword Classifier
- Create Document Classification Action
- Create Document Validation Artifacts
- Recuperar artefatos de validação de documento
- Aguardar ação de classificação do documento e retomar
- Train Classifiers Scope
- Instrutor de Classificador Baseado em Palavra-chave
- Intelligent Keyword Classifier Trainer
- Escopo da Extração de Dados
- Document Understanding Project Extractor
- Document Understanding Project Extractor Trainer
- Regex Based Extractor
- Form Extractor
- Intelligent Form Extractor
- Rasurar documento
- Create Document Validation Action
- Wait For Document Validation Action And Resume
- Escopo de Extratores de Treinamento
- Exportar Resultados da Extração
- Machine Learning Extractor
- Machine Learning Extractor Trainer
- Machine Learning Classifier
- Machine Learning Classifier Trainer
- Classificador Generativo
- Extrator Generativo
- Configuração da autenticação
- Validação de documentos com ações de aplicativos
- Validação manual para digitalizar documentos
- Extração de dados baseada em âncora usando a atividade Intelligent Form Extractor
- Validation Station
- Atividades generativas — Boas práticas
- Extrator generativo — boas práticas
- Classificador generativo — Boas práticas
- Serviços de ML
- OCR
- Contratos de OCR
- Notas de versão
- Sobre os Contratos OCR
- Compatibilidade do projeto
- Interface IOCRActivity
- Classe OCRAsyncCodeActivity
- Classe OCRCodeActivity
- Classe OCRNativeActivity
- Character Class
- Classe OCRResult
- Classe Word
- Enumeração FontStyles
- Enumeração OCRRotation
- Classe OCRCapabilities
- Classe OCRScrapeBase
- Classe OCRScrapeFactory
- Classe ScrapeControlBase
- Enumeração ScrapeEngineUsages
- ScrapeEngineBase
- Classe ScrapeEngineFactory
- Classe ScrapeEngineProvider
- OmniPage
- PDF
- [Não listado] Abbyy
- [Não listado] Abbyy Embedded
Atividades do Document Understanding
UiPath.IntelligentOCR.Activities.Digitization.DigitizeDocument
Description
Digitaliza um documento, extraindo seu Document Object Model (DOM) e texto e armazenando-os em seus tipos de variáveis correspondentes.
Você deve atribuir um mecanismo de OCR a essa atividade arrastando-o para o corpo da atividade. O mecanismo de OCR escolhido deve ser usado apenas se os documentos recebidos precisarem de processamento de OCR. Acesse Mecanismos de OCR para verificar os mecanismos de OCR disponíveis. Os parâmetros de entrada e saída do mecanismo de OCR selecionado são definidos automaticamente pela atividade Digitize Document .
Compatibilidade do projeto
Windows-Legacy | Windows
Configuração
Painel de Propriedades
Comum
- DisplayName - O nome de exibição da atividade.
Entrada
-
AplicarOcrEmPDF — estabelece se o processo OCR deve ser aplicado ou não a documentos PDF. Se definido como Yes, o OCR é aplicado a todas as páginas PDF do documento. Se definido como No, apenas o texto inserido digitalmente é extraído. O valor padrão é Auto, determinando se o documento requer a aplicação do algoritmo OCR dependendo do documento de entrada.
-
DegreeOfParalelism - Especifica quantas páginas, se houver, a serem analisadas em paralelo. O valor
-1usa o "Número de núcleos na máquina - 1". Isso significa que a atividade tenta processar tantas páginas em paralelo quanto o valor do número de núcleos - 1, enquanto a especificação de um valor positivo usa esse número específico de processadores lógicos. Por padrão, essa propriedade é definida como-1.Esta propriedade aceita qualquer valor que não seja maior que
LogicalProcessorCount - 1. -
DetectarCaixasDeSeleção - Detecta as caixas de seleção disponíveis do documento ao digitalizá-lo. O valor padrão é True.
-
CaminhoDoDocumento - O caminho do documento que você deseja digitalizar. Este campo é compatível apenas com strings e variáveis
String.Observação:- Defina a propriedade AplicarOcrEmPDF como Sim para documentos PDF nativos que contêm logotipos, imagens ocultas ou outros elementos que corrompem a saída de digitalização e podem levar a extrações e/ou classificações abaixo do ideal.
- A extração de texto de arquivos PDF foi atualizada. Isso resulta em um processo de extração otimizado, no qual o texto nativo e o digitalizado são recuperados ao mesmo tempo. O processo aplica OCR apenas nas imagens identificadas no arquivo PDF. Essa melhoria está disponível apenas quando a opção AplicarOcrEmPDF é definida como Auto.
Observação:Os tipos de arquivos suportados para este campo de propriedade são
.png,.jpe,.jpg,.jpeg,.tiff,.tife.pdf.
Diversos
- Privado - Se selecionado, os valores de variáveis e argumentos não são mais registrados no nível Verbose.
Saída
- DocumentObjectModel - The Document Object Model (DOM) of the file, stored in a
Documentvariable. This field supports onlyDocumentvariables. - TextoDoDocumento - O texto extraído do documento especificado. Essa variável pode ser usada subsequentemente na atividade Present Validation Station . Este campo é compatível apenas com variáveis
String.Observação:A partir do pacote UiPath.IntelligentOCR.Activities v6.3.0-preview, a atividade Digitize Document vem com um mecanismo de OCR pré-selecionado padrão, o mecanismo UiPath® Document OCR .
Ambas as variáveis de saída, emparelhadas por serem dependentes, podem ser usadas ainda mais no processamento de documentos em toda a estrutura de processamento de documentos (classificação, extração de dados, validação humana etc.).
Importante
Se o pacote UiPath.IntelligentOCR.Activities for atualizado para a v5.1.0, em seguida, o parâmetro ForçarAplicaçãoDeOCR foi substituído pelo ApplyOcrOnPDF. Aqui está a compatibilidade entre os parâmetros antigos e novos:
- ForçarAplicaçãoDeOCR = True é substituído por ApplyOcrOnPDF = Yes;
- ForçarAplicaçãoDeOCR = False é substituído por ApplyOcrOnPDF = Auto;
- ForçarAplicaçãoDeOCR = Empty é substituído por ApplyOcrOnPDF = Auto;
- ForçarAplicaçãoDeOCR = Sua variável definida é substituída por AplicarOcrEmPDF = Auto.
A atividade Digitize Document extrai o texto de um arquivo PDF e, para documentos complexos, ela aplica algoritmos de pré-processamento e pós-processamento. Essa atividade pode ser usada junto com outras atividades do Document Understanding.
Modelo de Objeto do Documento
O Modelo de Objeto de Documento é capturado em um objeto proprietário. Acesse Classe de documentos para obter mais informações.
Para digitalizar e processar com sucesso seus documentos, considere o seguinte conselho:
- Para que uma imagem seja digitalizada/processada com sucesso, suas dimensões de largura e altura devem estar entre 50 e 10000 pixels. Qualquer imagem abaixo ou acima desse intervalo é rejeitada, com uma mensagem de exceção. Uma imagem validada com as dimensões mencionadas anteriormente e com um tamanho total maior que 14 MP é reduzida para 14 MP, mantendo a proporção (proporção de largura ou altura).
- Os melhores resultados são obtidos mantendo o ângulo de inclinação entre +/- 20 graus.
Exemplo de uso da atividade Digitalizar documento
Acesse Validação manual para digitalizar documentos para verificar como a atividade Digitize Document é usada em um exemplo que incorpora várias atividades.