- Visão geral
- Contratos de Processamento de Documentos
- Notas de versão
- Sobre os Contratos de Processamento de Documentos
- Classe Box
- Interface IPersistedActivity
- Classe PrettyBoxConverter
- Interface IClassifierActivity
- Interface IClassifierCapabilitiesProvider
- Classe ClassifierDocumentType
- Classe ClassifierResult
- Classe ClassifierCodeActivity
- Classe ClassifierNativeActivity
- Classe ClassifierAsyncCodeActivity
- Classe ClassifierDocumentTypeCapability
- Classe ExtractorAsyncCodeActivity
- Classe ExtractorCodeActivity
- Classe ExtractorDocumentType
- Classe ExtractorDocumentTypeCapabilities
- Classe ExtractorFieldCapability
- Classe ExtractorNativeActivity
- Classe ExtractorResult
- Interface ICapabilitiesProvider
- Interface IExtractorActivity
- Classe ExtractorPayload
- Enumeração DocumentActionPriority
- Classe DocumentActionData
- Enumeração DocumentActionStatus
- Enumeração DocumentActionType
- Classe DocumentClassificationActionData
- Classe DocumentValidationActionData
- Classe UserData
- Classe Document
- Classe DocumentSplittingResult
- Classe DomExtensions
- Classe Page
- Classe PageSection
- Classe Polígono
- Classe PolygonConverter
- Classe de metadados
- Classe WordGroup
- Classe Word
- Enumeração ProcessingSource
- Classe ResultsTableCell
- Classe ResultsTableValue
- Classe ResultsTableColumnInfo
- Classe ResultsTable
- Enumeração Rotation
- Enumeração SectionType
- Enumeração WordGroupType
- Interface IDocumentTextProjection
- Classe ClassificationResult
- Classe ExtractionResult
- Classe ResultsDocument
- Classe ResultsDocumentBounds
- Classe ResultsDataPoint
- Classe ResultsValue
- Classe ResultsContentReference
- Classe ResultsValueTokens
- Classe ResultsDerivedField
- Enumeração ResultsDataSource
- Classe ResultConstants
- Classe SimpleFieldValue
- Classe TableFieldValue
- Classe DocumentGroup
- Classe DocumentTaxonomy
- Classe DocumentType
- Classe Field
- Enumeração FieldType
- Classe LanguageInfo
- Classe MetadataEntry
- Enumeração de tipo de texto
- Classe TypeField
- Interface ITrackingActivity
- Interface ITrainableActivity
- Interface ITrainableClassifierActivity
- Interface ITrainableExtractorActivity
- Classe TrainableClassifierAsyncCodeActivity
- Classe TrainableClassifierCodeActivity
- Classe TrainableClassifierNativeActivity
- Classe TrainableExtractorAsyncCodeActivity
- Classe TrainableExtractorCodeActivity
- Classe TrainableExtractorNativeActivity
- Digitalizador do Document Understanding
- Document Understanding ML
- Document Understanding OCR Local Server
- Document Understanding
- Notas de versão
- Sobre o pacote de atividades Document Understanding
- Compatibilidade do projeto
- Definir Senha do PDF
- Merge PDFs
- Get PDF Page Count
- Extract PDF Text
- Extract PDF Images
- Extract PDF Page Range
- Extract Document Data
- Criar tarefa de validação e aguardar
- Aguarde a tarefa de validação e retome
- Create Validation Task
- Classificar Documento
- Create Classification Validation Task
- Create Classification Validation Task and Wait
- Aguardar a tarefa de Validação de Classificação e retomar
- IntelligentOCR
- Notas de versão
- Sobre o pacote de atividades IntelligentOCR
- Compatibilidade do projeto
- Configuração da autenticação
- Carregar Taxonomia
- Digitize Document
- Classificar Escopo do Documento
- Classificador baseado em palavra-chave
- Document Understanding Project Classifier
- Intelligent Keyword Classifier
- Create Document Classification Action
- Aguardar ação de classificação do documento e retomar
- Train Classifiers Scope
- Instrutor de Classificador Baseado em Palavra-chave
- Intelligent Keyword Classifier Trainer
- Escopo da Extração de Dados
- Document Understanding Project Extractor
- Regex Based Extractor
- Form Extractor
- Intelligent Form Extractor
- Present Validation Station
- Create Document Validation Action
- Wait For Document Validation Action And Resume
- Escopo de Extratores de Treinamento
- Exportar Resultados da Extração
- Serviços de ML
- OCR
- Contratos de OCR
- Notas de versão
- Sobre os Contratos OCR
- Compatibilidade do projeto
- Interface IOCRActivity
- Classe OCRAsyncCodeActivity
- Classe OCRCodeActivity
- Classe OCRNativeActivity
- Character Class
- Classe OCRResult
- Classe Word
- Enumeração FontStyles
- Enumeração OCRRotation
- Classe OCRCapabilities
- Classe OCRScrapeBase
- Classe OCRScrapeFactory
- Classe ScrapeControlBase
- Enumeração ScrapeEngineUsages
- ScrapeEngineBase
- Classe ScrapeEngineFactory
- Classe ScrapeEngineProvider
- OmniPage
- PDF
- [Não listado] Abbyy
- [Não listado] Abbyy Embedded
Atividades de Document Understanding
Digitize Document
UiPath.IntelligentOCR.Activities.Digitization.DigitizeDocument
Digitaliza um documento, extraindo seu Document Object Model (DOM) e texto e armazenando-os em seus tipos de variáveis correspondentes.
Painel de Propriedades
Comum
- NomeDeExibição - o nome de exibição da atividade.
Entrada
- AplicarOcrEmPDF — estabelece se o processo OCR deve ser aplicado ou não a documentos PDF. Se definido como Yes, o OCR é aplicado a todas as páginas PDF do documento. Se definir como Não, apenas o texto inserido digitalmente será extraído. O valor padrão é Auto, determinando se o documento requer a aplicação do algoritmo OCR dependendo do documento de entrada.
- DegreeOfParalelism - Especifica quantas páginas, se houver, a serem analisadas em paralelo. O valor
-1
usa o "Número de núcleos na máquina - 1". Isso significa que a atividade tenta processar tantas páginas em paralelo quanto o valor do número de núcleos - 1, enquanto a especificação de um valor positivo usa esse número específico de processadores lógicos. Por padrão, essa propriedade é definida como-1
.Esta propriedade aceita qualquer valor que não seja maior queLogicalProcessorCount - 1
. - DetectarCaixasDeSeleção - Detecta as caixas de seleção disponíveis do documento ao digitalizá-lo. O valor padrão é True.
- CaminhoDoDocumento - O caminho do documento que você deseja digitalizar. Esse campo é compatível apenas com strings e variáveis
String
.Observação:- Em caso de falha na classificação de um documento que tem dados suficientes, na atividade Digitize Document, defina a propriedade AplicarOcrEmPDF como Sim.
- A extração de texto de arquivos PDF foi atualizada. Isso resulta em um processo de extração otimizado, no qual o texto nativo e o digitalizado são recuperados ao mesmo tempo. O processo aplica OCR apenas nas imagens identificadas no arquivo PDF. Essa melhoria está disponível apenas quando a opção AplicarOcrEmPDF é definida como Auto.
Observação: os tipos de arquivos suportados para este campo de propriedade são.png
,.jpe
,.jpg
,.jpeg
,.tiff
,.tif
e.pdf
.
Diversos
- Privado - Se selecionado, os valores de variáveis e argumentos não são mais registrados no nível Verbose.
Saída
- DocumentObjectModel - O Document Object Model (DOM) do arquivo, armazenado em uma variável
Document
. Este campo suporta apenasDocument
variáveis. - TextoDoDocumento - O texto extraído do documento especificado. Essa variável pode ser usada subsequentemente na atividade Present Validation Station. Este campo é compatível apenas com variáveis
String
.Observação: a partir do pacote UiPath.IntelligentOCR.Activities v6.3.0-preview, a atividade Digitize Document vem com um mecanismo de OCR pré-selecionado padrão, o mecanismo UiPath® Document OCR.
Ambas as variáveis de saída, emparelhadas por serem dependentes, podem ser usadas ainda mais no processamento de documentos em toda a estrutura de processamento de documentos (classificação, extração de dados, validação humana etc.).
Se o pacote UiPath.IntelligentOCR.Activities for atualizado para a v5.1.0, em seguida, o parâmetro ForçarAplicaçãoDeOCR foi substituído pelo ApplyOcrOnPDF. Aqui está a compatibilidade entre os parâmetros antigos e novos:
- ForçarAplicaçãoDeOCR = True é substituído por AplicarOcrOnPDF = Yes;
- ForçarAplicaçãoDeOCR = False é substituído por ApplyOcrOnPDF = Auto;
- ForçarAplicaçãoDeOCR = Empty é substituído por ApplyOcrOnPDF = Auto;
- ForçarAplicaçãoDeOCR = Sua variável definida é substituída por AplicarOcrEmPDF = Auto.
O Modelo de Objeto de Documento é capturado em um objeto proprietário. Acesse Classe de documentos para obter mais informações.
- Para que uma imagem seja digitalizada/processada com sucesso, suas dimensões de largura e altura devem estar entre 50 e 10000 pixels. Qualquer imagem abaixo ou acima desse intervalo é rejeitada, com uma mensagem de exceção. Uma imagem validada com as dimensões mencionadas anteriormente e com um tamanho total maior que 14 MP é reduzida para 14 MP, mantendo a proporção (proporção de largura ou altura).
- Os melhores resultados são obtidos mantendo o ângulo de inclinação entre +/- 20 graus.
Acesse Validação manual para digitalizar documentos para verificar como a atividade Digitize Document é usada em um exemplo que incorpora várias atividades.