- Visão geral
- Contratos de Processamento de Documentos
- Notas de versão
- Sobre os Contratos de Processamento de Documentos
- Classe Box
- Interface IPersistedActivity
- Classe PrettyBoxConverter
- Interface IClassifierActivity
- Interface IClassifierCapabilitiesProvider
- Classe ClassifierDocumentType
- Classe ClassifierResult
- Classe ClassifierCodeActivity
- Classe ClassifierNativeActivity
- Classe ClassifierAsyncCodeActivity
- Classe ClassifierDocumentTypeCapability
- Classe ExtractorAsyncCodeActivity
- Classe ExtractorCodeActivity
- Classe ExtractorDocumentType
- Classe ExtractorDocumentTypeCapabilities
- Classe ExtractorFieldCapability
- Classe ExtractorNativeActivity
- Classe ExtractorResult
- Interface ICapabilitiesProvider
- Interface IExtractorActivity
- Classe ExtractorPayload
- Enumeração DocumentActionPriority
- Classe DocumentActionData
- Enumeração DocumentActionStatus
- Enumeração DocumentActionType
- Classe DocumentClassificationActionData
- Classe DocumentValidationActionData
- Classe UserData
- Classe Document
- Classe DocumentSplittingResult
- Classe DomExtensions
- Classe Page
- Classe PageSection
- Classe Polígono
- Classe PolygonConverter
- Classe de metadados
- Classe WordGroup
- Classe Word
- Enumeração ProcessingSource
- Classe ResultsTableCell
- Classe ResultsTableValue
- Classe ResultsTableColumnInfo
- Classe ResultsTable
- Enumeração Rotation
- Enumeração SectionType
- Enumeração WordGroupType
- Interface IDocumentTextProjection
- Classe ClassificationResult
- Classe ExtractionResult
- Classe ResultsDocument
- Classe ResultsDocumentBounds
- Classe ResultsDataPoint
- Classe ResultsValue
- Classe ResultsContentReference
- Classe ResultsValueTokens
- Classe ResultsDerivedField
- Enumeração ResultsDataSource
- Classe ResultConstants
- Classe SimpleFieldValue
- Classe TableFieldValue
- Classe DocumentGroup
- Classe DocumentTaxonomy
- Classe DocumentType
- Classe Field
- Enumeração FieldType
- Classe LanguageInfo
- Classe MetadataEntry
- Enumeração de tipo de texto
- Classe TypeField
- Interface ITrackingActivity
- Interface ITrainableActivity
- Interface ITrainableClassifierActivity
- Interface ITrainableExtractorActivity
- Classe TrainableClassifierAsyncCodeActivity
- Classe TrainableClassifierCodeActivity
- Classe TrainableClassifierNativeActivity
- Classe TrainableExtractorAsyncCodeActivity
- Classe TrainableExtractorCodeActivity
- Classe TrainableExtractorNativeActivity
- Digitalizador do Document Understanding
- Document Understanding ML
- Document Understanding OCR Local Server
- Processo do Document Understanding - Modelo do Studio
- Document Understanding
- Notas de versão
- About the Document Understanding activity package
- Compatibilidade do projeto
- Dados do documento
- Definir Senha do PDF
- Merge PDFs
- Get PDF Page Count
- Extract PDF Text
- Extract PDF Images
- Extract PDF Page Range
- Extract Document Data
- Criar tarefa de validação e aguardar
- Aguarde a tarefa de validação e retome
- Create Validation Task
- Classificar Documento
- Create Classification Validation Task
- Create Classification Validation Task and Wait
- Aguardar a tarefa de Validação de Classificação e retomar
- IntelligentOCR
- Notas de versão
- About the IntelligentOCR activity package
- Compatibilidade do projeto
- Carregar Taxonomia
- Digitize Document
- Classificar Escopo do Documento
- Classificador baseado em palavra-chave
- Intelligent Keyword Classifier
- Present Classification Station
- Create Document Classification Action
- Wait For Document Classification Action And Resume
- Train Classifiers Scope
- Instrutor de Classificador Baseado em Palavra-chave
- Intelligent Keyword Classifier Trainer
- Escopo da Extração de Dados
- Regex Based Extractor
- Form Extractor
- Intelligent Form Extractor
- Present Validation Station
- Create Document Validation Action
- Wait For Document Validation Action And Resume
- Escopo de Extratores de Treinamento
- Exportar Resultados da Extração
- Serviços de ML
- OCR
- Contratos de OCR
- Notas de versão
- Sobre os Contratos OCR
- Compatibilidade do projeto
- Interface IOCRActivity
- Classe OCRAsyncCodeActivity
- Classe OCRCodeActivity
- Classe OCRNativeActivity
- Character Class
- Classe OCRResult
- Classe Word
- Enumeração FontStyles
- Enumeração OCRRotation
- Classe OCRCapabilities
- Classe OCRScrapeBase
- Classe OCRScrapeFactory
- Classe ScrapeControlBase
- Enumeração ScrapeEngineUsages
- ScrapeEngineBase
- Classe ScrapeEngineFactory
- Classe ScrapeEngineProvider
- OmniPage
- PDF
- [Não listado] Abbyy
- [Não listado] Abbyy Embedded
Digitize Document
UiPath.IntelligentOCR.Activities.Digitization.DigitizeDocument
Digitaliza um documento, extraindo seu Document Object Model (DOM) e texto e armazenando-os em seus tipos de variáveis correspondentes.
Comum
- NomeDeExibição - o nome de exibição da atividade.
Entrada
- AplicarOcrEmPDF — estabelece se o processo OCR deve ser aplicado ou não a documentos PDF. Se definido como Yes, o OCR é aplicado a todas as páginas PDF do documento. Se definir como Não, apenas o texto inserido digitalmente será extraído. O valor padrão é Auto, determinando se o documento requer a aplicação do algoritmo OCR dependendo do documento de entrada.
- DegreeOfParalelism - Especifica quantas, se houver, páginas a serem analisadas em paralelo. O valor
-1
usa o "Número de núcleos na máquina - 1" (o que significa que ele tenta processar tantas páginas em paralelo quanto o número de núcleos - valor 1), ao especificar um valor positivo usa esse número específico de processadores lógicos . Por padrão, essa propriedade é definida como-1
. - DetectCheckboxes - Detecta as caixas de seleção disponíveis no documento durante a digitalização. O valor padrão é True.
-
DocumentPath - O caminho do arquivo do documento que você deseja digitalizar. Este campo suporta apenas strings e variáveis String.
Observação:- Em caso de falha ao classificar um documento que tenha dados suficientes, defina a propriedade ApplyOcrOnPDF como Sim na atividade Digitize Document.
- A extração de texto de arquivos PDF foi aprimorada, resultando em um processo de extração otimizado, onde o texto nativo e o digitalizado são recuperados ao mesmo tempo, sendo o OCR aplicado apenas nas imagens identificadas no arquivo PDF. Essa melhoria está disponível somente quando a opção ApplyOCROnPDF está definida como Auto.
Observação: os tipos de arquivos suportados para este campo de propriedade são.png
,.jpe
,.jpg
,.jpeg
,.tiff
,.tif
e.pdf
.
Diversos
- Privado - Se selecionado, os valores de variáveis e argumentos não são mais registrados no nível Verbose.
Saída
- DocumentObjectModel - O Document Object Model (DOM) do arquivo, armazenado em uma variável
Document
. Este campo suporta apenasDocument
variáveis. -
DocumentText - O texto extraído do documento especificado. Esta variável pode ser utilizada posteriormente na atividade Estação de Validação Presente . Este campo suporta apenas variáveis String.
Note: Starting with UiPath.IntelligentOCR.Activities package v6.3.0-preview, the Digitize Document activity comes with a default preselected OCR engine, the UiPath® Document OCR engine.
Ambas as variáveis de saída, emparelhadas como dependentes, podem ser usadas posteriormente no Processamento de Documentos em toda a Estrutura de Processamento de Documentos (classificação, extração de dados, validação humana, etc.)
Se o pacote UiPath.IntelligentOCR.Activities foi atualizado para v5.1.0, então o parâmetro ForceApplyOCR foi substituído pelo ApplyOcrOnPDF. Aqui está a compatibilidade entre os parâmetros antigos e novos:
-
ForçarAplicaçãoDeOCR = True está sendo substituído por AplicarOcrEmPDF = Sim
-
ForceApplyOCR = False está sendo substituído por ApplyOcrOnPDF = Auto • ForceApplyOCR = Empty está sendo substituído por ApplyOcrOnPDF = Auto
-
ForceApplyOCR = <variável definida pelo usuário> está sendo substituído por ApplyOcrOnPDF = Auto
O Modelo de Objeto do Documento é capturado em um objeto proprietário documentado aqui.
Para que uma imagem seja digitalizada/processada com sucesso, suas dimensões de largura e altura devem estar entre 50 e 10000 pixels. Qualquer imagem abaixo ou acima deste intervalo deve ser rejeitada, com uma mensagem de exceção. Uma imagem validada com as dimensões mencionadas anteriormente e com um tamanho total superior a 14 MP, deve ser reduzida para 14 MP, mantendo a proporção (relação largura/altura).
Os resultados de OCR em documentos digitalizados foram aprimorados e agora os melhores resultados são obtidos mantendo o ângulo de inclinação entre +/- 20 graus.
Você pode ver como a atividade Digitize Document é usada em um exemplo que incorpora várias atividades.
Você pode verificar e baixar o exemplo aqui.