- Visão geral
- Contratos de Processamento de Documentos
- Notas de versão
- Sobre os Contratos de Processamento de Documentos
- Classe Box
- Interface IPersistedActivity
- Classe PrettyBoxConverter
- Interface IClassifierActivity
- Interface IClassifierCapabilitiesProvider
- Classe ClassifierDocumentType
- Classe ClassifierResult
- Classe ClassifierCodeActivity
- Classe ClassifierNativeActivity
- Classe ClassifierAsyncCodeActivity
- Classe ClassifierDocumentTypeCapability
- Classe ExtractorAsyncCodeActivity
- Classe ExtractorCodeActivity
- Classe ExtractorDocumentType
- Classe ExtractorDocumentTypeCapabilities
- Classe ExtractorFieldCapability
- Classe ExtractorNativeActivity
- Classe ExtractorResult
- Interface ICapabilitiesProvider
- Interface IExtractorActivity
- Classe ExtractorPayload
- Enumeração DocumentActionPriority
- Classe DocumentActionData
- Enumeração DocumentActionStatus
- Enumeração DocumentActionType
- Classe DocumentClassificationActionData
- Classe DocumentValidationActionData
- Classe UserData
- Classe Document
- Classe DocumentSplittingResult
- Classe DomExtensions
- Classe Page
- Classe PageSection
- Classe Polígono
- Classe PolygonConverter
- Classe de metadados
- Classe WordGroup
- Classe Word
- Enumeração ProcessingSource
- Classe ResultsTableCell
- Classe ResultsTableValue
- Classe ResultsTableColumnInfo
- Classe ResultsTable
- Enumeração Rotation
- Enumeração SectionType
- Enumeração WordGroupType
- Interface IDocumentTextProjection
- Classe ClassificationResult
- Classe ExtractionResult
- Classe ResultsDocument
- Classe ResultsDocumentBounds
- Classe ResultsDataPoint
- Classe ResultsValue
- Classe ResultsContentReference
- Classe ResultsValueTokens
- Classe ResultsDerivedField
- Enumeração ResultsDataSource
- Classe ResultConstants
- Classe SimpleFieldValue
- Classe TableFieldValue
- Classe DocumentGroup
- Classe DocumentTaxonomy
- Classe DocumentType
- Classe Field
- Enumeração FieldType
- Classe LanguageInfo
- Classe MetadataEntry
- Enumeração de tipo de texto
- Classe TypeField
- Interface ITrackingActivity
- Interface ITrainableActivity
- Interface ITrainableClassifierActivity
- Interface ITrainableExtractorActivity
- Classe TrainableClassifierAsyncCodeActivity
- Classe TrainableClassifierCodeActivity
- Classe TrainableClassifierNativeActivity
- Classe TrainableExtractorAsyncCodeActivity
- Classe TrainableExtractorCodeActivity
- Classe TrainableExtractorNativeActivity
- Digitalizador do Document Understanding
- Document Understanding ML
- Document Understanding OCR Local Server
- Processo do Document Understanding - Modelo do Studio
- Document Understanding
- Notas de versão
- Sobre o pacote de atividades Document Understanding
- Compatibilidade do projeto
- Dados do documento
- Definir Senha do PDF
- Merge PDFs
- Get PDF Page Count
- Extract PDF Text
- Extract PDF Images
- Extract PDF Page Range
- Extract Document Data
- Criar tarefa de validação e aguardar
- Aguarde a tarefa de validação e retome
- Create Validation Task
- Classificar Documento
- Create Classification Validation Task
- Create Classification Validation Task and Wait
- Aguardar a tarefa de Validação de Classificação e retomar
- IntelligentOCR
- Notas de versão
- Sobre o pacote de atividades IntelligentOCR
- Compatibilidade do projeto
- Carregar Taxonomia
- Digitize Document
- Classificar Escopo do Documento
- Classificador baseado em palavra-chave
- Intelligent Keyword Classifier
- Present Classification Station
- Create Document Classification Action
- Wait For Document Classification Action And Resume
- Train Classifiers Scope
- Instrutor de Classificador Baseado em Palavra-chave
- Intelligent Keyword Classifier Trainer
- Escopo da Extração de Dados
- Regex Based Extractor
- Form Extractor
- Intelligent Form Extractor
- Present Validation Station
- Create Document Validation Action
- Wait For Document Validation Action And Resume
- Escopo de Extratores de Treinamento
- Exportar Resultados da Extração
- Serviços de ML
- OCR
- Contratos de OCR
- Notas de versão
- Sobre os Contratos OCR
- Compatibilidade do projeto
- Interface IOCRActivity
- Classe OCRAsyncCodeActivity
- Classe OCRCodeActivity
- Classe OCRNativeActivity
- Character Class
- Classe OCRResult
- Classe Word
- Enumeração FontStyles
- Enumeração OCRRotation
- Classe OCRCapabilities
- Classe OCRScrapeBase
- Classe OCRScrapeFactory
- Classe ScrapeControlBase
- Enumeração ScrapeEngineUsages
- ScrapeEngineBase
- Classe ScrapeEngineFactory
- Classe ScrapeEngineProvider
- OmniPage
- PDF
- [Não listado] Abbyy
- [Não listado] Abbyy Embedded
Dados do documento
Dados de documento são um recurso que serve tanto como uma variável de entrada quanto de saída, em seus fluxos de trabalho do Document Understanding. O objeto Dados do documento contém todas as informações necessárias sobre um único documento. Se você classifica um documento, o objeto inclui o Tipo de documento. Se você extrair dados, o objeto contém os campos extraídos correspondentes. Independentemente da atividade, os Dados do documento contêm consistentemente o texto e o DOM (Modelo de objeto do documento) do documento.
Com o Document Data você pode: coletar todas as informações necessárias sobre um documento em uma variável, salvar dados em cada propriedade do objeto e reutilizá-lo para outras atividades no fluxo de trabalho.
Dados de documentos contêm informações sobre os seguintes atributos:
- TipoDeDocumento: Fornece dados sobre o tipo de Documento identificado, preenchido por atividades como Classify Document ou Create Classification Validation Task.
- Dados: contém os valores de campo extraídos, preenchidos por atividades como Extract Document Data ou Create Document Validation Task
- DetalhesDoArquivo: contém detalhes sobre o
IResource
. - SubDocumentos: inclui uma coleção de Dados de Documentos, preenchido por atividades como Create Classification Validation Task.
- MetadadosDoDocumento : contém informações sobre o processamento do documento, como:
- Idioma detectado do texto
- Campos extraídos como Tabela de Dados
- Modelo de objeto do documento (DOM): contém o modelo de objeto do documento, que é usado por todas as atividades.
Dica: a menos que uma atividade seja a primeira parte da atividade do Document Understanding de um fluxo de trabalho do Studio, use Dados do documento como entrada. Use a variável Arquivo como entrada apenas se a atividade for a primeira parte do Document Understanding de um fluxo de trabalho do Studio.
As propriedades da variável Dados do documento podem ser preenchidas e consumidas por uma ou várias atividades. Dependendo da atividade que preenche a variável, as propriedades podem ser diferentes.
Nome do atributo | Propriedade | Description | Atividades que preenchem o valor |
---|---|---|---|
Tipo de Documento | DisplayName (usado para modelos personalizados) | Nome do tipo de documento | Classificar Documento |
ID (usado para modelos prontos para uso) | Nome do tipo de documento | ||
Confidence | Confiança da classificação | ||
URL | URL de onde o Tipo de documento é acessível; pode ser personalizado ou predefinido, referenciado por meio do respectivo projeto no Centro do Document Understanding. | ||
Campos | Valor do campo | Valor de extração do campo | |
Pontuação de confiança da extração | Pontuação de confiança da extração, conforme fornecido pelo modelo | ||
Pontuação de confiança do OCR | Pontuação de confiança fornecida pelo mecanismo de OCR | ||
Detalhes do arquivo | NomeCompleto | Nome completo do arquivo | Atividades que criam o objeto Dados do documento, recebendo um arquivo como entrada |
Extensão | Extensão do arquivo | ||
Intervalo de Página | Intervalo de páginas do arquivo | ||
Subdocumentos | NA | Coleção de dados do documento
Observação: isso não é preenchido atualmente e será adicionado no futuro, juntamente com a validação de classificação e recursos de divisão.
| Classificar Documento |
Metadata | NA | Informações sobre o processamento do documento | Atividades que criam o objeto de dados de documento, recebendo um arquivo como entrada. |
DOM | NA | O modelo de objeto do documento, usado por todas as atividades | |
Texto | NA | Todo o texto extraído | |
Idioma detectado | NA | O idioma detectado no documento | |
Confiança na divisão | NA | Se o documento for dividido, ele será retornado pelo modelo de divisão
Observação: isso não é preenchido atualmente e será adicionado no futuro, juntamente com a validação de classificação e recursos de divisão.
| Classificar Documento |
Resultados como tabela de dados | NA | Campos exportados como tabela de dados | Extract Document Data |
Quando você usa Dados do documento, o primeiro objeto de saída é criado a partir do seu arquivo de entrada. Após criar esse objeto, recomendamos que você passe ele para as suas próximas atividades. Ao passá-lo para suas próximas atividades, você pode reutilizar o Text e o DOM do seu arquivo original. Essa abordagem evita o trabalho de digitalizar o arquivo a cada vez.
Se você configurar um campo de tipo de documento para ter vários valores, o sistema espera vários valores. Um exemplo pode ser uma pergunta de múltipla escolha em um formulário. Os resultados aparecem no atributo de vários valores no campo, retornados como uma lista. Se o campo de tipo de documento estiver configurado para ser de valor único, o sistema retornará o resultado no atributo de valor no campo por padrão.
A seguinte tabela mostra como os Dados de documento retornam campos de valor único e múltiplo:
Tipo de campo | não tem valor | Tem um valor | Tem dois ou mais valores | DocumentData.Data.FieldName.Value | DocumentData.Data.FieldName.MultiValues |
---|---|---|---|---|---|
Valor Único | Sim | Não | N/A | “” | null |
Valor Único | Não | Sim | N/A | <value that was identified> | null |
Multivalor | Sim | Não | Não | “” | [] (matriz vazia) |
Multivalor | Não | Sim | Não | <value that was identified> | [<array com um valor idêntico ao do .Value >]
|
Multivalor | Não | Não | Sim | <first value that was identified> | [<array com n valores, com o primeiro valor sendo idêntico ao .Value >]
|
É possível retornar os campos extraídos de um documento como uma Tabela de dados, usando o objeto Dados do documento. Então, você pode usar a variável Data Table dentro das atividades do Excel.
Para retornar os campos extraídos como uma Tabela de dados, escolha a saída ResultsAsDatatable para a atividade Extract Document Data .