Atividades - Dados do documento

activities

latest

false

Atividades do Document Understanding

Importante :

A tradução automática foi aplicada parcialmente neste conteúdo. A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.

Dados do documento

Referência do objeto Document Data, servindo como a variável de entrada e saída principal para fluxos de trabalho do Document Understanding.

Dados de documento são um recurso que serve tanto como uma variável de entrada quanto de saída, em seus fluxos de trabalho do Document Understanding. O objeto Dados do documento contém todas as informações necessárias sobre um único documento. Se você classifica um documento, o objeto inclui o Tipo de documento. Se você extrair dados, o objeto contém os campos extraídos correspondentes. Independentemente da atividade, os Dados do documento contêm consistentemente o texto e o DOM (Modelo de objeto do documento) do documento.

Com o Document Data você pode: coletar todas as informações necessárias sobre um documento em uma variável, salvar dados em cada propriedade do objeto e reutilizá-lo para outras atividades no fluxo de trabalho.

Dados de documentos contêm informações sobre os seguintes atributos:

TipoDeDocumento: fornece dados sobre o tipo de documento identificado, preenchido por atividades como Classify Document ou Create Classification Validation Task.
Dados: contêm os valores de campo extraídos. É gerado sob demanda pela propriedade Gerar dados , que gera um tipo de saída de IDocumentData<ExtractorType>. Quando a propriedade Gerar dados está definida como False, você pode acessar os valores do campo extraídos apenas por meio de métodos do tipo Get.
FileDetails: contém detalhes sobre o IResource.
Observação:
IResource é um ponteiro universal que localiza e acessa dados usados em seus fluxos de trabalho multiplataforma. IResource atua como um contêiner, armazenando referências a dados locais (como arquivos locais) ou externos (como arquivos em nuvem) que são salvos não apenas no fluxo de trabalho atual. Esses dados podem ser de várias origens. Para obter mais informações sobre IResource e as propriedades que expõe, visite Usando recursos de arquivos e pastas.
SubDocumentos: inclui uma coleção de dados de documentos, preenchidos por atividades como Create Classification Validation Task.
MetadadosDoDocumento: contém informações sobre o processamento do documento, como:
- Idioma detectado do texto
- Campos extraídos como Tabela de Dados
- Modelo de Objeto de Documento (DOM): contém o Modelo de Objeto de Documento que é usado por todas as atividades. O DocumentMetadata é atualizado pela atividade que primeiro processa o documento. Após terem sido preenchidos, os metadados são compartilhados e usados por todas as atividades subsequentes que recebem o objeto Dados do documento.
  Dica:
  A menos que uma atividade seja a primeira parte da atividade do Document Understanding de um fluxo de trabalho do Studio, use Dados do documento como entrada. Use a variável Arquivo como entrada apenas se a atividade for a primeira parte do Document Understanding de um fluxo de trabalho do Studio.

Compreensão e acesso a dados

Os Dados do documento contêm informações detalhadas sobre os resultados da extração. Os dados podem ser de dois tipos, dependendo se você optar por gerá-los sob demanda, para que possa usá-los mais em seu fluxo de trabalho, ou não gerá-los, para que possa executar métodos get e set neles, projetados para implementações avançadas, para aumentar a flexibilidade.

A propriedade Gerar tipo de dados na atividade Extract Document Data permite escolher se os dados serão gerados sob demanda ou não. Consulte os seguintes cenários:

Quando você define Gerar Tipo de Dados como True (a configuração padrão): Saídas de dados do documento como IDocumentData<ExtractorType>. Esses dados são gerados sob demanda e mudam com base nas modificações feitas na atividade Extract Document Data. Com essa configuração, você não pode alterar o tipo de documento na Estação de Validação, e JIT (Just in Time) é selecionado por padrão.
When you set Generate Data Type to False: Document Data outputs as IDocumentData<DictionaryData>. With this setting, the Document Data property will not be generated anymore, and you won't be able to browse through it. You can access its data using specific methods, relying on the field ID. These IDs become available when configuring the document type or when retrieving the information using APIs. Visit Editing or adding new fields and Get the extraction request API for more information. As an alternative to these methods, you can navigate and edit the results in a fluent, strongly-typed way through the Handler property, which exposes an ExtractionResultHandler navigator.
- Quando você define Gerar Tipo de Dados como False para extração generativa, os campos recuperados correspondem aos nomes fornecidos no prompt. Por exemplo, se o nome do campo no prompt for definido como a b c (incluindo os espaços), você deve usar o mesmo que o ID do campo ao usar os métodos específicos.

Passando dados do documento para atividades

Quando você usa Dados do documento, o primeiro objeto de saída é criado a partir do seu arquivo de entrada. Após criar esse objeto, recomendamos que você passe ele para as suas próximas atividades. Ao passá-lo para suas próximas atividades, você pode reutilizar o Text e o DOM do seu arquivo original. Essa abordagem evita o trabalho de digitalizar o arquivo a cada vez.

Consumo dos resultados da extração para campos de valor único e vários

Se você configurar um campo de tipo de documento para ter vários valores, o sistema espera vários valores. Um exemplo pode ser uma pergunta de múltipla escolha em um formulário. Os resultados aparecem no atributo de vários valores no campo, retornados como uma lista. Se o campo de tipo de documento estiver configurado para ser de valor único, o sistema retornará o resultado no atributo de valor no campo por padrão.

A seguinte tabela mostra como os Dados de documento retornam campos de valor único e múltiplo:

Tabela 1. Os valores retornados por Dados de documentos para campos de valores únicos e múltiplos

	não tem valor	Tem um valor	Tem dois ou mais valores	DocumentData.Data.FieldName.Value	DocumentData.Data.FieldName.MultiValues
Valor Único	Sim	Não	N/A	“”	null
Valor Único	Não	Sim	N/A		null
Multivalor	Sim	Não	Não	“”	[] (matriz vazia)
Multivalor	Não	Sim	Não		[<array com um valor idêntico ao do `.Value`>]
Multivalor	Não	Não	Sim		[<array com `n` valores, com o primeiro valor sendo idêntico ao `.Value`>]

Retornando campos extraídos como uma tabela de dados

Você pode retornar os campos que extraiu de um documento como uma Tabela de dados, usando o objeto Document Data. Então, você pode usar a variável Tabela de dados dentro das atividades do Excel.

Para retornar os campos extraídos como uma Tabela de dados, escolha a saída ResultsAsDatatable para a atividade Extract Document Data .

Propriedades

As propriedades da variável Dados do documento podem ser preenchidas e consumidas por uma ou várias atividades. Dependendo da atividade que preenche a variável, as propriedades podem diferir. Verifique a lista a seguir:

TipoDeDocumento - A atividade Classify Document preenche os seguintes valores:
- DisplayName (usado para modelos personalizados): nome do Tipo de documento.
- ID (usado para modelos prontos para uso): Nome do Tipo de Documento.
- Confiança: confiança na classificação.
- URL: URL de onde o Tipo de documento é acessível; isso pode ser personalizado ou predefinido, referenciado por meio do respectivo projeto no Centro do Document Understanding.
Os campos - Extract Document Data, Create Validation Task, Create Validation Task e Wait, Wait for Validation Task and Resume preenchem os seguintes valores:
- Valor do campo: valor de extração do campo.
- Pontuação de confiança da extração: pontuação de confiança da extração, conforme fornecido pelo modelo.
- Pontuação de confiança do OCR: pontuação de confiança fornecida pelo mecanismo de OCR.
Detalhes do arquivo — as atividades que criam o objeto Dados do documento, recebendo um arquivo como entrada, preenchem os seguintes valores:
- Local Path: Local path of the file.
- Nome completo: nome completo do arquivo.
- Extensão: extensão do arquivo.
- Intervalo de páginas: intervalo de páginas do arquivo.
Subdocumentos: coleção de dados de documentos, preenchida pela atividade Classify Document .
Observação:
Isso não é preenchido atualmente e será adicionado no futuro, juntamente com a validação de classificação e recursos de divisão.
MetadadosDoDocumento:
- DOM: o modelo de objeto do documento, usado por todas as atividades. (preenchido por atividades que criam o objeto Dados do documento, recebendo um arquivo como entrada.)
- Texto: todo o texto extraído. (preenchido por atividades que criam o objeto Dados do documento, recebendo um arquivo como entrada.)
- Idioma: o idioma detectado no documento. (preenchido por atividades que criam o objeto Dados do documento, recebendo um arquivo como entrada.)
- Confiança de divisão: se o documento for dividido, o documento será retornado pelo modelo de divisão. (preenchido pela atividade Classify Document )
  Observação:
  Isso não é preenchido atualmente e será adicionado no futuro, juntamente com a validação de classificação e recursos de divisão.
- Resultados como Tabelas de Dados: campos exportados como Tabela de Dados. (preenchido pela atividade Extract Document Data ).
Properties (advanced) - Holds the underlying processing context that the other members and methods read from. This property is hidden in the Studio designer, but it is publicly accessible in code. The convenience views on the output, such as the Handler property and the Get/Set methods, operate over the ExtractionResult exposed here. The property exposes the following values:
- ExtractionResult: The raw extraction result, used by the navigator and the Get/Set methods.
- Taxonomy: The document taxonomy, holding the field and table definitions.
- ClassificationResults: The classification results for the document.
- ProjectId, ExtractorId, ClassifierId: Identifiers of the project and the models used.
- ExtractorModelType, ClassifierModelType: The model types used for extraction and classification.

Nesta página

Compreensão e acesso a dados
Passando dados do documento para atividades
Consumo dos resultados da extração para campos de valor único e vários
Retornando campos extraídos como uma tabela de dados
Propriedades

Esta página foi útil?

AnteriorCompatibilidade do projeto

AvançarMétodos

Compreensão e acesso a dados​

Passando dados do documento para atividades​

Consumo dos resultados da extração para campos de valor único e vários​

Retornando campos extraídos como uma tabela de dados​