UiPath Documentation
document-understanding
2021.10
false
  • Introdução
    • Introdução
    • Suporte a idiomas
    • Processo do Document Understanding: modelo Studio
    • Lista de verificação de configuração do Document Understanding
    • Relação do AI Center com a compreensão de documentos
  • Componentes do framework
    • Taxonomia
      • Visão geral da taxonomia
      • Gerenciador de Taxonomia
      • Atividades relacionadas à taxonomia
    • Digitalização
      • Visão geral da digitalização
      • Mecanismos OCR
      • Atividades relacionadas à digitalização
    • Classificação de Documento
      • Visão geral da classificação de documentos
      • Assistente para configurar classificadores de Classificar Escopo de Documento
      • Classificador baseado em palavra-chave
      • Intelligent Keyword Classifier
      • Classificador do FlexiCapture
      • Machine Learning Classifier
      • Atividades relacionadas à classificação de documentos
    • Validação da classificação de documentos
      • Visão geral da validação da classificação de documentos
      • Classification Station
      • Atividades relacionadas à validação de classificação de documentos
    • Treinamento em classificação de documentos
      • Visão geral do treinamento em classificação de documentos
      • Assistente para configurar classificadores do Train Classifiers Scope
      • Machine Learning Classifier Trainer
      • Atividades relacionadas ao treinamento em classificação de documentos
    • Extração de Dados
      • Visão geral de extração de dados
      • Assistente para configurar extratores de Escopo de Extração de Dados
      • Regex Based Extractor
      • Form Extractor
      • Intelligent Form Extractor
      • Machine Learning Extractor
      • Extrator do FlexiCapture
      • Atividades relacionadas à extração de dados
    • Validação de extração de dados
      • Visão geral da validação de extração de dados
      • Validation Station
      • Atividades relacionadas à validação de extração de dados
    • Treinamento em extração de dados
      • Visão geral do treinamento em extração de dados
      • Assistente para configurar extratores de Train Extractors Scope
      • Machine Learning Extractor Trainer
      • Atividades relacionadas ao treinamento em extração de dados
    • Consumo de dados
      • Visão geral do consumo de dados
      • Atividades relacionadas ao consumo de dados
  • Pacotes de ML
    • Sobre os pacotes de ML
    • Requisitos de Hardware
    • Idiomas suportados
      • OCR
      • Pacotes de ML
      • Outros Serviços
    • Configuração de OCR
    • Instalação e uso do Intelligent Form Extractor
  • Pipelines
    • Sobre pipelines
    • Pipelines de treinamento
    • Pipelines de avaliação
    • Pipelines completos
    • Ajuste fino
    • O loop de ajuste fino automático (pré-visualização pública)
  • Gerenciador de Dados
    • Sobre o Data Manager
    • Acessar Data Manager
    • Criar e configurar campos
    • Usar um esquema pré-definido
    • Importar documentos
    • Rotular documentos
    • Pesquisar documentos
    • Exportar documentos
    • Caixas de seleção e assinaturas
  • Serviços de OCR
    • Serviços de OCR
  • Document Understanding implantado no Automation Suite
    • Instalar e usar
    • Experiência de primeira execução
    • Implantar o UiPathDocumentOCR
    • Implante um Pacote de ML pré-configurado
    • Instalação offline de pacotes de ML
    • Use o Data Manager
    • Usar o Framework
  • Document Understanding implantado no AI Center autônomo
    • Instalar e usar
    • Experiência de primeira execução
    • Implantar o UiPathDocumentOCR
    • Implante um Pacote de ML pré-configurado
    • Instalação offline de pacotes de ML
    • Use o Data Manager
    • Usar o Framework
  • Aprendizagem profunda
    • Treinamento de modelos de alto desempenho
  • Licenciamento
    • Endpoints públicos
    • Chave de API
    • Uso na nuvem e local
    • Lógica de medição e carregamento
  • Referências
    • Pacotes de atividades
      • UiPath.Abbyy.Activities
      • UiPath.AbbyyEmbedded.Activities
      • UiPath.DocumentUnderstanding.ML.Activities
      • UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
      • UiPath.IntelligentOCR.Activities
      • UiPath.OCR.Activities
      • UiPath.OCR.Contracts
      • UiPath.DocumentProcessing.Contracts
      • UiPath.OmniPage.Activities
      • UiPath.PDF.Activities
Importante :
A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.
UiPath logo, featuring letters U and I in white
Fora do período de suporte

Guia do usuário do Document Understanding.

Última atualização 4 de fev de 2025

Visão geral da taxonomia

O que é taxonomia

A Taxonomia são os metadados que o framework do Document Understanding considera em cada uma de suas etapas.

A Taxonomia é uma coleção de Tipos de Documentos.

  • Um Tipo de Documento é a definição de um tipo lógico de documento, que deve ser tratado por diferentes processos de negócios. Exemplos de Tipos de Documentos são faturas, registros médicos, formulários W-2 do IRS, contratos, etc. Um tipo de documento, além do nome, grupo e categoria (para facilitar o manuseio), geralmente contém uma coleção de Campos.
  • Um Campo é uma informação a qual se espera ser encontrada e capturada de um Tipo de Documento específico

Como visto acima, uma Taxonomia é uma estrutura hierárquica que contém o esquema das informações que o framework do Document Understanding usará em seus processos. Cada definição de entidade (para tipos de documentos ou campos) encontrada na Taxonomia possui um ID exclusivo.

Como ela ajuda na classificação de documentos?

Se você deseja classificar os arquivos de entrada em diferentes tipos de documentos, a taxonomia deve conter especificamente os tipos de documentos que deseja utilizar. Isso permitirá que você configure seus processos do Document Understanding com base em um esquema de dados uniforme: a estrutura de sua taxonomia.

Como ela ajuda na extração de dados?

Se você deseja extrair dados de determinados tipos de documentos, a taxonomia conterá a lista de campos pretendida para extração automática de dados. Isso permitirá a configuração de vários métodos e regras de extração, novamente, com base em uma única fonte de esquema de dados verdadeiros: a estrutura do seu tipo de documento.

Tipos de campo e detalhes

Um Campo pode conter partes derivadas: informações formatadas extraídas ou editadas do valor textual subjacente encontrado em um documento.

Tipo de Campo

Permite valores múltiplos

Finalidade

Partes derivadas para formatação

Informações Adicionais

Texto

Sim

Informação textual

N/A

N/A

Número

Sim

Valores numéricos

  • Valor

N/A

Data

Sim

Datas

  • Dia
  • Mês
  • Ano
Os campos de data permitem a definição de um Formato esperado, que deve ser uma string de formato de data compatível com MSDN (por exemplo, dd-MM-yyyy ou MM, dd, yyyy).

Esse formato é usado pela atividade Escopo da Extração de Dados ao tentar analisar uma data em suas partes de dia, mês e ano de constituição.

Name

Sim

Nomes de pessoas

  • Given Name
  • Nome do Meio
  • Sobrenome

N/A

Address

Sim

Endereços

  • Linha de Endereço 1
  • Linha de Endereço 2
  • Linha de Endereço 3
  • Cidade
  • Estado / Município / Província
  • País
  • CEP

N/A

DEFINIR

Sim

Informações que possuem valores relatados estritos de um conjunto predefinido

N/A

Um campo Definir deve definir as opções permitidas como valores. Estes são refletidos no Validation Station.

Booleano

Sim

Valores Sim/Não

N/A

Um campo booleano aceita somente Sim ou Não como valores possíveis, e é refletido no Validation Station.

Tabela

Não

Dados tabulares

N/A

Um campo Tabela contém a definição das colunas.

Coluna de tabela

Não

Cada célula na tabela.

N/A

As Colunas de tabela em um campo Tabela são definidas como um dos campos regulares na lista Componentes.

Eles não podem ser do tipo Tabela.

Outras informações capturadas na taxonomia

A Taxonomia também contém a lista de grupos e categorias, além de uma coleção de idiomas suportados que podem ser associados aos documentos processados. Por exemplo, para processar documentos em japonês e inglês, a tag Idiomas Suportados deve conter seus respectivos nomes de exibição e código de idioma. Recomenda-se adicionar um Idioma Indeterminado (código und) para dar suporte a casos excepcionais.

Métodos de extensão da taxonomia

Serialize()

Ao ser requisitado em um objeto DocumentTaxonomy, o método Serialize() retorna uma representação JSON do objeto para poder ser armazenado e recuperado para uso posterior.

Deserialize(String)

A extensão estática DocumentTaxonomy.Deserialize(jsonString) retorna um objeto DocumentTaxonomy alimentado com os dados codificados em JSON passados como parâmetro.

GetFields(String)

Ao ser requisitado em um objeto DocumentTaxonomy , o método GetFields() requisitado com uma string DocumentTypeId retorna uma lista de campos definidos dentro desse tipo de documento.

Como criar e editar a taxonomia do seu projeto

Assim que o pacote UiPath.IntelligentOCR.Activities estiver instalado em seu projeto no UiPath Studio, um botão Gerenciado de Taxonomia aparecerá no menu principal da aba Design do Studio. Use o assistente Gerenciado de Taxonomia para editar a taxonomia do seu projeto.

A Taxonomia é armazenada em um arquivo dentro do seu projeto UiPath Studio, na pasta DocumentProcessing e no arquivo taxonomy.json.

O arquivo é criado automaticamente quando você abre o assistente Gerenciador de Taxonomia pela primeira vez. Você pode verificar a localização exata do arquivo no Gerenciador de Taxonomia, passando o mouse sobre o botão . Alternativamente, cada vez que você abrir o Gerenciador de Taxonimia, uma mensagem pop-up será exibida no canto superior direito, informando a localização do arquivo. Quando um projeto é publicado a partir do Studio, a taxonomia será publicada com um artefato do projeto.

O arquivo taxonomy.json é exclusivo de cada projeto, mas pode ser reutilizado se for copiado manualmente para um novo projeto. Para isso, basta criar um projeto, acessar a pasta do projeto anterior e copiar o arquivo com a taxonomia de sua escolha para o local correto (na pasta DocumentProcessing).
Importante: para fins de integridade de dados, recomendamos sempre editar a taxonomia usando o Gerenciador de Taxonomia.

Como usar sua taxonomia em seu projeto

A taxonomia para Document Understanding é obrigatória como um Object em todo o framework do Document Understanding.

A maneira mais simples e conveniente de carregar seu objeto é usando a atividade Carregar Taxonomia. Após seu objeto de taxonomia ser carregado, você poderá usá-lo em todos os componentes de estrutura subsequentes que o exigirem.

Casos de uso avançados

  • Se você optar por armazenar sua taxonomia em um local diferente, ainda poderá carregá-la em seu projeto (após obter o conteúdo da string do arquivo de taxonomia, por exemplo, em uma variável myTaxonomyContentString), usando uma simples atividade Atribuir, como segue:myTaxonomy = DocumentTaxonomy.Deserialize(myTaxonomyContentString)
  • Caso seja necessário, lembre-se que a Taxonomia é um POCO (classe de objeto antigo e simples) que, quando necessário, pode ser editado mesmo em execução.

Esta página foi útil?

Conectar

Precisa de ajuda? Suporte

Quer aprender? Academia UiPath

Tem perguntas? Fórum do UiPath

Fique por dentro das novidades