- Visão geral
- Processo do Document Understanding
- Tutoriais de início rápido
- Componentes do framework
- Pacotes de ML
- Visão geral
- Document Understanding - Pacote de ML
- DocumentClassifier - Pacote de ML
- Pacotes de ML com recursos de OCR
- 1040 - Pacote de ML
- 1040 Schedule C - Pacote de ML
- 1040 Schedule D - Pacote de ML
- 1040 Schedule E - Pacote de ML
- 1040x - Pacote de ML
- 3949a - Pacote de ML
- 4506T - Pacote de ML
- 709 - Pacote de ML
- 941x - Pacote de ML
- 9465 - Pacote de ML
- 990 - Pacote de ML - Prévia
- ACORD125 - Pacote de ML
- ACORD126 - Pacote de ML
- ACORD131 - Pacote de ML
- ACORD140 - Pacote de ML
- ACORD25 - Pacote de ML
- Extratos bancários - Pacote de ML
- ConhecimentoDeEmbarque - Pacote de ML
- Certificado de incorporação - Pacote de ML
- Certificado de origem - Pacote de ML
- Cheques - Pacote de ML
- Certificado de produtos filhos - Pacote de ML
- CMS1500 — Pacote de ML
- Declaração de Conformidade da UE - Pacote de ML
- Demonstrações financeiras - Pacote de ML
- FM1003 - Pacote de ML
- I9 - Pacote de ML
- Cartões de identificação - Pacote de ML
- Faturas - Pacote de ML
- FaturasChina - Pacote de ML
- Faturas em hebraico - Pacote de ML
- FaturasÍndia - Pacote de ML
- FaturasJapão - Pacote de ML
- Envio de faturas - Pacote de ML
- Romaneio de carga - Pacote de ML
- Passaportes - Pacote de ML
- Contracheques — Pacote de ML
- Ordens de compra - Pacote de ML
- Recibos – Pacote de ML
- AvisosDePagamento - Pacote de ML
- UB04 - Pacote de ML
- Contas de serviços - Pacote de ML
- Títulos de veículos - Pacote de ML
- W2 - Pacote de ML
- W9 - Pacote de ML
- Outros pacotes de ML prontos para uso
- Endpoints públicos
- Requisitos de Hardware
- Pipelines
- Document Manager
- Serviços de OCR
- Idiomas suportados
- Aprendizagem profunda
- Painéis de insights
- Document Understanding implantado no Automation Suite
- Document Understanding implantado no AI Center autônomo
- Licenciamento
- Atividades
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities

Guia do usuário do Document Understanding.
Visão geral da taxonomia
O que é taxonomia
The Taxonomy is the metadata that the Document UnderstandingTM framework considers in each of its steps.
- A Taxonomia é uma coleção de Tipos de Documentos.
- Um Tipo de Documento é a definição de um tipo lógico de documento, que deve ser tratado por diferentes processos de negócios. Exemplos de Tipos de Documentos são faturas, registros médicos, formulários W-2 do IRS, contratos, etc. Um tipo de documento, além do nome, grupo e categoria (para facilitar o manuseio), geralmente contém uma coleção de Campos.
- Um Campo é uma informação a qual se espera ser encontrada e capturada de um Tipo de Documento específico
Uma Taxonomia é uma estrutura hierárquica que contém o esquema das informações que a estrutura do Document Understanding usará ao longo do processo. Cada definição de entidade (para tipos de documento ou campos) encontrada na Taxonomia tem um ID exclusivo. exclusivo.
Como ela ajuda na classificação de documentos?
Se você deseja classificar os arquivos de entrada em diferentes tipos de documentos, a taxonomia deve conter especificamente os tipos de documentos que deseja utilizar. Isso permitirá que você configure seus processos do Document Understanding com base em um esquema de dados uniforme: a estrutura de sua taxonomia.
Como ela ajuda na extração de dados?
Se você deseja extrair dados de determinados tipos de documentos, a taxonomia conterá a lista de campos pretendida para extração automática de dados. Isso permitirá a configuração de vários métodos e regras de extração, novamente, com base em uma única fonte de esquema de dados verdadeiros: a estrutura do seu tipo de documento.
Tipos de campo e detalhes
Um Campo pode conter partes derivadas: informações formatadas extraídas ou editadas do valor textual subjacente encontrado em um documento.
| Tipo de Campo | Permite valores múltiplos | Finalidade | Partes derivadas para formatação | Informações Adicionais |
|---|---|---|---|---|
| Texto | Sim | Informação textual | N/A | N/A |
| Número | Sim | Valores numéricos |
| N/A |
| Data | Sim | Datas |
| Date fields allow for the definition of an Expected Format , which must be an MSDN-compliant date format string (for example, dd-MM-yyyy or MM, dd, yyyy ). Esse formato é usado pela atividade Escopo da Extração de Dados ao tentar analisar uma data em suas partes de dia, mês e ano de constituição. |
| Name | Sim | Nomes de pessoas |
| N/A |
| Address | Sim | Endereços |
| N/A |
| DEFINIR | Sim | Definir uma lista de valores possíveis de um conjunto predefinido | N/A | Um campo Definir deve definir as opções permitidas como valores. Estes são refletidos no Validation Station. |
| Booleano | Sim | Valores Sim/Não | N/A | Um campo booleano aceita somente Sim ou Não como valores possíveis, e é refletido no Validation Station. |
| Tabela | Não | Dados tabulares | N/A | Um campo Tabela contém a definição das colunas. |
| Coluna de tabela | Não | Cada célula na tabela. | N/A | As Colunas de tabela em um campo Tabela são definidas como um dos campos regulares na lista Componentes. Eles não podem ser do tipo Tabela. |
Outras informações capturadas na taxonomia
A Taxonomia também contém a lista de grupos e categorias, além de uma coleção de idiomas suportados que podem ser associados aos documentos processados. Por exemplo, para processar documentos em japonês e inglês, a tag Idiomas Suportados deve conter seus respectivos nomes de exibição e código de idioma. Recomenda-se adicionar um Idioma Indeterminado (código und) para dar suporte a casos excepcionais.
Métodos de extensão da taxonomia
Serialize()
Ao ser requisitado em um objeto DocumentTaxonomy, o método Serialize() retorna uma representação JSON do objeto para poder ser armazenado e recuperado para uso posterior.
Deserialize(String)
A extensão estática DocumentTaxonomy.Deserialize(jsonString) retorna um objeto DocumentTaxonomy alimentado com os dados codificados em JSON passados como parâmetro.
GetFields(String)
Called on a DocumentTaxonomy object, the GetFields() method called with a DocumentTypeId string returns a list of fields defined within that document type.
Como criar e editar a taxonomia do seu projeto
Once the UiPath.IntelligentOCR.Activities package is installed in your project in UiPath® Studio, a Taxonomy Manager button appears in the main ribbon of Studio's Design tab. Use the Taxonomy Manager wizard to edit your project taxonomy.
A Taxonomia é armazenada em um arquivo dentro do seu projeto UiPath Studio, na pasta DocumentProcessing e no arquivo taxonomy.json.
The file is automatically created when you first open the Taxonomy Manager wizard. You can check the exact location of the file in the Taxonomy Manager, by hovering over the
button. Alternatively, each time you open the Taxonomy Manager, a pop-up message will appear in the upper right corner, informing you of the location of the file. When a project is published from Studio, the taxonomy will be published as well as an artifact of the project.
O arquivo taxonomy.json é exclusivo de cada projeto, mas pode ser reutilizado se for copiado manualmente para um novo projeto. Para isso, basta criar um projeto, acessar a pasta do projeto anterior e copiar o arquivo com a taxonomia de sua escolha para o local correto (na pasta DocumentProcessing).
For data integrity purposes, we recommend you always edit the taxonomy using Taxonomy Manager.
Como usar sua taxonomia em seu projeto
A taxonomia para Document Understanding é obrigatória como um Object em todo o framework do Document Understanding.
The simplest and most convenient way to load your object is by using the Load Taxonomy activity. Once your taxonomy object is loaded, you can use it in all subsequent framework components requiring it.
Casos de uso avançados
-
Se você optar por armazenar sua taxonomia em um local diferente, ainda poderá carregá-la em seu projeto (após obter o conteúdo da string do arquivo de taxonomia, por exemplo, em uma variável
myTaxonomyContentString), usando uma simples atividade Atribuir, como segue:myTaxonomy = DocumentTaxonomy.Deserialize(myTaxonomyContentString) -
Caso seja necessário, lembre-se que a Taxonomia é um POCO (classe de objeto antigo e simples) que, quando necessário, pode ser editado mesmo em execução.
- O que é taxonomia
- Como ela ajuda na classificação de documentos?
- Como ela ajuda na extração de dados?
- Tipos de campo e detalhes
- Outras informações capturadas na taxonomia
- Métodos de extensão da taxonomia
- Serialize()
- Deserialize(String)
- GetFields(String)
- Como criar e editar a taxonomia do seu projeto
- Como usar sua taxonomia em seu projeto
- Casos de uso avançados