- Visão geral
- Introdução
- Atividades
- Painéis de insights
- Processo do Document Understanding
- Tutoriais de início rápido
- Componentes do framework
- Pacotes de ML
- Visão geral
- Document Understanding - Pacote de ML
- DocumentClassifier - Pacote de ML
- Pacotes de ML com recursos de OCR
- 1040 - Pacote de ML
- 1040 Schedule C - Pacote de ML
- 1040 Schedule D - Pacote de ML
- 1040 Schedule E - Pacote de ML
- 1040x - Pacote de ML
- 3949a - Pacote de ML
- 4506T - Pacote de ML
- 709 - Pacote de ML
- 941x - Pacote de ML
- 9465 - Pacote de ML
- ACORD131 - Pacote de ML
- ACORD140 - Pacote de ML
- ACORD25 - Pacote de ML
- Extratos bancários - Pacote de ML
- ConhecimentoDeEmbarque - Pacote de ML
- Certificado de incorporação - Pacote de ML
- Certificado de origem - Pacote de ML
- Cheques - Pacote de ML
- Certificado de produtos filhos - Pacote de ML
- CMS1500 — Pacote de ML
- Declaração de Conformidade da UE - Pacote de ML
- Demonstrações financeiras - Pacote de ML
- FM1003 - Pacote de ML
- I9 - Pacote de ML
- Cartões de identificação - Pacote de ML
- Faturas - Pacote de ML
- FaturasAustrália - Pacote de ML
- FaturasChina - Pacote de ML
- Faturas em hebraico - Pacote de ML
- FaturasÍndia - Pacote de ML
- FaturasJapão - Pacote de ML
- Envio de faturas - Pacote de ML
- Romaneio de carga - Pacote de ML
- Contracheques — Pacote de ML
- Passaportes - Pacote de ML
- Ordens de compra - Pacote de ML
- Recibos - Pacote de ML
- AvisosDePagamento - Pacote de ML
- UB04 - Pacote de ML
- Contas de serviços - Pacote de ML
- Títulos de veículos - Pacote de ML
- W2 - Pacote de ML
- W9 - Pacote de ML
- Outros pacotes de ML prontos para uso
- Endpoints públicos
- Limitações de tráfego
- Configuração de OCR
- Pipelines
- Serviços de OCR
- Idiomas suportados
- Aprendizagem profunda
- Licenciamento
Visão geral da taxonomia
The Taxonomy is the metadata that the Document UnderstandingTM framework considers in each of its steps.
- A Taxonomia é uma coleção de Tipos de Documentos.
- Um Tipo de Documento é a definição de um tipo lógico de documento, que deve ser tratado por diferentes processos de negócios. Exemplos de Tipos de Documentos são faturas, registros médicos, formulários W-2 do IRS, contratos, etc. Um tipo de documento, além do nome, grupo e categoria (para facilitar o manuseio), geralmente contém uma coleção de Campos.
- Um Campo é uma informação a qual se espera ser encontrada e capturada de um Tipo de Documento específico
Como visto acima, uma Taxonomia é uma estrutura hierárquica que contém o esquema das informações que o framework do Document Understanding usará em seus processos. Cada definição de entidade (para tipos de documentos ou campos) encontrada na Taxonomia possui um ID exclusivo.
Se você deseja classificar os arquivos de entrada em diferentes tipos de documentos, a taxonomia deve conter especificamente os tipos de documentos que deseja utilizar. Isso permitirá que você configure seus processos do Document Understanding com base em um esquema de dados uniforme: a estrutura de sua taxonomia.
Se você deseja extrair dados de determinados tipos de documentos, a taxonomia conterá a lista de campos pretendida para extração automática de dados. Isso permitirá a configuração de vários métodos e regras de extração, novamente, com base em uma única fonte de esquema de dados verdadeiros: a estrutura do seu tipo de documento.
Um Campo pode conter partes derivadas: informações formatadas extraídas ou editadas do valor textual subjacente encontrado em um documento.
Tipo de Campo |
Permite valores múltiplos |
Finalidade |
Partes derivadas para formatação |
Informações Adicionais |
---|---|---|---|---|
Texto |
Sim |
Informação textual |
N/A |
N/A |
Número |
Sim |
Valores numéricos |
|
N/A |
Data |
Sim |
Datas |
|
Os campos de data permitem a definição de um Formato esperado, que deve ser uma string de formato de data compatível com MSDN (por exemplo,
dd-MM-yyyy ou MM, dd, yyyy ).
Esse formato é usado pela atividade Escopo da Extração de Dados ao tentar analisar uma data em suas partes de dia, mês e ano de constituição. |
Name |
Sim |
Nomes de pessoas |
|
N/A |
Address |
Sim |
Endereços |
|
N/A |
DEFINIR |
Sim |
Definir uma lista de valores possíveis de um conjunto predefinido |
N/A |
Um campo Definir deve definir as opções permitidas como valores. Estes são refletidos no Validation Station. |
Booleano |
Sim |
Valores Sim/Não |
N/A |
Um campo booleano aceita somente Sim ou Não como valores possíveis, e é refletido no Validation Station. |
Tabela |
Não |
Dados tabulares |
N/A |
Um campo Tabela contém a definição das colunas. |
Coluna de tabela |
Não |
Cada célula na tabela. |
N/A |
As Colunas de tabela em um campo Tabela são definidas como um dos campos regulares na lista Componentes. Eles não podem ser do tipo Tabela. |
und
) para dar suporte a casos excepcionais.
DocumentTaxonomy
, o método Serialize()
retorna uma representação JSON
do objeto para poder ser armazenado e recuperado para uso posterior.
DocumentTaxonomy.Deserialize(jsonString)
retorna um objeto DocumentTaxonomy
alimentado com os dados codificados em JSON passados como parâmetro.
Once the UiPath.IntelligentOCR.Activities package is installed in your project in UiPath® Studio, a Taxonomy Manager button appears in the main ribbon of Studio's Design tab. Use the Taxonomy Manager wizard to edit your project taxonomy.
taxonomy.json
.
O arquivo é criado automaticamente quando você abre o assistente Gerenciador de Taxonomia pela primeira vez. Você pode verificar a localização exata do arquivo no Gerenciador de Taxonomia, passando o mouse sobre o botão . Alternativamente, cada vez que você abrir o Gerenciador de Taxonimia, uma mensagem pop-up será exibida no canto superior direito, informando a localização do arquivo. Quando um projeto é publicado a partir do Studio, a taxonomia será publicada com um artefato do projeto.
taxonomy.json
é exclusivo de cada projeto, mas pode ser reutilizado se for copiado manualmente para um novo projeto. Para isso, basta criar um projeto, acessar a pasta do projeto anterior e copiar o arquivo com a taxonomia de sua escolha para o local correto (na pasta DocumentProcessing).
A taxonomia para Document Understanding é obrigatória como um Object em todo o framework do Document Understanding.
A maneira mais simples e conveniente de carregar seu objeto é usando a atividade Carregar Taxonomia. Após seu objeto de taxonomia ser carregado, você poderá usá-lo em todos os componentes de estrutura subsequentes que o exigirem.
-
Se você optar por armazenar sua taxonomia em um local diferente, ainda poderá carregá-la em seu projeto (após obter o conteúdo da string do arquivo de taxonomia, por exemplo, em uma variável
myTaxonomyContentString
), usando uma simples atividade Atribuir, como segue:myTaxonomy = DocumentTaxonomy.Deserialize(myTaxonomyContentString)
- Caso seja necessário, lembre-se que a Taxonomia é um POCO (classe de objeto antigo e simples) que, quando necessário, pode ser editado mesmo em execução.
- O que é taxonomia
- Como ela ajuda na classificação de documentos?
- Como ela ajuda na extração de dados?
- Tipos de campo e detalhes
- Outras informações capturadas na taxonomia
- Métodos de extensão da taxonomia
- Serialize()
- Deserialize(String)
- GetFields(String)
- Como criar e editar a taxonomia do seu projeto
- Como usar sua taxonomia em seu projeto
- Casos de uso avançados