- Visão geral
- Introdução
- Criação de modelos
- Consumo de modelos
- Detalhes do modelo
- Endpoints públicos
- 1040 – tipo de documento
- 1040 Agendamento C – tipo de documento
- 1040 Agendamento D – tipo de documento
- 1040 Agendamento E – tipo de documento
- 1040x – tipo de documento
- 3949a – tipo de documento
- 4506T – tipo de documento
- 709 – tipo de documento
- 941x – tipo de documento
- 9465 – tipo de documento
- ACORD125 – tipo de documento
- ACORD126 – tipo de documento
- ACORD131 – tipo de documento
- ACORD140 – tipo de documento
- ACORD25 – tipo de documento
- Extratos bancários – tipo de documento
- Conhecimentos de embarque – tipo de documento
- Certificado de incorporação – tipo de documento
- Certificado de origem – tipo de documento
- Verificações – tipo de documento
- Certificado de produto infantil – tipo de documento
- CMS 1500 – tipo de documento
- Declaração de conformidade UE – tipo de documento
- Demonstrações financeiras – tipo de documento
- FM1003 – tipo de documento
- I9 – tipo de documento
- Cartões de identificação – tipo de documento
- Faturas – tipo de documento
- Faturas2 - tipo de documento
- Faturas Austrália – tipo de documento
- Faturas China – tipo de documento
- Faturas hebraicas – tipo de documento
- Faturas Índia – tipo de documento
- Faturas Japão – tipo de documento
- Faturas de Envio – tipo de documento
- Listas de embalagem – tipo de documento
- Holerites – tipo de documento
- Passaportes – tipo de documento
- Ordens de compra – tipo de documento
- Recibos – tipo de documento.
- Recibos2 - tipo de documento
- Recibos Japão – tipo de documento
- Avisos de Remessa – tipo de documento
- UB04 – tipo de documento
- Divulgações de fechamentos de hipotecas dos EUA - tipo de documento
- Contas de serviços públicos – tipo de documento
- Títulos de veículos – tipo de documento
- W2 – tipo de documento
- W9 – tipo de documento
- Idiomas suportados
- Painéis de insights
- Document Understanding implantado no Automation Suite
- Geração de logs
- Lógica de licenciamento e carregamento
- Como fazer
- Solução de problemas

Document Understanding modern projects user guide
Criar
Esta seção fornece as seguintes experiências:
- Carregue documentos e classifique-os automaticamente.
- Carregue documentos diretamente nos tipos de documentos.
- Gerencie arquivos do projeto (adicionar, remover arquivos).
- Anotar documentos.
- Adicione ou remova campos.
- Tenha uma experiência guiada sobre treinamento de modelos de classificação e extração usando as recomendações.
Anotar documentos
Depois de criar com sucesso seu projeto e carregar seus documentos para um tipo de documento específico, eles serão pré-anotados automaticamente. Isso é feito usando modelos especializados, com base no esquema do tipo de documento. O esquema define claramente os campos que você deseja extrair de um tipo de documento específico. Para encontrar o esquema do tipo de documento, acesse a página Anotação e verifique a seção Campos.

Para obter informações mais detalhadas sobre como anotar seus documentos, consulte a página de tutorial Anotar documentos.
Exceções para revisão
Você pode usar documentos que foram validados na Validation Station para melhorar ainda mais o desempenho de seus modelos.
Se houver alguma alteração após a etapa de validação, o botão Exceções para revisão será exibido para o tipo de documento impactado.
Figura 1. Botão de revisão de exceções

Para obter informações mais detalhadas sobre como retreinar seus modelos, consulte a página de instruções sobre como treinar extratores.
Editar configurações de campo
Você pode editar as configurações de vários campos no Gerenciador de tipos de documento.
Para chegar lá, selecione o ícone de três pontos ⋮ ao lado do tipo de documento que você deseja editar e selecione Gerenciador de tipo de documento no menu.
Figura 2. Selecionar Gerenciador de tipo de documento

Edição ou adição de novos campos
Para adicionar um novo campo, selecione Adicionar campo e preencha as informações necessárias. Você pode adicionar ou editar as seguintes opções para cada campo:
-
Field name: the unique name for the field.
-
Content type: the content type of the field:
- String: used for company names or addresses, as well as payment terms, or for any other field where you want to build the parsing or formatting logic manually, in the RPA workflow.
- Number: used for amounts or quantities, with intelligent parsing of the decimal/thousands separators.
- Date: parse, format and unify the output using the YYYY-MM-DD format.
- Phone: use for phone number. Formatting removes letters and parentheses, and replaces spaces with dashes.
- ID Number: used for alphanumeric codes, numbers of IDs. It's similar to the string content type, but removes any characters coming before the
:character. If the Id number you need to extract can contain:characters, usestringcontent type instead to avoid data loss.
-
Shortcut: the shortcut key for the field. One key or a combination of two keys is allowed.
-
Advanced settings: the available options differ depending on the Content type of the selected field. Select the Advanced settings button for the desired field to edit: Figure 3. Document type advanced settings

- Field ID: the unique id for the field.
- Post processing:
- first_span: if the model predicts more than one instance of a field in a document, make it return the first one.
- longest_value: if the model predicts more than one instance of a field in a document, make it return the value consisting of the largest number of characters.
- highest_confidence: if the model predicts more than one instance of a field in a document, make it return the value with the highest confidence.Scoring: the measure used to determine the accuracy when running evaluations of model predictions is only available for fields with content type String:
- exact_match: prediction will only be deemed to be correct (score of 1) if it exactly matches the true value. If it differs by even a single character, then it is deemed to be incorrect (score of 0). This is the default setting for all fields except for String fields.
- levenshtein: prediction will be deemed to be partially correct according to the Levenshtein distance between the prediction and the true value. For example, if a 10 letter value is predicted correctly except for the last 2 characters, then the score of that prediction is be 0.8.
- Date format: this field is only available for fields with content type Date and it indicates how ambiguous dates are parsed and returned:
- Auto
- US style: YYYY-DD-MM
- Non-US style: YYYY-MM-DD
- Multi-line: fields which span multiple text lines (addresses or descriptions) need to have this checked, otherwise only the first line is returned.
- Multi-value: field returns a list with all the values detected in the document.
As alterações nas configurações do tipo de documento não são refletidas na nova versão do projeto se você publicar uma nova versão do projeto antes de disparar novamente um treinamento.
Workaround: To avoid this, retrain the document type after making modifications to the document type fields. You can do this by tagging or confirming additional documents for that type before publishing a new version.
Configurações do modelo
Você pode alterar as configurações do tipo de documento na exibição Configurações do modelo. Para fazer isso, selecione Configurações do modelo.
Figura 4. Configurações do modelo

è possível alterar as seguintes configurações:
- Base model: Dataset size estimations used in the Recommended Actions depend on the base model used to train. Using the most similar base model to your Document Type will reduce the amount of annotation work required.
- Number of languages: Dataset size estimation used in the Recommended Actions depend on the number of languages in the dataset. More languages generally require annotating more data.
Pesquisar nomes de campo
Você pode pesquisar pelos nomes de campos disponíveis. Para fazer isso, use a barra de pesquisa no canto superior esquerdo da interface do Gerenciador de tipos de documento. Para uma pesquisa mais eficiente, use a funcionalidade Filtrar para filtrar por Tipo de conteúdo.
Figura 5. Pesquisar nomes de campos

Excluir campos
Selecione Excluir ao lado do campo que você deseja excluir.
Figura 6. Excluir um campo

You can also select several (or all) fields and delete them at once. To do so, select the check mark next to the fields you want to delete and then click Delete.
Figura 7. Excluir vários campos de uma vez

Pesquisar documentos
Você pode pesquisar documentos carregados por nome do documento. Para fazer isso, use a barra de pesquisa no canto esquerdo da seção Criar. Para uma pesquisa mais eficiente, use a funcionalidade Filtrar para filtrar por:
- Tipo de documento: escolha o tipo de documento desejado na lista suspensa.
- Data de carregamento: escolha um intervalo de data em que o documento foi carregado.
- Status: escolha o status do documento.
- Tag: escolha as tags que você deseja filtrar.
Figura 8. Filtro de documentos

Pontuação do projeto e do modelo
You can check your project's overall score from the top right corner. This score factors in the classifier and extractor scores for all document types. Select Project score to display the Measure section. You can check more in-depth performance measurements in that section.
Você pode verificar a pontuação para cada tipo de documento separadamente na seção Tipo de documento. Esta pontuação inclui o desempenho geral do modelo, além do tamanho e qualidade do conjunto de dados.
You need to upload at least 10 documents to get a project score. For a document type score, you need at least 10 documents under the same document type.

Você pode verificar a classificação do modelo de seus modelos se selecionar a aba de pontuação. A classificação do modelo é uma funcionalidade destinada a ajudar você a visualizar o desempenho de um modelo de classificação. Ela é expressa como uma pontuação do modelo de 0 a 100 da seguinte forma:
- Insatisfatório (0-49)
- Médio (50-69)
- Bom (70-89)
- Excelente (90-100)
Selecione Pontuações detalhadas do modelo para acessar a seção Medir para obter informações detalhadas.
