ixp
latest
false
  • Visão geral
    • Introdução
    • Extraindo Dados de documentos não estruturados
    • Criação e implantação de modelos
    • Cotas
  • Criação do modelo
    • Visão geral
    • Gerenciando projetos
    • Carregando documentos de amostra​
      • Melhores práticas
      • Gerenciamento da taxonomia
      • Importação e exportação de taxonomias
      • Autopilot para geração da taxonomia
    • Revisando previsões
    • Validando previsões de extração
    • Configuração do modelo
  • Validação do modelo
  • Implantação do modelo
  • API
  • Perguntas frequentes
Importante :
A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.
UiPath logo, featuring letters U and I in white

Guia do usuário de Documentos complexos e não estruturados

Última atualização 16 de mar de 2026

Melhores práticas

Esta seção contém práticas recomendadas sobre como escrever boas instruções de solicitação no nível do projeto (ou seja, extração geral), no nível do grupo de campos e no nível de campo individual.

Observação:

Essas práticas recomendadas são projetadas para LLMs externos, mas os problemas de OCR ainda podem ocorrer. Mesmo com prompts bem criados, seguir todas as diretrizes não garante que o desempenho da extração atenda às suas expectativas.

Recomendações gerais para sua taxonomia

  • Clareza e simplicidade - Use linguagem clara, direta e não ambígua. Evite complicar instruções que possam confundir o modelo. Use linguagem simples e mantenha as frases curtas.
  • Consistência – Para evitar confusão, mantenha a terminologia consistente entre campos, grupos de campos e instruções.
  • Fornecer contexto – Equipe o modelo com contexto pertinente para compreender o escopo geral da tarefa. Isso pode abranger informações do setor, tipo de documento ou formato geral de dados, pois o modelo precisa entender a tarefa que lida. Se você fornecer mais contexto dentro do prompt, isso aumenta a probabilidade de o modelo prever de forma consistente o campo correto.
  • Iterar – Como o refino de prompts é um processo iterativo, manter um registro de seus rascunhos e seus resultados correspondentes pode fornecer insights valiosos para ajustes e melhorias futuras. Escreva um prompt, teste e edite. Repita esse processo até obter a extração desejada.
  • Evite instruções negativas — não insira uma instrução semelhante a: não deixe de fora nenhuma seção do documento. Em vez disso, substitua-o por: certifique-se de que todas as seções principais, como x,y,z, do documento sejam cobertas.
  • Evite idioma repetitivo – O idioma repetitivo pode levar a redundância, confusão e instruções pouco claras para o modelo.
  • Procure informações contraditórias — certifique-se de que seu projeto, grupo de campos e instruções de nível de campo não entrem em conflito entre si em termos das informações a extrair, do formato da extração e do local onde as informações podem ser encontradas. Isso vai confundir o modelo e levar a resultados inconsistentes.
  • Reforço de exemplo – Sempre que possível, reponha a instrução de prompt com exemplos de respostas corretas. Essas instâncias podem orientar o modelo para o resultado esperado.

Figura 1. Exemplo da taxonomia

A Imagem mostra um exemplo da taxonomia no IXP.

Nível do projeto (extração geral)

Melhores práticasDetalhesImportânciaExemplo corretoExemplo incorreto
Defina o setor e o tipo de documento Descreva brevemente o setor e o tipo de documento do qual as informações estão sendo extraídas. Em seguida, especifique as principais características e a estrutura esperada do tipo de documento para orientar a extração. Isso fornece um contexto importante para o processo de extração de dados. Instrução: extrai informações de uma declaração de correção, que é comumente encontrada no Setor de serviços financeiros. As instruções de correção normalmente consistem em algumas seções: visão geral da conta, resumo da conta, titularidades de conta e atividade de transação da conta. Instrução: extraia os campos abaixo do documento.

Explicação: este exemplo de instrução do projeto não beneficia o modelo. Ele não fornece nenhum contexto importante ou características-chave que ajudariam a orientar o modelo.
Especifique se você espera várias ocorrências do documento dentro de um arquivo. Indique se o documento contém várias instâncias de dados idênticos e forneça orientação para para cada instância de extração. Em casos de uso que podem ter vários documentos dentro de um arquivo único, identifique um identificador exclusivo e inclua-o como um campo em cada grupo de campos. Isso facilitará o pós-processamento, permitindo uma automação mais eficiente. Instrução: pode haver várias contas de agente em um único arquivo de documento. Uma conta de agente pode ser identificada por meio de um campo de número de conta exclusivo presente em cada grupo de campos. Extraia as informações da conta, titularidades de conta e grupos de campos de atividade da conta para cada conta. Instrução: extraia todas as instâncias de dados de cada documento de conta.

Explicação: esse exemplo de instrução é ruim, pois não especifica como determinar se há várias ocorrências de um tipo de documento dentro do arquivo.

Nível de grupo de campos

Melhores práticasDetalhesImportânciaExemplo corretoExemplo incorreto
Agrupe pontos de dados semelhantes que você deseja extrair juntos em grupos de campo. Organize campos relacionados em grupos lógicos.Isso ajuda a agilizar a extração e minimizar erros.O nome, o endereço e o estado civil do proprietário da conta podem ser agrupados em um grupo de campos Informações do Proprietário da Conta. 

Grupo de campos : Informações da conta

Campos: posições da conta, data da transação, proprietário da conta

Explicação : esse agrupamento pode funcionar em uma situação em que um usuário deseja apenas extrair esses três campos. No entanto, se houver outros campos, como o símbolo do ticket de espera e a base de custo, o design ou a estrutura desse grupo não serão os mais eficazes. 

Contexto do grupo de campos Explique como cada grupo de campos contribui para o significado geral e a finalidade do documento.Isso ajuda o modelo a entender o contexto da extração. Instrução : esta seção descreve os principais detalhes da conta da declaração de desabilitação, incluindo o nome do bem, data de compra, quantidade comprada, base de custo e preço total pago. Esses detalhes ajudam a determinar as ativações atuais em uma declaração de agente.

Instrução : extraia os campos abaixo do documento.

Explicação : As instruções de prompt não têm contexto e instruções detalhadas para o modelo. Não explica o tipo de informação que requer extração nem destaca sua importância. 

Aproveite a localização e a estrutura das informações no documento dentro de seus prompts de grupo de campos Indique os locais prováveis para os dados de cada campo, por exemplo, tabela, cabeçalho, corpo, para orientar a extração.

Observação: se você estiver trabalhando em um documento onde a informação aparece na mesma seção, indique a seção no prompt.
Isso ajuda o modelo a se concentrar na parte correta do documento para cada campo. Instrução: os dados no nível do campo para esta seção provavelmente serão encontrados no cabeçalho do relatório na primeira página sob o título do documento.

Instrução : extraia as informações do início do documento.

Explicação: a solicitação é vaga e não fornece ao modelo detalhes suficientes sobre onde procurar especificamente dentro do documento. 

Modele tabelas usando grupos com campos Trate um grupo como uma tabela, com cada coluna agindo como um campo exclusivo dentro desse grupo.Essa abordagem é fundamental para uma modelagem de dados eficaz, pois garante uma diferenciação clara, minimiza a duplicação de dados e aumenta a consistência dos dados. Esse método permite um arranjo logicamente estruturado e sistemático de dados, o que posteriormente leva a uma maior eficiência durante consultas e análises de dados. 

Grupo de campos: Clientes

Campos: Nome, endereço, número de telefone

Grupos de campos : Nome do cliente, Endereço do cliente, Número de telefone do cliente

Campos : Nome, Endereço, Número de telefone

Explicação: este exemplo separa desnecessariamente cada detalhe do cliente em seu próprio grupo de campos, tornando o gerenciamento de dados complexo e propenso a inconsistências.

Criar grupos de campos pai e filho  As relações são denotadas com um sinal de maior que >. Um grupo de campos pai pode ter vários grupos de campos filhos.  Aproveitar grupos de campos para mostrar relações entre dados dentro dos documentos é uma ótima maneira de manter a organização hierárquica de dados.

Grupo de campos: Extrato de corretagem

Campos : Proprietário da conta, Tipo de conta

Nome do grupo de campos: Extrato de corretagem > Alocação de ativos

Campos: Tipo de ativo, por exemplo, Ações, Títulos, Caixa, Percentual do total de ativos

Nome do grupo de campos: Declaração de corretagem > Investimentos

Campos: Nome do investimento, Quantidade possuída, Preço por ação, Valor total do investimento

Grupo de campos : Proprietário da conta

Campos: Nome, Nome do investimento, Tipo de conta, Número de cotas, Ações, Títulos

Grupo de campos : Proprietário da conta > Endereço

Campos : Rua, Cidade, Estado, CEP

Grupo de campos : Proprietário da conta > Informações de contato

Campos : Número de telefone, E-mail

Explicação : esta é uma hierarquia mal estruturada porque combina campos não relacionados sob o mesmo pai e os grupos de campos filho (Endereço e Informações de contato) não se relacionam logicamente com os campos do pai (Nome do investimento, Número de ações, Ações, Títulos ). Isso pode confundir o modelo de IA, pois não reflete a organização natural dos dados dentro do documento. 

Use um campo de chave para arquivos que contêm vários documentos dentro deles Selecionar um identificador exclusivo no documento que permitirá que você diferencie os dados. Inclua esse campo em cada grupo de campos. Você não precisa alterar a instrução para esse campo de um grupo de campos para outro. A inclusão desse campo de chave permite a separação de Informações dentro do documento e remove a confusão ao processar os dados extraídos.  Campo : Número da conta, Número do CPF, Número da apólice

Campo : Data, Nome

Explicação : os nomes de campos listados não seriam um bom campo de chave, pois não são exclusivos. Datas e nomes podem ser repetidos. 

Nível de campo

Melhores práticasDetalhesImportânciaExemplo corretoExemplo incorreto
Escolha nomes de campos com cuidado Escolha nomes claros e reconhecíveis para campos que se alinhem com as expectativas do usuário. Se houver um nome universal que é usado em todas as variações do documento, certifique-se de incluí-lo para todos. Nomes de campo precisos garantem a extração precisa e reduzem a ambiguidade. Campo: Data do Acidente Campo: Data

Explicação: data é um termo genérico e não fornece nenhum contexto sobre a que a data se refere. Isso pode levar a uma extração de dados imprecisa, pois o modelo de IA pode pegar qualquer data que apareça no documento.
Seja explícito e detalhado com instruções Inicie o modelo declarando explicitamente o que você deseja que o modelo extraia. Especifique o formato e a estrutura exatos dos dados a serem extraídos. Avisos claros e detalhados orientam o modelo para extrair exatamente o que você precisa, no formato que você espera. Instrução: extraia a lista de todos os consultores do documento, formate-os em uma lista separada por vírgulas e organize-os em ordem alfabética. Instrução: recuperar todos os consultores

Explicação: o prompt é vazio e não fornece ao modelo instruções claras sobre o resultado desejado e como ele deve ser formatado. Isso pode levar a inconsistências nas informações extraídas, tornando mais difícil processar os resultados.
Forneça exemplos dentro das instruções Forneça entradas de exemplo e saídas esperadas correspondentes para esclarecer os resultados esperados. Isso ajuda o modelo a entender exatamente o que você está procurando. Instrução: extraia as datas de transação do documento. As datas devem estar no formato MM/DD/YYYY . Por exemplo, se o documento indicar que a transação foi concluída em 1º de janeiro de 2021, a data extraída deve ser 01/01/2021. Se a data da transação for indicada no formato MM/YYYY , extraia-a como o primeiro dia desse mês. Por exemplo, se a data for apresentada como 05/2021, extraia-a como 05/01/2021. Instrução: obtenha as datas da transação do documento.

Explicação: o prompt acima não é tão eficaz, porque não fornece instruções explícitas sobre como lidar com diferentes formatos de data encontrados no documento. Essa falta de clareza pode levar à extração inconsistente de datas, tornando a tarefa de interpretação e análise de dados mais complicada.
Mantenha uma ideia principal por instrução de campo Evite sobrecarregar a solicitação tentando extrair grandes quantidades sequenciais de dados em um único campo para melhorar a precisão. Cada nível de campo deve se concentrar em extrair um dado. Isso também facilitará o pós-processamento. Campo 1: extraia o número da conta.
Campo 2: extraia a Data da transação.
Campo 3: extraia o Saldo da conta.
Instrução: extraia o número da conta, a data da transação e o saldo da conta juntos.

Explicação: o prompt está sobrecarregado com várias instruções direcionando o modelo para extrair diferentes tipos de dados simultaneamente. Essa abordagem pode criar resultados de extração desorganizados e dificultar o pós-processamento.

Nível do tipo de campo

Melhores práticasDetalhesImportânciaExemplo corretoExemplo incorreto
Escolha tipos de dados com finalidade Considere como você deseja que os dados extraídos sejam formatados e certifique-se de que eles estejam alinhados com casos de uso downstream para otimizar a extração para automação. 
  • Data – use isso para representar datas em texto. As datas serão normalizadas como UTC com um formato YYYY-MM-DD HH:MM:SS
  • Texto exato – use para representar texto que aparece literalmente no texto. 
  • Texto inferido – use para texto que pode não aparecer literalmente no texto, mas tem outros identificadores dentro do documento que estão presentes. 
  • Quantidade monetária – use para representar valores monetários no texto. As Quantidades Monetárias são normalizadas nos seguintes formatos de exemplo: $00.00ou 00.00 USD.
  • Número – use para representar valores ou quantidades no texto. Os números são inferidos do documento, os Usuários podem inserir entrada e, opcionalmente, anotar evidências. O valor será formatado como um valor decimal, 00.00.
A seleção do tipo de dados apropriado permite uma formatação precisa e um processamento posterior mais fácil.

Nome do campo: Volume de transação

Tipo de dados: Número

Nome do campo: Número de telefone

Tipo de dados: Número

Explicação : usar o tipo de dados Número para um número de telefone não é benéfica. Embora um número de telefone seja composto de dígitos, ele não é um valor numérico, o que significa que você não realiza aritmética com ele; ela é melhor descrita como uma string de dígitos. Portanto, usar um tipo de dados de Texto exato seria a escolha apropriada. 

Inclua apenas instruções específicas do tipo de campo no tipo de campo. 

Ao fornecer instruções para a extração de dados, é crucial mantê-las específicas para cada tipo de campo. Se houver instruções gerais que se aplicam a todos os campos de um determinado tipo, um usuário pode fornecê-las no nível do tipo de campo para evitar a repetição. Por exemplo, se todos os campos de Quantidade Monetária precisarem estar em USD, especifique isso no nível do tipo de campo. 

No entanto, alguns conjuntos de dados podem exigir campos exclusivos não cobertos pelos tipos de campo existentes (Data, Texto, Quantidade Monetária e assim por diante). Nesses casos, você pode criar um novo tipo de campo personalizado. Ao escrever instruções para esses novos campos, especifique como os dados devem ser formatados para garantir que os dados extraídos atendam à sua finalidade. Essas práticas aprimoram a precisão e a consistência de seus dados extraídos. 

 

Tipo de campo: Data

Instrução : Extraia todas as datas associadas a transações do documento. As datas devem ser normalizadas para o formato YYYY-MM-DD.

Tipo de campo: Quantidade monetária

Instrução: extraia o preço do item da coluna Preço na tabela de itens de linha da fatura.

Explicação: a instrução é relevante especificamente para extrair uma Quantidade monetária de um determinado campo (a coluna Preço), não para qualquer outro campo baseado na Quantidade monetária. 



Exemplos de campos e tipos de campo

Assinaturas

Quando seus documentos incluírem assinaturas, certifique-se de aplicar as seguintes práticas recomendadas:

  • Usar um tipo de dados Booleano para um Assinado por X? ou seja, É assinado por este indivíduo?, bem como um campo de texto para o nome da pessoa, que geralmente é impresso.

  • Se você normalmente pode encontrar assinaturas em um formato de tabela ou semelhante a uma tabela, use a opção Pré-processamento de modelo de tabela .

  • As falhas são mais comuns em um documento com vários signatários, incluindo tanto o indivíduo nomeado no documento quanto sua fonte.

  • Seja claro e descritivo sobre o seguinte:

    • O que constitui uma assinatura?
    • O que não constitui uma assinatura?
    • Quem precisa assinar o documento?
    • Como detectar a pessoa que precisa assinar o documento?
  • Considere possíveis casos de falha em seus documentos e inclua-os nas instruções, conforme descrito no exemplo a seguir:

    Exemplo de instrução para um campo Assinado pelo signatário

    Determine se o signatário, não a teste padrão, assinava o documento.

    Retorne verdadeiro apenas se o documento estiver assinado por esse signatário. Retornará falso se não estiver assinado por eles.

    As assinaturas podem não se parecer com o nome impresso, então basta procurar uma assinatura ou adição de assinatura manuscrita para o documento no espaço para a assinatura próximo ao nome do signatário específico.

    Se um nome for alterado com uma adição manuscrita, ele não deve ser tratado como assinatura, apenas assinaturas explícitas.

    As assinaturas geralmente estarão próximas e ao redor da palavra "Assinado por" ou uma variação como "Assinado como uma ação", "Na presença de", e assim por diante.

    Uma linha pontilhada não constitui uma assinatura.

    Se for um grupo de campos geral Assinaturas, contendo um campo Assinado sendo combinado com Nome ou Cargo do signatário, ou ambos, você pode adicionar nas instruções: Certifique-se de que está atribuindo assinaturas à pessoa correta.

    Um exemplo de instrução para um grupo de campos mais amplo Assinaturas é a seguinte:

    Exemplo de instrução para um grupo de campos Assinaturas

    Informações sobre as pessoas que assinam e o status do documento. Se houver vários blocos de assinatura e várias pessoas presentes no documento, extraia todas elas.

    Pode não haver um bloco de assinatura explícito, os acordos e letras podem ter sido assinados pela pessoa que os envia, com um bloco de assinatura para a pessoa que aceita. Nesse caso, extraia ambos os conjuntos de assinaturas.

    Observação:

    Se o desempenho ainda não for satisfatório, mesmo após você ter feito esforços persistentes para melhorá-lo por meio do ajuste das instruções, entre em contato com o gerente da sua conta. Eles podem verificar se alguma funcionalidade de processamento de visualização que pode ajudar está disponível em sua região.

Diferenças regionais

Quantidades monetários e separadores por vírgulas

Um exemplo de diferenças regionais que podem exigir solicitação para corrigir o comportamento padrão do LLM é o uso de vírgulas como separadores decimais em certos países, como a Alemanha e a Índia.

O exemplo a seguir para um caso de uso de recibos alemão mostra como você pode considerar a presença de valores em um formato inesperado:

Exemplo de instrução

Você está extraindo dados de recibos em alemão. Os valores monetários estão todos em euro, enquanto o sinal de euro pode estar ausente. "," é o separador decimal típico para todos os números, enquanto '.' é usado para formatar valores maiores.

Para determinar se esse formato está sendo usado, verifique se há uma vírgula como o separador final no valor. Caso contrário, o número provavelmente estará formatado no formato alternativo de usar ',' para formatar e '.' para casas decimais.

Os valores normalmente têm dois dígitos decimais (por exemplo 8,58 é 8,58$ e 9,115,00 é 9115,00$). Espere itens de linha única nos recibos de compras abaixo de R$ 100.

Teste e iteração

  1. Criar um campo para todas as informações que você deseja extrair, mas não incluir nenhuma instrução.
  2. Selecione uma amostra de 2 a 3 documentos e executar previsões em cada um deles. Esses documentos devem refletir a variação presente nos documentos para os quais você está criando o modelo.
  3. Compare as extrações do modelo com o que você esperava. Para os campos que não tiveram um bom desempenho, elabore uma solicitação usando as práticas recomendadas listadas anteriormente, pois isso servirá como sua linha de base.
  4. Execute novamente as previsões usando os mesmos 2 a 3 documentos de amostra que você testou anteriormente e marque se o desempenho de extração melhorou.
  5. Se as previsões estiverem incorretas ou incompletas, refine as solicitações para adicionar os detalhes necessários para aprimorar o desempenho de extração do modelo. Se as previsões se alinharem com suas expectativas, aumente o tamanho da amostra de documentos. É crucial aumentar gradualmente esses números. Mover de 2 para 3 para 10, depois para 20, 30 e assim por diante. Continue até se sentir confiante de que as previsões do modelo estão corretas.
  6. Se as instruções tiverem sido alteradas, reavalie os documentos visualizados anteriormente para garantir que as previsões permaneçam precisas.
  7. Depois de estar satisfeito com o desempenho do modelo, revisite o primeiro documento e comece a anotar. Anotar pelo menos 10 documentos para obter métricas de desempenho de campo valiosas por meio da aba Medir. Essa funcionalidade permite que você avalie o desempenho de extração nos níveis geral do projeto e de campo.
  8. Monitore métricas de desempenho para informar seu refinamento de solicitação em larga escala. O processo de iteração deve ocorrer principalmente no nível do campo, onde os ajustes terão impactos mais direcionados e diretos nos campos específicos que não estão apresentando um bom desempenho. Se a pontuação para um grupo de campos não estiver apresentando um bom desempenho, ajustar suas instruções do projeto e do grupo de campos pode ter mais impacto, pois afetam vários campos.

Esta página foi útil?

Conectar

Precisa de ajuda? Suporte

Quer aprender? Academia UiPath

Tem perguntas? Fórum do UiPath

Fique por dentro das novidades