- Visão geral
- Criação do modelo
- Validação do modelo
- Implantação do modelo
- Perguntas frequentes

Guia do usuário de documentos não estruturados e complexos
Esta seção contém práticas recomendadas sobre como escrever boas instruções de solicitação no nível do projeto (ou seja, extração geral), no nível do grupo de campos e no nível de campo individual.
- Clareza e simplicidade – Use idioma claro, direto e inequívoco. Evite instruções que possam confundir o modelo. Use idioma simples e mantenha frases curtas.
- Consistência – Para evitar confusão, mantenha a terminologia consistente entre campos, grupos de campos e instruções.
- Forneça contexto – Para compreender o escopo geral da tarefa, equipe o modelo com contexto pertinente. Isso pode abranger informações do setor, tipo de documento ou formato geral de dados, pois o modelo precisa entender a tarefa que ele lida. Se você fornecer mais contexto dentro do prompt, isso aumenta a probabilidade de o modelo prever de forma consistente o campo corretamente.
- Itere – Como as solicitações de refinamento são um processo iterativo, manter um registro de seus rascunhos e seus resultados correspondentes pode fornecer insights valiosos para futuros ajustes e melhorias. Escreva um prompt, teste e edite. Repita esse processo até obter a extração desejada.
- Evite instruções negativas – Não insira uma instrução semelhante a: não deixe de fora nenhuma seção do documento. Em vez disso, substitua-o por: certifique-se de que todas as seções principais, como x, y, z, do documento sejam cobertas.
- Evite idioma repetitivo – O idioma repetitivo pode levar a redundância, confusão e instruções pouco claras para o modelo.
- Cuidado com informações contraditórias – Certifique-se de que seu projeto, grupo de campos e instruções no nível do campo não contradigam entre si em termos das informações a serem extraídas, o formato da extração e onde as informações podem ser localizadas. Isso confundirá o modelo e levará a resultados inconsistentes.
- Reforço de exemplo – Sempre que possível, reforce a instrução de prompt com exemplos de respostas corretas. Essas instâncias podem orientar o modelo para o resultado esperado.
Melhores práticas | Detalhes | Importância | Exemplo correto | Exemplo incorreto |
---|---|---|---|---|
Defina o setor e o tipo de documento | Descreva brevemente o setor e o tipo de documento do qual as informações estão sendo extraídas. Em seguida, especifique as principais características e a estrutura esperada do tipo de documento para orientar a extração. | Isso fornece um contexto importante para o processo de extração de dados. | Instrução: extraia informações de um extrato de corretagem, que é comumente encontrado no setor de serviços financeiros. As declarações de corretagem normalmente consistem em algumas seções: visão geral da conta, resumo da conta, participações em conta e atividade de transação da conta.
|
Instrução: extraia os campos abaixo do documento. Explicação: este exemplo de instrução para o projeto não beneficia o modelo.Não fornece nenhum contexto importante ou características principais que ajudem a orientar o modelo. |
Especifique se você espera várias ocorrências do documento dentro de um arquivo. | Indique se o documento contém várias instâncias de dados idênticos e forneça orientação para para cada instância de extração. Em casos de uso que podem ter vários documentos dentro de um arquivo único, identifique um identificador exclusivo e inclua-o como um campo em cada grupo de campos. | Isso facilitará o pós-processamento, permitindo uma automação mais eficiente. | Instrução: pode haver várias contas de corretagem dentro de um único arquivo de documento. Uma conta de corretagem pode ser identificada por meio de um campo de número de conta exclusivo presente em cada grupo de campos. Extraia as informações da conta, os grupos de campo de atividade da conta para cada conta.
|
Instrução: extraia todas as instâncias de dados de cada documento de conta.
Explicação: esse exemplo de instrução é ruim, pois não especifica como determinar se há várias ocorrências de um tipo de documento dentro do arquivo. |
Melhores práticas | Detalhes | Importância | Exemplo correto | Exemplo incorreto |
---|---|---|---|---|
Agrupe pontos de dados semelhantes que você deseja extrair juntos em grupos de campo. | Organize campos relacionados em grupos lógicos. | Isso ajuda a agilizar a extração e minimizar erros. | O nome, o endereço e o estado civil do proprietário da conta podem ser agrupados em um grupo de campos Informações do Proprietário da Conta. |
Grupo de campos: Informações da conta
Campos: posições da conta, data da transação, proprietário da conta
Explicação: esse agrupamento pode funcionar em uma situação em que um usuário deseja extrair apenas esses três campos. No entanto, se houver outros campos, como o símbolo de ticker de retenção e base de custo, o design ou a estrutura desse grupo não será o mais eficaz. |
Contexto do grupo de campos | Explique como cada grupo de campos contribui para o significado geral e a finalidade do documento. | Isso ajuda o modelo a entender o contexto da extração. | Instrução: esta seção descreve os principais detalhes da posição da conta de corretagem, incluindo o nome da ação, data de compra, quantidade comprada, base de custo e preço total pago. Esses detalhes ajudam a determinar as participações atuais em uma declaração de corretagem. |
Instrução: extraia os campos abaixo do documento.
Explicação: as instruções de solicitação não têm contexto e instruções detalhadas para o modelo. Não explica o tipo de informação que requer extração nem destaca sua importância.
|
Aproveite a localização e a estrutura das informações no documento dentro de seus prompts de grupo de campos | Indique os locais prováveis para os dados de cada campo, por exemplo, tabela, cabeçalho, corpo, para orientar a extração.
Observação: se você estiver trabalhando em um documento onde a informação aparece na mesma seção, indique a seção no prompt.
| Isso ajuda o modelo a se concentrar na parte correta do documento para cada campo. | Instrução: os dados no nível do campo para esta seção provavelmente serão encontrados no cabeçalho do relatório na primeira página sob o título do documento. |
Instrução: extraia as informações do início do documento.
Explicação: a solicitação é vaga e não fornece ao modelo detalhes suficientes sobre onde procurar especificamente dentro do documento. |
Modele tabelas usando grupos com campos | Trate um grupo como uma tabela, com cada coluna agindo como um campo exclusivo dentro desse grupo.Essa abordagem é fundamental para uma modelagem de dados eficaz, pois garante uma diferenciação clara, minimiza a duplicação de dados e aumenta a consistência dos dados. | Esse método permite um arranjo logicamente estruturado e sistemático de dados, o que posteriormente leva a uma maior eficiência durante consultas e análises de dados. |
Grupo de campos: Clientes Campos: Nome, endereço, número de telefone |
Grupos de campos: Nome do cliente, Endereço do cliente, Número de telefone do cliente Campos: Nome, Endereço, Número de telefone Explicação: este exemplo separa desnecessariamente cada detalhe do cliente em seu próprio grupo de campos, tornando o gerenciamento de dados complexo e propenso a inconsistências. |
Criar grupos de campos pai e filho | As relações são denotadas com um sinal de maior que > . Um grupo de campos pai pode ter vários grupos de campos filhos.
| Aproveitar grupos de campos para mostrar relações entre dados dentro dos documentos é uma ótima maneira de manter a organização hierárquica de dados. |
Grupo de campos: Extrato de corretagem Campos: Proprietário da conta, Tipo de conta Nome do grupo de campos: Extrato de corretagem > Alocação de ativos Campos: Tipo de ativo, por exemplo, Ações, Títulos, Caixa, Percentual do total de ativos Nome do grupo de campos: Declaração de corretagem > Investimentos Campos: Nome do investimento, Quantidade possuída, Preço por ação, Valor total do investimento |
Grupo de campos: Proprietário da conta Campos: Nome, Nome do investimento, Tipo de conta, Número de cotas, Ações, Títulos Grupo de campos: Proprietário da conta > Endereço Campos: Rua, Cidade, Estado, CEP Grupo de campos: Proprietário da conta > Informações de contato Campos: Número de telefone, E-mail
Explicação: esta é uma hierarquia mal estruturada porque combina campos não relacionados sob o mesmo pai, e os grupos de campos filhos (Endereço e Informações de contato) não se relacionam logicamente com os campos do pai (Nome do investimento, Número de cotas, Ações, Títulos). Isso pode confundir o modelo de IA, pois não reflete a organização natural dos dados dentro do documento. |
Use um campo de chave para arquivos que contêm vários documentos dentro deles | Selecionar um identificador exclusivo no documento que permitirá que você diferencie os dados. Inclua esse campo em cada grupo de campos. Você não precisa alterar a instrução para esse campo de um grupo de campos para outro. | A inclusão desse campo de chave permite a separação de Informações dentro do documento e remove a confusão ao processar os dados extraídos. | Campo: Número da conta, Número do CPF, Número da apólice |
Campo: Data, Nome Explicação: os nomes de campos listados não seriam bons campos-chave, pois não são exclusivos. As datas e os nomes podem ser repetidos. |
Melhores práticas | Detalhes | Importância | Exemplo correto | Exemplo incorreto |
---|---|---|---|---|
Escolha nomes de campos com cuidado | Escolha nomes claros e reconhecíveis para campos que se alinhem com as expectativas do usuário. Se houver um nome universal que é usado em todas as variações do documento, certifique-se de incluí-lo para todos. | Nomes de campo precisos garantem a extração precisa e reduzem a ambiguidade. | Campo: Data do Acidente |
Campo: Data
Explicação: Data é um termo genérico e não fornece nenhum contexto sobre ao que a data se refere. Isso pode levar à extração de dados imprecisa, pois o modelo de IA pode coletar qualquer data que aparece no documento. |
Seja explícito e detalhado com instruções | Inicie o modelo declarando explicitamente o que você deseja que o modelo extraia. Especifique o formato e a estrutura exatos dos dados a serem extraídos. | Avisos claros e detalhados orientam o modelo para extrair exatamente o que você precisa, no formato que você espera. | Instrução: extraia a lista de todos os consultores do documento, formate-os em uma lista separada por vírgulas e organize-os em ordem alfabética. |
Instrução: recuperar todos os consultores
Explicação: a solicitação é vaga e não fornece ao modelo instruções claras sobre o resultado desejado e como deve ser formatado. Isso pode levar a inconsistências nas informações extraídas, dificultando o processo dos resultados.
|
Forneça exemplos dentro das instruções | Forneça entradas de exemplo e saídas esperadas correspondentes para esclarecer os resultados esperados. | Isso ajuda o modelo a entender exatamente o que você está procurando. | Instrução: extraia as datas das transações do documento. As datas devem estar em MM/DD/YYYY formato. Por exemplo, se o documento declarar que a transação foi concluída em 1º de janeiro de 2021, a data extraída deve ser 01/01/2021. Se a data da transação for declarada no formato MM/YYYY , extraia como o primeiro dia desse mês. Por exemplo, se a data for apresentada como 05/2021, extraia como 05/01/2021.
|
Instrução: obtenha as datas da transação do documento.
Explicação: a solicitação acima não é tão eficaz porque não fornece instruções explícitas sobre como lidar com diferentes formatos de data encontrados no documento. Essa falta de clareza pode levar à extração inconsistente de datas, tornando a tarefa para interpretar e analisar dados mais complicada. |
Mantenha uma ideia principal por instrução de campo | Evite sobrecarregar a solicitação tentando extrair grandes quantidades sequenciais de dados em um único campo para melhorar a precisão. Cada nível de campo deve se concentrar em extrair um dado. | Isso também facilitará o pós-processamento. |
Campo 1: extraia o número da conta. Campo 2: extraia a Data da transação. Campo 3: extraia o Saldo da conta. |
Instrução: extraia o número da conta, a data da transação e o saldo da conta juntos. Explicação: a solicitação é sobrecarregada com várias instruções direcionando o modelo a extrair diferentes tipos de dados simultaneamente. Essa abordagem pode criar resultados de extração confusos e dificultar o pós-processamento. |
Melhores práticas | Detalhes | Importância | Exemplo correto | Exemplo incorreto |
---|---|---|---|---|
Escolha tipos de dados com finalidade | Considere como você deseja que os dados extraídos sejam formatados e certifique-se de que eles estejam alinhados com casos de uso downstream para otimizar a extração para automação.
| A seleção do tipo de dados apropriado permite uma formatação precisa e um processamento posterior mais fácil. |
Nome do campo: Volume de transação Tipo de dados: Número |
Nome do campo: Número de telefone Tipo de dados: Número Explicação: usar o tipo de dados Número para um número de telefone não é benéfico. Embora um número de telefone seja composto por dígitos, não é um valor numérico, o que significa que você não realiza cálculos aritméticos com ele; é melhor descrito como uma string de dígitos. Portanto, usar o tipo de dados de Texto Exato seria a escolha apropriada. |
Inclua apenas instruções específicas do tipo de campo no tipo de campo. |
Ao fornecer instruções para a extração de dados, é crucial mantê-las específicas para cada tipo de campo. Se houver instruções gerais que se aplicam a todos os campos de um determinado tipo, um usuário pode fornecê-las no nível do tipo de campo para evitar a repetição. Por exemplo, se todos os campos de Quantidade Monetária precisarem estar em USD, especifique isso no nível do tipo de campo.
No entanto, alguns conjuntos de dados podem exigir campos exclusivos não cobertos pelos tipos de campo existentes (Data, Texto, Quantidade Monetária e assim por diante). Nesses casos, você pode criar um novo tipo de campo personalizado. Ao escrever instruções para esses novos campos, especifique como os dados devem ser formatados para garantir que os dados extraídos atendam à sua finalidade. Essas práticas aprimoram a precisão e a consistência de seus dados extraídos. |
Tipo de campo: Data Instrução: extraia todas as datas associadas a transações do documento. As datas devem ser normalizadas para o formato
YYYY-MM-DD . |
Tipo de campo: Quantidade monetária Instrução: extraia o preço do item da coluna Preço na tabela de itens de linha da fatura. Explicação: a instrução é relevante especificamente para extrair uma Quantidade monetária de um determinado campo (a coluna Preço), não para qualquer outro campo baseado na Quantidade monetária. |
- Criar um campo para todas as informações que você deseja extrair, mas não incluir nenhuma instrução.
- Selecione uma amostra de 2 a 3 documentos e executar previsões em cada um deles. Esses documentos devem refletir a variação presente nos documentos para os quais você está criando o modelo.
- Compare as extrações do modelo com o que você esperava. Para os campos que não tiveram um bom desempenho, elabore uma solicitação usando as práticas recomendadas listadas anteriormente, pois isso servirá como sua linha de base.
- Execute novamente as previsões usando os mesmos 2 a 3 documentos de amostra que você testou anteriormente e marque se o desempenho de extração melhorou.
- Se as previsões estiverem incorretas ou incompletas, refine as solicitações para adicionar os detalhes necessários para aprimorar o desempenho de extração do modelo. Se as previsões se alinharem com suas expectativas, aumente o tamanho da amostra de documentos. É crucial aumentar gradualmente esses números. Mover de 2 para 3 para 10, depois para 20, 30 e assim por diante. Continue até se sentir confiante de que as previsões do modelo estão corretas.
- Se as instruções tiverem sido alteradas, reavalie os documentos visualizados anteriormente para garantir que as previsões permaneçam precisas.
- Depois de estar satisfeito com o desempenho do modelo, revisite o primeiro documento e comece a anotar. Anotar pelo menos 10 documentos para obter métricas de desempenho de campo valiosas por meio da aba Medir. Essa funcionalidade permite que você avalie o desempenho de extração nos níveis geral do projeto e de campo.
- Monitore métricas de desempenho para informar seu refinamento de solicitação em larga escala. O processo de iteração deve ocorrer principalmente no nível do campo, onde os ajustes terão impactos mais direcionados e diretos nos campos específicos que não estão apresentando um bom desempenho. Se a pontuação para um grupo de campos não estiver apresentando um bom desempenho, ajustar suas instruções do projeto e do grupo de campos pode ter mais impacto, pois afetam vários campos.