activities
latest
false
Importante :
A tradução automática foi aplicada parcialmente neste conteúdo. A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.
UiPath logo, featuring letters U and I in white

Atividades de Document Understanding

Última atualização 28 de out de 2025

Extract Document Data

UiPath.IntelligentOCR.StudioWeb.Activities.ExtractDocumentDataWithDocumentData<UiPath.IntelligentOCR.StudioWeb.Activities.DataExtraction.ExtendedExtractionResultForDocumentData>

Description

Extrai dados de um arquivo de entrada ou objeto de dados de documento e armazena os resultados em um objeto de dados de documento.

Antes de começar

Pré-requisitos

A atividade Extract Document Data requer objetos de entrada do tipo Dados do documento ou Arquivo. Um possível caso de uso para usar essa atividade é precedê-la com uma atividade Classificar Documento, que gera um objeto do tipo Dados do documento.

Opções de Entrada
A atividade Extract Document Data recebe como entrada uma das seguintes opções:
  • Dados do Documento - da atividade Classify Document
  • Arquivo - das atividades Get File/Folder ou Get Newest Email
Idiomas compatíveis com modelos generativos

Os idiomas suportados para os modelos generativos são os mesmos do mecanismo de OCR usado, dependendo do projeto. Para os projetos predefinidos e generativos predefinidos , o mecanismo de OCR usado é o UiPath Document OCR. Para obter mais informações, visite a página Idiomas compatíveis com OCR .

Modelos usados pela atividade
A atividade Extract Document Data usa o seguinte:
  • Modelos especializados pré-treinados disponíveis prontos para uso, com base no DocPath.
  • Modelos personalizados implantados em projetos modernos e clássicos do Document Understanding.
  • Modelos de extração generativos.

Restrições conhecidas

O tipo de projeto predefinido generativo e os extratores correspondentes não estão disponíveis no Automation Suite.

Ao usar a atividade Extrair dados de documento, os campos de classificação são compatíveis para extratores de projetos modernos e modelos prontos para uso, mas não para extratores de projetos clássicos.

Providing DocumentData with sub-documents to the Extract Document Data activity will trigger a runtime error. This behavior is by design. To extract data from a split document, iterate over each sub-document.

Compatibilidade do projeto

Windows | Multiplataforma

Configuração

Painel do Designer
  • Entrada - Requer que você especifique o próprio arquivo ou dados do documento, caso você tenha usado outras atividades do Document Understanding antes em seu fluxo de trabalho, (por exemplo, Classify Document).
    Importante: o número máximo de páginas que um arquivo pode ter é 500. Os arquivos que excedem esse limite não são extraídos.
  • Projeto - Requer que você selecione seu projeto do Document Understanding na lista suspensa. As opções disponíveis são:
    • Predefinido – Tipo de projeto clássico que usa modelos especializados pré-treinados recomendados para cenários padrão.

      Para obter mais informações sobre a lógica de carregamento para o projeto clássico, acesse Lógica de medição e carregamento.

    • Predefinido generativo – Tipo de projeto moderno que usa modelos generativos pré-treinados que aceitam instruções como entrada para extração de dados de documentos.

      Para obter mais informações sobre a lógica de carregamento para projetos modernos, acesse Lógica de medição e carregamento.

    • Projetos existentes do tenant e da pasta aos quais você está conectado.
    • Você pode criar um projeto personalizado acessando o Document Understanding.

      Para obter mais informações, acesse Introdução à criação de modelos.

    Observação: se você tiver criado mais de 500 projetos em seu tenant e usar a atividade Extract Document Data, o UiPath Studio ou Studio Web não exibirá nenhum projeto além dos 500 iniciais.Portanto, esses projetos não podem ser usados.
  • Extrator – Depois de selecionar um projeto, você também pode selecionar um extrator que deseja usar.
    • Para o projeto Predefinido, você tem duas escolhas:
      • Selecione um modelo pré-treinado. Acesse Modelos prontos para uso para obter uma lista de modelos pré-treinados que você pode usar.
        Observação: a atividade Extract Document Data extrai as informações para os campos disponíveis no tipo de documento para o extrator selecionado (independentemente do tipo de documento). Isso não se aplica a modelos generativos.
      • Selecione o extrator Generativo.
        Observação: as informações enviadas para o Extrator generativo vão para uma instância do Modelo LLM. Essa instância não está publicamente disponível, não armazena os dados enviados e não os usa para fins de treinamento.
        Importante:

        Essa funcionalidade faz parte atualmente de um processo de auditoria e não deve ser considerada parte da Autorização do FedRAMP até que a revisão seja finalizada. Veja aqui a lista completa das funcionalidades atualmente em revisão.

    • Para o projeto predefinido generativo, você tem três opções para a extração, personalizadas para um layout de documento específico:
      • Extrator de layout simples de documentos longos – Recomendado para documentos de formato longo com principalmente texto e cabeçalhos. Por exemplo, você pode usar o Extrator de layout simples de documentos longos em documentos como contratos de locação, contratos de serviços principais ou outros documentos semelhantes.
      • Extrator de layouts complexos de documentos longos (Prévia) – Recomendado para documentos de formato longo que incluem elementos como imagens, texto manuscrito, controles de formulário, caixas de texto explicativo flutuantes ou outros tipos de layout complexos. Por exemplo, você pode usar o Long Document Complex Layout Extractor em documentos como apólices de seguro ou outros documentos semelhantes.
      • Short Document Complex Layout Extractor (Prévia) – Recomendado para documentos curtos que incluem elementos como imagens, texto manuscrito, controle de formulário, caixas de texto explicativo flutuantes ou outros tipos de layout complexos. Por exemplo, você pode usar o Short Document Complex Layout Extractor em documentos como IDs do governo, formulários de entrada de saúde ou outros documentos semelhantes.
    • Usar resultado de classificação: se a propriedade Gerar Tipo de Dados estiver definida como falsa, você poderá optar pela opção Usar resultado de classificação . Esta opção usa automaticamente um extrator recomendado com base no tipo de documento resultante da atividade Classify Document .

      Se vários extratores puderem trabalhar com esse tipo de documento, a atividade retornará um erro. Neste cenário, você deve selecionar manualmente seu extrator preferido.

  • Detalhes do tipo de documento - Este campo aparece se você escolher a opção Generativo. Solicitação para identificar os campos a serem extraídos, fornecidos como pares de valor-chave, em que a chave representa o nome do campo e o valor, uma descrição para ele, ajudando o extrator a identificar o valor correspondente. Selecione o campo e você receberá um prompt com as seguintes opções, fornecidas em pares:
    • Nome do campo - Requer que você insira o nome do campo a ser extraído (Ex. Data de vencimento) (Limite de 30 caracteres)
    • InstruçãoExige que você forneça instruções sobre quais informações devem ser extraídas para o campo correspondente. O número máximo de caracteres permitidos é 1000. A resposta, resultado da extração, também chamada de Conclusão, tem um limite de 700 palavras. O número é de até 700 palavras. Isso significa que você não pode extrair mais de 700 palavras de um único prompt. Se os requisitos de extração forem superiores a esse limite, você poderá dividir o documento em várias páginas, processá-las individualmente e, então, mesclar os resultados.
    Dica: para obter boas práticas sobre como usar solicitações generativas, consulte a página Extrator generativo - Boas práticas .
  • Versão ou tag – Use essa propriedade ao usar um projeto moderno existente no Document Understanding. Selecione a tag que corresponde à versão do projeto da qual você quer processar dados. Por exemplo, se você escolher a tag de Produção atribuída à Versão 3, a atividade processa dados da versão 3 do seu projeto no ambiente de produção.

    O valor padrão para Versão é Staging. Se a tag Staging não existir em seu projeto selecionado, o valor padrão é Production.

    Para obter mais informações sobre versões, acesse Modelos de publicação.

  • Tipo de documento – Ao escolher uma tag no campo Versão, a atividade seleciona automaticamente o primeiro tipo de documento implantado da versão relevante do projeto selecionado. Além disso, a atividade mostra os campos de extração relacionados ao tipo de documento escolhido.
Painel de Propriedades

Entrada

  • Tempo limite (segundos) - Tempo máximo de execução (em segundos) para a chamada para o modelo generativo. Se a operação exceder esse tempo limite, ela será encerrada automaticamente para evitar atrasos ou travamentos. Essa propriedade é exibida apenas se o Extrator generativo estiver selecionado como extrator.
  • Validação automática — use esta opção para habilitar a validação automática, um recurso que ajuda a validar os resultados obtidos para a extração de dados em relação a um modelo generativo. O valor padrão do campo Validação automática é False.
    • Limite de confiança — esse campo fica visível assim que você habilita a Validação automática. Os resultados da extração que ficam abaixo do limite são comparados ao modelo de extração generativo. Se corresponderem, o sistema ajustará a confiança da extração para atender ao valor limite. Os possíveis valores de limite variam de 0 a 100.

      Se o valor for definido como 0, nenhuma validação é aplicada. No entanto, se você definir um valor específico (de 0 a 100), o sistema verificará todos os resultados de extração abaixo desse valor. Por exemplo, se você definir um limite de confiança de 80%, o sistema aplicará a validação generativa para campos com confiança abaixo de 80%.

      Observação: a validação automática está disponível apenas para modelos de extração especializados.
  • Gerar Tipo de Dados - Se definido como True, indica que a saída deve ser gerada com base no extrator selecionado, resultando em um objeto IDocumentData<ExtractorType>.Ou então, se definido como False, indica que a geração de dados deve ser ignorada, resultando em um objeto IDocumentData<DictionaryData> genérico.

    Acesse Dados do documento para obter detalhes adicionais e limitações disponíveis para os dois tipos de objeto.

Saída
  • Dados do documento - Todos os dados de campo extraídos do arquivo. Informações também podem ser recebidas de Classify Document.

    Acesse Dados do documento para saber como os Dados do documento funcionam e como consumir os resultados extraídos para campos de valor único e múltiplo.

Conexão externa do tempo de design

A conexão externa do tempo de design permite aproveitar a atividade usando recursos do Document Understanding de outros projetos ou tenants. Antes de configurar essas propriedades, certifique-se de ter atendido aos pré-requisitos mencionados na página Configuração da conexão externa do runtime . Após essas etapas serem concluídas, você pode prosseguir para configurar a conexão externa do runtime.

  • ID do Aplicativo: insira o ID do Aplicativo externo que você criou anteriormente.
  • Segredo do aplicativo: insira o Segredo do aplicativo do aplicativo externo que você criou anteriormente.
  • URL do Tenant: insira o URL do tenant no qual você criou o aplicativo externo. Este é o tenant de onde você usará os recursos no tempo de design.
    A URL deve estar no seguinte formato: https://<baseURL>/<OrganizationName>/<TenantName>.

Conexão externa do runtime

A conexão externa de runtime permite que você execute a atividade por meio de robôs no local. Antes de configurar essas propriedades, certifique-se de ter atendido aos pré-requisitos mencionados na página Configuração da conexão externa do runtime . Após essas etapas serem concluídas, você pode prosseguir para configurar a conexão externa do runtime.

  • Ativo Runtime Credentials - Use esse campo quando precisar acessar recursos do Document Understanding enquanto o robô estiver conectado a um Orchestrator local ou de um tenant diferente. Você pode optar por inserir um Ativo de credencial, para fins de autenticação, de uma das seguintes maneiras:
    • Na lista suspensa, selecione o Ativo de Credenciais desejado no Orchestrator ao qual o UiPath® Robot está conectado.
    • Insira manualmente o caminho para o Ativo de credenciais do Orchestrator, onde você armazena as credenciais de aplicativos externos para acessar o projeto.
      O formato do caminho deve ser: <OrchestratorFolderName>/<AssetName>.
  • URL do tenant do runtime - Use esse campo, ao lado do campo Ativo de credenciais de runtime. Insira o URL do tenant ao qual o UiPath Robot se conectará para executar a extração. A URL deve estar no seguinte formato: https://<baseURL>/<OrganizationName>/<TenantName>.

Modelos suportados

Os extratores generativos disponíveis no projeto Predefinido generativo podem ser usados para os documentos descritos na tabela a seguir:
Observação: os extratores de layout complexo de documentos longos e layout complexo de documentos curtos não estão disponíveis no Automation CloudTM para ambientes do Setor Público (FedRAMP).
Tabela 1. Cenários suportados para extratores generativos
ExtratorCenário recomendadoProvedorDisponibilidade de regiõesSuporte multimodal1
Extrator de Layout Simples para Documento LongoRecomendado para documentos de formato longo com principalmente texto e cabeçalhos. Por exemplo, você pode usar o Extrator de layout simples de documentos longos em documentos como contratos de locação, acordos de serviço principais ou outros documentos similares. Azure OpenAIAustrália, União Europeia, Índia, Japão, Singapura, Reino Unido, Estados Unidos, Canadá Não disponível
Extrator de Layout Complexo de Documento Longo (Visualização)Recomendado para documentos de formato longo com layouts complexos, como imagens, texto manuscrito, elementos de formulário ou layouts distintos, como caixas de chamada flutuantes. Você pode usar esse extrator em documentos de formato longo, como apólices de seguro, que geralmente têm layouts complexos. Azure OpenAIEstados Unidos, União Europeia, Japão, Cingapuraavailable
Extrator de Layout Complexo de Documento Curto (Visualização)Recomendado para documentos mais curtos (de máximo de 20 páginas) com imagens, texto manuscrito, elementos de formulário ou layouts complexos, como caixas de chamada flutuantes. Você pode usar esse extrator em documentos como identificações do governo ou formulários de atendimento de saúde que normalmente têm layouts mais curtos, mas mais complexos. Azure OpenAIEstados Unidos, União Europeia, Japão, Cingapuraavailable

1 O suporte multimodal refere-se à capacidade de extrair diferentes tipos de entradas de dados, como texto, imagens, texto escrito à mão etc.

Usando o extrator generativo

Para começar rapidamente com os recursos generativos da atividade Extract Document Data, execute as seguintes etapas:

  1. Adicione uma atividade Extract Document Data .
  2. Na lista suspensa Projeto, selecione Predefinido generativo.
  3. Para o Extrator, selecione um dos seguintes extratores: Extrator de layout simples de documentos longos, Extrator de layout complexo de documentos longos, ou Extrator de layout complexo de documentos curtos.

    A propriedade Detalhes do tipo de documento aparece no corpo da atividade.

  4. Para o dicionário, forneça suas instruções como pares de chave-valor do dicionário, onde:
    • Nome do campo representa o nome do campo que você deseja extrair do documento. Por exemplo, email address.
    • A instrução representa a instrução sobre quais informações você deseja fornecer ao extrator para extrair o campo. É a descrição usada pelo extrator generativo para identificar o valor correspondente.

      Por exemplo, verifique a tabela a seguir para obter uma amostra de pares de chave-valor:

    Tabela 2. Exemplos de pares de chave-valor para o prompt do extrator generativo
    Nome do campoInstrução
    Name"Qual é o nome do candidato?"
    Trabalho Atual"Qual é o trabalho atual do candidato?"
    Empregador"Qual é o empregador atual do candidato?"
    Figura 1. Detalhes dos pares de chave-valor para o extrator generativo

Esta página foi útil?

Obtenha a ajuda que você precisa
Aprendendo RPA - Cursos de automação
Fórum da comunidade da Uipath
Uipath Logo
Confiança e segurança
© 2005-2025 UiPath. Todos os direitos reservados.