- Visão geral
- Contratos de Processamento de Documentos
- Notas de versão
- Sobre os Contratos de Processamento de Documentos
- Classe Box
- Interface IPersistedActivity
- Classe PrettyBoxConverter
- Interface IClassifierActivity
- Interface IClassifierCapabilitiesProvider
- Classe ClassifierDocumentType
- Classe ClassifierResult
- Classe ClassifierCodeActivity
- Classe ClassifierNativeActivity
- Classe ClassifierAsyncCodeActivity
- Classe ClassifierDocumentTypeCapability
- Classe ExtractorAsyncCodeActivity
- Classe ExtractorCodeActivity
- Classe ExtractorDocumentType
- Classe ExtractorDocumentTypeCapabilities
- Classe ExtractorFieldCapability
- Classe ExtractorNativeActivity
- Classe ExtractorResult
- Interface ICapabilitiesProvider
- Interface IExtractorActivity
- Classe ExtractorPayload
- Enumeração DocumentActionPriority
- Classe DocumentActionData
- Enumeração DocumentActionStatus
- Enumeração DocumentActionType
- Classe DocumentClassificationActionData
- Classe DocumentValidationActionData
- Classe UserData
- Classe Document
- Classe DocumentSplittingResult
- Classe DomExtensions
- Classe Page
- Classe PageSection
- Classe Polígono
- Classe PolygonConverter
- Classe de metadados
- Classe WordGroup
- Classe Word
- Enumeração ProcessingSource
- Classe ResultsTableCell
- Classe ResultsTableValue
- Classe ResultsTableColumnInfo
- Classe ResultsTable
- Enumeração Rotation
- Enumeração SectionType
- Enumeração WordGroupType
- Interface IDocumentTextProjection
- Classe ClassificationResult
- Classe ExtractionResult
- Classe ResultsDocument
- Classe ResultsDocumentBounds
- Classe ResultsDataPoint
- Classe ResultsValue
- Classe ResultsContentReference
- Classe ResultsValueTokens
- Classe ResultsDerivedField
- Enumeração ResultsDataSource
- Classe ResultConstants
- Classe SimpleFieldValue
- Classe TableFieldValue
- Classe DocumentGroup
- Classe DocumentTaxonomy
- Classe DocumentType
- Classe Field
- Enumeração FieldType
- Classe LanguageInfo
- Classe MetadataEntry
- Enumeração de tipo de texto
- Classe TypeField
- Interface ITrackingActivity
- Interface ITrainableActivity
- Interface ITrainableClassifierActivity
- Interface ITrainableExtractorActivity
- Classe TrainableClassifierAsyncCodeActivity
- Classe TrainableClassifierCodeActivity
- Classe TrainableClassifierNativeActivity
- Classe TrainableExtractorAsyncCodeActivity
- Classe TrainableExtractorCodeActivity
- Classe TrainableExtractorNativeActivity
- Digitalizador do Document Understanding
- Document Understanding ML
- Document Understanding OCR Local Server
- Document Understanding
- Notas de versão
- Sobre o pacote de atividades Document Understanding
- Compatibilidade do projeto
- Definir Senha do PDF
- Merge PDFs
- Get PDF Page Count
- Extract PDF Text
- Extract PDF Images
- Extract PDF Page Range
- Extract Document Data
- Criar tarefa de validação e aguardar
- Aguarde a tarefa de validação e retome
- Create Validation Task
- Classificar Documento
- Create Classification Validation Task
- Create Classification Validation Task and Wait
- Aguardar a tarefa de Validação de Classificação e retomar
- IntelligentOCR
- Notas de versão
- Sobre o pacote de atividades IntelligentOCR
- Compatibilidade do projeto
- Configuração da autenticação
- Carregar Taxonomia
- Digitize Document
- Classificar Escopo do Documento
- Classificador baseado em palavra-chave
- Document Understanding Project Classifier
- Intelligent Keyword Classifier
- Create Document Classification Action
- Aguardar ação de classificação do documento e retomar
- Train Classifiers Scope
- Instrutor de Classificador Baseado em Palavra-chave
- Intelligent Keyword Classifier Trainer
- Escopo da Extração de Dados
- Document Understanding Project Extractor
- Regex Based Extractor
- Form Extractor
- Intelligent Form Extractor
- Present Validation Station
- Create Document Validation Action
- Wait For Document Validation Action And Resume
- Escopo de Extratores de Treinamento
- Exportar Resultados da Extração
- Serviços de ML
- OCR
- Contratos de OCR
- Notas de versão
- Sobre os Contratos OCR
- Compatibilidade do projeto
- Interface IOCRActivity
- Classe OCRAsyncCodeActivity
- Classe OCRCodeActivity
- Classe OCRNativeActivity
- Character Class
- Classe OCRResult
- Classe Word
- Enumeração FontStyles
- Enumeração OCRRotation
- Classe OCRCapabilities
- Classe OCRScrapeBase
- Classe OCRScrapeFactory
- Classe ScrapeControlBase
- Enumeração ScrapeEngineUsages
- ScrapeEngineBase
- Classe ScrapeEngineFactory
- Classe ScrapeEngineProvider
- OmniPage
- PDF
- [Não listado] Abbyy
- [Não listado] Abbyy Embedded
Atividades de Document Understanding
Intelligent Keyword Classifier
UiPath.IntelligentOCR.Activities.DocumentClassification.IntelligentKeywordClassifier
Essa atividade permite que qualquer usuário classifique e divida pacotes de documentos em tipos de documentos individuais. Você só pode usá-lo junto com a atividade Classify Document Scope.
Painel do Designer
- CaminhoDoArquivoDeAprendizagem — o caminho completo para o arquivo que contém os dados do classificador. Este campo é compatível apenas com strings e variáveis
String
.Observação:Apenas um dos parâmetros acima pode ser definido por vez. Você pode usar a string LearningData ou a string LearningFilePath .
O LearningFilePath especifica os locais de onde recuperar os dados do classificador.
O LearningData contém as informações reais desse classificador.
- Endpoint - O URL para o servidor UiPath®. Por padrão, o ponto de extremidade é
https://du.uipath.com/svc/intelligentkeywords
. Para obter mais informações sobre pontos de extremidade, acesse Endpoints públicos do Document Understanding. - ApiKey - Especifica a chave de API da conta. O campo Chave de API é automaticamente pré-preenchido se isso for definido nas configurações de projeto locais ou na estrutura do Document Understanding.
Painel de Propriedades
Comum
- NomeDeExibição - o nome de exibição da atividade.
Entrada
- ApiKey - Especifica a chave de API da conta. O campo Chave de API é automaticamente pré-preenchido se isso for definido nas configurações de projeto locais ou na estrutura do Document Understanding.
- Endpoint - O URL para o servidor UiPath®. Por padrão, o ponto de extremidade é
https://du.uipath.com/svc/intelligentkeywords
. Para obter mais informações sobre pontos de extremidade, acesse Endpoints públicos do Document Understanding. - DadosDeAprendizado — a string que contém os dados do classificador serializado. Este campo é compatível apenas com strings e variáveis
String
. - CaminhoDoArquivoDeAprendizagem — o caminho completo para o arquivo que contém os dados do classificador. Este campo é compatível apenas com strings e variáveis
String
.Observação:Apenas um dos parâmetros acima pode ser definido por vez. Você pode usar a string LearningData ou a string LearningFilePath .
O LearningFilePath especifica os locais de onde recuperar os dados do classificador.
O LearningData contém as informações reais desse classificador.
- Enviar documentos - Quando habilitado, permite que a UiPath® salve o documento referenciado para melhorar o desempenho do algoritmo. A desabilitação dessa funcionalidade impede que a UiPath® armazene os documentos. Independentemente dessa configuração, a operação do algoritmo permanece inalterada.
Diversos
- Privado - Se selecionado, os valores de variáveis e argumentos não são mais registrados no nível Verbose.
Observação: a prática recomendada é criar um arquivo
.json
vazio nesse local e, em seguida, usar seu nome no campo LearningFilePath .
Divisão
- PerformDocumentSplitting — Se não for selecionado, o modelo não realizará a divisão de documentos, apenas classificação.
- UsePageNumbers - Se marcado, o modo usará a funcionalidade de numeração de página para decidir onde dividir documentos. Use essa opção em casos nos quais a numeração de página possa melhorar os resultados de divisão.
Acesse o assistente Gerenciar Aprendizado para configurar a atividade Intelligent Keyword Classifier. O mesmo assistente pode ser usado para revisar os dados coletados durante a fase de treinamento de classificação de documentos, abrindo o mesmo assistente com um caminho de arquivo de aprendizagem atualizado.
Este assistente permite configurar e gerenciar os dados de treinamento usados pela atividade Intelligent Keyword Classifier para identificar o tipo de documento e classificar os documentos. Ele foi criado para atender a necessidade de editar um caminho de arquivo. Se uma opção de Dados de Aprendizagem com uma variável for usada, você será perguntado se deseja editar um caminho de arquivo específico ou anular esta operação.
- Adicione uma atividade Intelligent Keyword Classifier ou Intelligent Keyword Classifier Trainer ao seu fluxo de trabalho.
- Configure sua atividade Intelligent Keyword Classifier adicionando o caminho de um arquivo
.json
. Leve em consideração as seguintes informações, ao configurar o classificador:- Se nenhum caminho for fornecido e a opção Gerenciar aprendizado for selecionada, um pop-up será exibido, pedindo uma entrada Caminho do arquivo de aprendizado. Assim que o caminho for fornecido, o assistente será aberto.
- Uma variável pode ser adicionada em vez de um arquivo
.json
, mas, como o assistente não pode aplicar o padrão de aprendizado a uma variável DadosDeAprendizado, ele solicita um caminho de arquivo específico que pode ser editado.
- Selecione Gerenciar aprendizado.
A janela do assistente Intelligent Keyword Classifier é aberta.Figura 1. Visão geral da seção Gerenciar aprendizado do assistente Intelligent Keyword Classifier
- Se nenhum caminho for fornecido e a opção Gerenciar aprendizado for selecionada, um pop-up será exibido, pedindo um CaminhoDoArquivoDeAprendizagem. Assim que o caminho for fornecido, o assistente será aberto.
Figura 2. O pop-up Aviso exibido se nenhum caminho for fornecido e a opção Gerenciar aprendizado for selecionada
Observação: mesmo que nenhum arquivo.json
esteja disponível, você pode adicionar o nome de um novo arquivo.json
diretamente na atividade e o arquivo.json
é criado automaticamente dentro da pasta especificada.
No assistente Gerenciar aprendizado, você pode ver se um tipo de documento foi treinado ou não pelos seguintes rótulos exibidos ao lado deles: Treinado em arquivos X ou Iniciar treinamento. A captura de tela a seguir mostra um tipo de documento que foi treinado, um que não foi treinado e selecionado, para que possa ser visualizado ou excluído.
Para tipos de documentos que ainda não foram treinados, o treinamento em tempo de design pode ser executado usando a opção Iniciar treinamento. Para tipos de documentos que já têm algum treinamento, você pode excluí-lo para começar de novo, usando a opção remover ou realizar treinamento extra (cumulativo do já existente) usando a opção de edição .
Depois que um novo treinamento é iniciado, uma nova tela é exibida pedindo os arquivos de treinamento e o mecanismo de OCR que deve ser usado. O mecanismo de OCR padrão é o UiPath® Document OCR. Cada mecanismo de OCR vem com seu próprio conjunto de opções personalizadas.
Os seguintes mecanismos de OCR não suportam documentos rotacionados e não devem ser usados para processar tais documentos:
- Microsoft OCR
- Tesseract OCR
- Verdadeiro: se definido como Verdadeiro, o OCR será aplicado a todas as páginas PDF do documento.
- Falso: se definido como Falso, apenas o texto digitalmente digitado será extraído.
- Auto: o valor padrão é Automático, determinando se o documento requer aplicar o algoritmo de OCR, dependendo do documento de entrada.
- ForçarAplicaçãoDeOCR = True é substituído por ApplyOcrOnPDF = Yes
- ForçarAplicaçãoDeOCR = False é substituído por ApplyOcrOnPDF = Auto
- ForçarAplicaçãoDeOCR = vazio é substituído por ApplyOcrOnPDF = Auto
- ForçarAplicaçãoDeOCR = Sua variável definida é substituída por ApplyOcrOnPDF = Auto
Somente dados de treinamento de tipos de documento que foram treinados são elegíveis para exportação.Os tipos de documento que não foram treinados não podem ser selecionados.
Você pode exportar dados de treinamento seguindo estas etapas:
- Selecione os tipos de documento que foram treinados.
- Selecione Exportar.
Se você tiver alterações não salvas, a seguinte mensagem será exibida: "Você não pode exportar enquanto tiver alterações não salvas. Você deseja salvar automaticamente antes de exportar?". Selecione Sim para continuar o processo de exportação.Figura 6. A mensagem Salvar alterações que mostra se você tiver alterações não salvas antes de exportar dados de treinamento
- Salve o arquivo de dados de treinamento com o nome desejado.
Uma mensagem é exibida informando quantos conjuntos de dados de treinamento de tipo de documento foram exportados. Por exemplo: "Vetor(es) de 4 palavras exportado(s)".Figura 7. Exemplo da mensagem que exibe quantos conjuntos de dados de treinamento de tipos de documentos foram exportados
- Selecione OK para retornar à tela principal do assistente.
Você pode importar dados de treinamento seguindo estas etapas:
- Selecione Importar.
- Selecione o arquivo de dados de treinamento e, em seguida, selecione Abrir.
- Selecione os tipos de documento que você deseja.
Figura 8. Tipos de documentos selecionados na seção Importar vetores do Word
- Selecione Importar.
Os dados de treinamento são importados.Figura 9. Os tipos de documentos selecionados anteriormente para importação são exibidos na seção Gerenciar aprendizado
A tabela a seguir mostra as mensagens que são exibidas ao importar dados de treinamento, com base no tipo de importação:
Mensagem exibida | |
---|---|
Novo tipo de documento e vetores do Word |
Esse tipo de documento será adicionado à taxonomia. |
Novo vetor do Word (nenhum foi definido anteriormente) |
Nenhuma mensagem é exibida. |
Mesmo tipo de documento e vetor do Word |
O vetor de palavra para esse tipo de documento será substituído. |
A atividade Intelligent Keyword Classifier faz parte das Document Understanding Solutions. Acesse o Guia do Document Understanding para obter mais informações.