Guia do usuário do AI Center

ENTREGA:

Automation Cloud Automation Suite Standalone

Última atualização 18 de dez de 2024

Uso da NER personalizada com o aprendizado contínuo

Informações em segundo plano

Esse exemplo é usado para extrair produtos químicos pela categoria mencionada em artigos de pesquisa. Ao seguir o procedimento abaixo, você extrairá os produtos químicos e os categorizará como ABBEVIAÇÃO, FAMÍLIA, FÓRMULA, IDENTIFICADOR, MULTIPLO, SISTEMÁTICO, TRIVIAL e NO_CLASS.

Recomendações

Quando usar o modelo de Reconhecimento de entidade nomeada personalizada (NER)

Use o modelo NER personalizado para extrair:

informações especiais do texto. Essas informações são chamadas de entity.
os nomes de pessoas, lugares, organizações, locais, datas, valores numéricos, etc. As entidades extraídas são mutuamente exclusivas. As entidades estão no nível de uma ou várias palavras, não no nível de subpalavras. Por exemplo, na frase Eu vivo em Nova York , uma entidade pode ser Nova York , mas não na frase Eu leio a Nova York .

Você pode usar as entidades extraídas diretamente nos processos de extração de informações ou como entradas para as tarefas downstream, como classificação do texto de origem, análise de sentimento do texto de origem, PHI etc.

Recomendações do conjunto de dados de treinamento

Tenha pelo menos 200 amostras por entidade se as entidades forem densas nas amostras, o que significa que a maioria das amostras (mais de 75%) contém de 3 a 5 dessas entidades.
Se as entidades forem esparsas (cada amostra tem menos de três entidades), ou seja, apenas algumas de todas as entidades aparecem na maioria dos documentos, é recomendável ter pelo menos 400 amostras por entidade. Isso ajuda o modelo a entender melhor os recursos discriminativos.
Se houver mais de 10 entidades, adicione mais 100 amostras de forma incremental até atingir a métrica de desempenho desejada.

Melhores práticas

Ter entidades significativas; se um humano não consegue identificar uma entidade, então nenhum modelo pode.
Ter entidades simples. Em vez de um único endereço de entidade, divida-o em várias entidades: nome da rua, nome do estado, nome da cidade, CEP etc.
Crie conjuntos de dados de treinamento e teste e use um pipeline completo para treinamento.
Comece com um número mínimo de amostras para anotação, abrangendo todas as entidades.
Certifique-se de que todas as entidades estejam representadas na divisão de treinamento e teste.
Execute um pipeline completo e verifique as métricas de teste. Se a métrica de teste não for satisfatória, verifique o relatório de classificação e identifique as entidades com baixo desempenho. Adicione mais amostras que cubram as entidades com baixo desempenho e repita o processo de treinamento até a métrica desejada.

Pré-requisitos

Esse procedimento usa o pacote de Reconhecimento da entidade nomeada personalizada. Para obter mais informações sobre como esse pacote funciona e para que ele pode ser usado, veja Reconhecimento da entidade nomeada personalizada.

Para esse procedimento, fornecemos arquivos de amostra da seguinte forma:

Conjunto de dados de treinamento pré-rotulados no formato CoNLL. É possível baixá-los daqui.
Conjunto de dados de teste pré-rotulados. É possível baixá-los daqui.
Fluxo de trabalho de amostra para extrair categorias de produtos químicos mencionados em artigos de pesquisa. É possível baixá-los daqui.
Observação: certifique-se de que as seguintes variáveis estejam preenchidas no arquivo de amostra:
- in_emailAdress - o endereço de e-mail ao qual a tarefa do Action Center será atribuída
- in_MLSkillEndpoint- endpoint público da Habilidade de ML
- in_MLSkillAPIKey- chave da API da Habilidade de ML
- in_labelStudioEndpoint- opcional, para habilitar a rotulagem contínua: forneça a URL de importação de um projeto do Label Studio

Procedimento

Siga o procedimento abaixo para extrair produtos químicos por sua categoria de artigos de pesquisa.

Importe o conjunto de dados de amostra para o UiPath® AI Center. Para fazer isso, vá para o menu Conjuntos de dados e faça o upload das pastas train e test da amostra.
Selecione o pacote NER personalizado desejado de Pacotes de ML > Pacotes prontos para uso > UiPath Language Analysis e crie-o.
Acesse o menu Pipelines e crie uma nova execução do pipeline completo para o pacote criado na etapa anterior. Aponte para o treinamento e o conjunto de dados de teste fornecido no arquivo de amostra.

Após ter sido concluído, os resultados do pipeline estarão disponíveis em Artefatos É possível baixar o relatório de classificação para avaliar os resultados do teste.
Crie uma nova Habilidade de ML usando o pacote gerado pelo pipeline que é executado na etapa anterior e o implante.
Depois de implantar a habilidade, aproveite-a no fluxo de trabalho do UiPath® Studio fornecido. Para habilitar a captura de dados com previsões fracas, implante uma instância do Label Studio e forneça a URL da instância e a chave da API na atividade do Label Studio no fluxo de trabalho.

Primeiros passos com o Label Studio

Para começar com o Label Studio e exportar dados para o AI Center, siga as instruções abaixo.

Instale o Label Studio em sua máquina local ou instância de nuvem. Para fazer isso, siga as instruções daqui.
Crie um novo projeto a partir do Modelo de reconhecimento de entidade nomeada e defina seus nomes de rótulos.
Certifique-se de que os nomes de rótulos não tenham caracteres especiais ou espaços. Por exemplo, em vez de Set Date, use SetDate.
Certifique-se de que o valor da <Text>tag seja "$text".
Carregue os dados usando a API daqui.
Exemplo de solicitação cURL:
```
curl --location --request POST 'https://<label-studio-instance>/api/projects/<id>/import' \)\)
--header 'Content-Type: application/json' \)\)
--header 'Authorization: Token <Token>' \)\)
--data-raw '[
    {
      "data": {
        "text": "<Text1>"
      },
    },
    {
      "data": {
        "text": "<Text2>"
       }
    }
]'curl --location --request POST 'https://<label-studio-instance>/api/projects/<id>/import' \)\)
--header 'Content-Type: application/json' \)\)
--header 'Authorization: Token <Token>' \)\)
--data-raw '[
    {
      "data": {
        "text": "<Text1>"
      },
    },
    {
      "data": {
        "text": "<Text2>"
       }
    }
]'
```
Anote seus dados.
Exporte os dados no formato CoNLL 2003 e carregue-os no AI Center.
Forneça a URL da instância do Label Studio e a chave da API no fluxo de trabalho de amostra fornecido, a fim de capturar previsões incorretas e de baixa confiança.