AI Center
Mais recente
falso
Imagem de fundo do banner
AI Center
Última atualização 18 de abril de 2024

Classificação de textos em francês

Pacotes do SO > Análise de idiomas > FrenchTextClassification

Esse modelo é um modelo de classificação de texto genérico que usa o aprendizado de transferência para o idioma francês e precisa ser treinado antes de ser possível usá-lo para previsão. Ele é baseado em incorporações do CamemBERT, no qual adicionamos uma rede neural de três camadas totalmente conectada para classificar dados. CamemBERT é um modelo de idioma de última geração para o francês basedo na arquitetura RoBERTa, pré-treinado no subcorpus francês do corpus multilíngue OSCAR pelo HuggingFace.

Detalhes do modelo

Tipo de entrada

JSON

Descrição da Entrada

Texto a ser classificado como string: "Mon séjour dans cet hôtel s’est très bien passé"

Descrição da Saída

String do JSON com o nome de classe previsto, confiança associada nessa previsão de classe (entre 0 e 1) e uma lista de todas as classes com a confiança associada no campo "all_predictions.

Exemplo:

{
  "class": "Positive",
  "confidence": 0.9996203184127808,
  "all_predictions": [
    {
      "class": "Negative",
      "confidence": 0.0003796691307798028
    },
    {
      "class": "Positive",
      "confidence": 0.9996203184127808
    }
  ]
}{
  "class": "Positive",
  "confidence": 0.9996203184127808,
  "all_predictions": [
    {
      "class": "Negative",
      "confidence": 0.0003796691307798028
    },
    {
      "class": "Positive",
      "confidence": 0.9996203184127808
    }
  ]
}

Pipelines

Todos os três tipos de pipelines (Treinamento completo, Treinamento e Avaliação) são suportados por esse pacote.

Enquanto você treina o modelo pela primeira vez, as classes serão inferidas olhando para todo o conjunto de dados fornecido. Após o modelo ser treinado, as mesmas classes serão usadas para previsões e para o retreinamento futuro. Se você quiser redefinir as classes (ou adicionar novas classes), é necessário retreinar o modelo usando a variável de ambiente reset (veja abaixo).

Usar uma GPU tornará a execução do pipeline muito mais rápida, e é recomendável para o treinamento em um conjunto de dados grande.

Formato do conjunto de dados

Esse pacote de ML procurará arquivos json e csv em seu conjunto de dados (não em subdiretórios).

  • Arquivos csv: é esperado csv com cabeçalho denominado input_column(padrão “texto“) e target_column(padrão “classe”) e uma linha por dado.
  • Arquivos json: espera-se que contenha apenas um ponto de dados com os campos input_column(padrão "texto") e target_column(padrão "classe").

Variáveis de Ambiente

  • epochs: personalize o número de epochs para o pipeline de treinamento ou completo (padrão 10)
  • input_column: altere esse valor para corresponder ao nome da coluna de entrada do conjunto de dados (padrão: "text")
  • target_column: altere esse valor para corresponder ao nome da coluna de entrada do conjunto de dados (padrão: "class")
  • reset: adicione essa variável de ambiente se você quiser retreinar do zero a rede neural de três camadas e/ou alterar classes. Por padrão, esse modelo está usando o aprendizado de transferência e mantém as mesmas classes do treinamento anterior.

Artefatos

Avaliar a função produz dois artefatos:

  • predictions.csv: Arquivo CSV com quatro colunas:
    • text: texto de entrada sendo classificado.
    • class: a classe da verdade fundamental a partir do conjunto de dados.
    • predicted_class: classe prevista pelo modelo.
    • confidence: pontuação de confiança associada à previsão.
  • metrics.json: precision do reagrupamento de arquivos json, f1 média das macros, precision e recall, juntamente com f1, precision e recall para cada classe. Exemplo:
    {
      "accuracy": 0.7572500109672546,
      "f1_macro": 0.756912701179931,
      "precision_macro": 0.7594798901045778,
      "recall_macro": 0.7576722549210066,
      "details": [
        {
          "class": "Negative",
          "f1": 0.7659677030609786,
          "precision": 0.7329335793357934,
          "recall": 0.8021201413427562
        },
        {
          "class": "Positive",
          "f1": 0.7478576992988835,
          "precision": 0.7860262008733624,
          "recall": 0.7132243684992571
        }
      ]
    }{
      "accuracy": 0.7572500109672546,
      "f1_macro": 0.756912701179931,
      "precision_macro": 0.7594798901045778,
      "recall_macro": 0.7576722549210066,
      "details": [
        {
          "class": "Negative",
          "f1": 0.7659677030609786,
          "precision": 0.7329335793357934,
          "recall": 0.8021201413427562
        },
        {
          "class": "Positive",
          "f1": 0.7478576992988835,
          "precision": 0.7860262008733624,
          "recall": 0.7132243684992571
        }
      ]
    }

Papel

CamemBERT: a Tasty French Language Model, de Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Djamé Seddah e Benoît Sagot.

Was this page helpful?

Obtenha a ajuda que você precisa
Aprendendo RPA - Cursos de automação
Fórum da comunidade da Uipath
Logotipo branco da Uipath
Confiança e segurança
© 2005-2024 UiPath. All rights reserved.