ai-center

latest

false

Introdução
Notificações
- Minhas notificações
Projetos
- Sobre projetos
- Gerenciando projetos
Conjuntos de dados
- Sobre conjuntos de dados
- Gerenciar conjuntos de dados
Rotulagem de Dados
Pacotes de ML
Pacotes para uso imediato
Pipelines
Habilidades de ML
- Sobre as Habilidades de ML
- Gerenciar habilidades de ML
Logs de ML
- Sobre os logs de ML
Document UnderstandingTM no AI Center
- Document Manager
- Serviços de OCR
API do AI Center
- Visão geral
- Lista de APIs
Licenciamento
Modelos de soluções de IA
- Sobre os modelos de soluções de IA
  - IA de e-mail
Como fazer
- Pacotes de ML
  - Uso da NER personalizada com o aprendizado contínuo
- Habilidades de ML
Guia básico de solução de problemas

Importante :

A tradução automática foi aplicada parcialmente neste conteúdo. A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.

Guia do usuário do AI Center

Classificação de textos em francês

Observação:

Os pacotes de ML prontos para uso estão obsoletos. Para obter mais informações, consulte a página Linha do tempo de descontinuação no guia Visão geral .

Pacotes do SO > Análise de idiomas > FrenchTextClassification

Esse modelo é um modelo de classificação de texto genérico que usa o aprendizado de transferência para o idioma francês e precisa ser treinado antes de ser possível usá-lo para previsão. Ele é baseado em incorporações do CamemBERT, no qual adicionamos uma rede neural de três camadas totalmente conectada para classificar dados. O CamemBERT é um modelo de idioma de ponta para o francês com base na arquitetura RoBERTa, pré-treinado no subcorpus francês do corpus multilíngue OSCAR pelo HuggingFace.

Detalhes do modelo

Tipo de Entrada

JSON

Descrição da entrada

Texto a ser classificado como string: "Mon séjour dans cet hôtel s’est très bien passé"

Descrição da saída

String do JSON com o nome de classe previsto, confiança associada nessa previsão de classe (entre 0 e 1) e uma lista de todas as classes com a confiança associada no campo "all_predictions.

Exemplo:

{
  "class": "Positive",
  "confidence": 0.9996203184127808,
  "all_predictions": [
    {
      "class": "Negative",
      "confidence": 0.0003796691307798028
    },
    {
      "class": "Positive",
      "confidence": 0.9996203184127808
    }
  ]
}
{
  "class": "Positive",
  "confidence": 0.9996203184127808,
  "all_predictions": [
    {
      "class": "Negative",
      "confidence": 0.0003796691307798028
    },
    {
      "class": "Positive",
      "confidence": 0.9996203184127808
    }
  ]
}

Pipelines

Todos os três tipos de pipelines (Treinamento completo, Treinamento e Avaliação) são suportados por esse pacote.

Enquanto você treina o modelo pela primeira vez, as classes serão inferidas olhando para todo o conjunto de dados fornecido. Após o modelo ser treinado, as mesmas classes serão usadas para previsões e para o retreinamento futuro. Se você quiser redefinir as classes (ou adicionar novas classes), é necessário retreinar o modelo usando a variável de ambiente reset.

Usar uma GPU tornará a execução do pipeline muito mais rápida, e é recomendável para o treinamento em um conjunto de dados grande.

Formato do conjunto de dados

Esse pacote de ML procurará arquivos json e csv em seu conjunto de dados (não em subdiretórios).

Arquivos csv: é esperado csv com cabeçalho denominado input_column(padrão “texto“) e target_column(padrão “classe”) e uma linha por dado.
Arquivos json: espera-se que contenha apenas um ponto de dados com os campos input_column(padrão "texto") e target_column(padrão "classe").

Variáveis de Ambiente

epochs: personalize o número de epochs para o pipeline de treinamento ou completo (padrão 10)
input_column: altere esse valor para corresponder ao nome da coluna de entrada do conjunto de dados (padrão: "text")
target_column: altere esse valor para corresponder ao nome da coluna de entrada do conjunto de dados (padrão: "class")
reset: adicione essa variável de ambiente se você quiser retreinar do zero a rede neural de três camadas e/ou alterar classes. Por padrão, esse modelo está usando o aprendizado de transferência e mantém as mesmas classes do treinamento anterior.

Artefatos

Avaliar a função produz dois artefatos:

predictions.csv: Arquivo CSV com quatro colunas:
- text: texto de entrada sendo classificado.
- class: a classe da verdade fundamental a partir do conjunto de dados.
- predicted_class: classe prevista pelo modelo.
- confidence: pontuação de confiança associada à previsão.

metrics.json: precision do reagrupamento de arquivos json, f1 média das macros, precision e recall, juntamente com f1, precision e recall para cada classe. Exemplo:

{
  "accuracy": 0.7572500109672546,
  "f1_macro": 0.756912701179931,
  "precision_macro": 0.7594798901045778,
  "recall_macro": 0.7576722549210066,
  "details": [
    {
      "class": "Negative",
      "f1": 0.7659677030609786,
      "precision": 0.7329335793357934,
      "recall": 0.8021201413427562
    },
    {
      "class": "Positive",
      "f1": 0.7478576992988835,
      "precision": 0.7860262008733624,
      "recall": 0.7132243684992571
    }
  ]
}
{
  "accuracy": 0.7572500109672546,
  "f1_macro": 0.756912701179931,
  "precision_macro": 0.7594798901045778,
  "recall_macro": 0.7576722549210066,
  "details": [
    {
      "class": "Negative",
      "f1": 0.7659677030609786,
      "precision": 0.7329335793357934,
      "recall": 0.8021201413427562
    },
    {
      "class": "Positive",
      "f1": 0.7478576992988835,
      "precision": 0.7860262008733624,
      "recall": 0.7132243684992571
    }
  ]
}

Papel

CamemBERT: a Tasty French Language Model, de Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Djamé Seddah e Benoît Sagot.

https://camembert-model.fr/

Nesta página

Detalhes do modelo
Tipo de Entrada
Descrição da entrada
Descrição da saída
Pipelines
Formato do conjunto de dados
Variáveis de Ambiente
Artefatos
Papel

Esta página foi útil?

AnteriorClassificação de textos em inglês

AvançarClassificação de textos em japonês

Guia do usuário do AI Center

Detalhes do modelo​

Tipo de Entrada​

Descrição da entrada​

Descrição da saída​

Pipelines​

Formato do conjunto de dados​

Variáveis de Ambiente​

Artefatos​

Papel​