ai-center

2020.10

false

Notas de Versão
Requisitos
- Requisitos de hardware e software
- Arquitetura do AI Fabric
Instalação
Introdução
- Sobre o AI Fabric
- Utilização do AI Fabric
Projetos
- Sobre projetos
- Gerenciando projetos
Conjuntos de dados
- Sobre conjuntos de dados
- Gerenciar conjuntos de dados
Pacotes de ML
Pipelines
Habilidades de ML
- Sobre as Habilidades de ML
- Gerenciar habilidades de ML
Logs de ML
- Sobre os logs de ML
Document Understanding no AI Fabric
- Gerenciador de Dados
- Serviços de OCR
Guia básico de solução de problemas
- Solução de problemas e perguntas frequentes gerais do AI Center

Importante :

A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.

Fora do período de suporte

AI Center

Classificação de textos em francês

Pacotes do SO > Análise de idiomas > FrenchTextClassification

Esse modelo é um modelo de classificação de texto genérico que usa o aprendizado de transferência para o idioma francês e precisa ser treinado antes de ser possível usá-lo para previsão. Ele é baseado em incorporações do CamemBERT, no qual adicionamos uma rede neural de três camadas totalmente conectada para classificar dados. CamemBERT é um modelo de idioma de última geração para o francês basedo na arquitetura RoBERTa, pré-treinado no subcorpus francês do corpus multilíngue OSCAR pelo HuggingFace.

Tipo de entrada

JSON

Descrição da Entrada

Texto a ser classificado como string: "Mon séjour dans cet hôtel s’est très bien passé"

Descrição da Saída

String do JSON com o nome de classe previsto, confiança associada nessa previsão de classe (entre 0 e 1) e uma lista de todas as classes com a confiança associada no campo "all_predictions.

Exemplo:

{
  "class": "Positive",
  "confidence": 0.9996203184127808,
  "all_predictions": [
    {
      "class": "Negative",
      "confidence": 0.0003796691307798028
    },
    {
      "class": "Positive",
      "confidence": 0.9996203184127808
    }
  ]
}{
  "class": "Positive",
  "confidence": 0.9996203184127808,
  "all_predictions": [
    {
      "class": "Negative",
      "confidence": 0.0003796691307798028
    },
    {
      "class": "Positive",
      "confidence": 0.9996203184127808
    }
  ]
}

Pipelines

Todos os três tipos de pipelines (Treinamento completo, Treinamento e Avaliação) são suportados por esse pacote.

Enquanto você treina o modelo pela primeira vez, as classes serão inferidas olhando para todo o conjunto de dados fornecido. Após o modelo ser treinado, as mesmas classes serão usadas para previsões e para o retreinamento futuro. Se você quiser redefinir as classes (ou adicionar novas classes), é necessário retreinar o modelo usando a variável de ambiente reset (veja abaixo).

Usar uma GPU tornará a execução do pipeline muito mais rápida, e é recomendável para o treinamento em um conjunto de dados grande.

Formato do conjunto de dados

Esse pacote de ML procurará arquivos json e csv em seu conjunto de dados (não em subdiretórios).

Arquivos csv: é esperado csv com cabeçalho denominado input_column(padrão “texto“) e target_column(padrão “classe”) e uma linha por dado.
Arquivos json: espera-se que contenha apenas um ponto de dados com os campos input_column(padrão "texto") e target_column(padrão "classe").

Variáveis de Ambiente

epochs: personalize o número de epochs para o pipeline de treinamento ou completo (padrão 10)
input_column: altere esse valor para corresponder ao nome da coluna de entrada do conjunto de dados (padrão: "text")
target_column: altere esse valor para corresponder ao nome da coluna de entrada do conjunto de dados (padrão: "class")
reset: adicione essa variável de ambiente se você quiser retreinar do zero a rede neural de três camadas e/ou alterar classes. Por padrão, esse modelo está usando o aprendizado de transferência e mantém as mesmas classes do treinamento anterior.

Artefatos

Avaliar a função produz dois artefatos:

predictions.csv: Arquivo CSV com quatro colunas:
- text: texto de entrada sendo classificado.
- class: a classe da verdade fundamental a partir do conjunto de dados.
- predicted_class: classe prevista pelo modelo.
- confidence: pontuação de confiança associada à previsão.

metrics.json: precision do reagrupamento de arquivos json, f1 média das macros, precision e recall, juntamente com f1, precision e recall para cada classe. Exemplo:

{
  "accuracy": 0.7572500109672546,
  "f1_macro": 0.756912701179931,
  "precision_macro": 0.7594798901045778,
  "recall_macro": 0.7576722549210066,
  "details": [
    {
      "class": "Negative",
      "f1": 0.7659677030609786,
      "precision": 0.7329335793357934,
      "recall": 0.8021201413427562
    },
    {
      "class": "Positive",
      "f1": 0.7478576992988835,
      "precision": 0.7860262008733624,
      "recall": 0.7132243684992571
    }
  ]
}{
  "accuracy": 0.7572500109672546,
  "f1_macro": 0.756912701179931,
  "precision_macro": 0.7594798901045778,
  "recall_macro": 0.7576722549210066,
  "details": [
    {
      "class": "Negative",
      "f1": 0.7659677030609786,
      "precision": 0.7329335793357934,
      "recall": 0.8021201413427562
    },
    {
      "class": "Positive",
      "f1": 0.7478576992988835,
      "precision": 0.7860262008733624,
      "recall": 0.7132243684992571
    }
  ]
}

Papel

CamemBERT: a Tasty French Language Model, de Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Djamé Seddah e Benoît Sagot.

https://camembert-model.fr/

Nesta página

Tipo de entrada
Descrição da Entrada
Descrição da Saída
Pipelines
Formato do conjunto de dados
Variáveis de Ambiente
Artefatos

Esta página foi útil?

AnteriorClassificação de textos em inglês

AvançarClassificação AutoML do TPOT