- Notas de Versão
- Introdução
- Notificações
- Projetos
- Conjuntos de dados
- Rotulagem de Dados
- Pacotes de ML
- Pacotes para uso imediato
- Pipelines
- Habilidades de ML
- Logs de ML
- Document UnderstandingTM no AI Center
- API do AI Center
- Licenciamento
- Modelos de soluções de IA
- Como fazer
- Guia básico de solução de problemas
Classificação de textos em francês
Pacotes do SO > Análise de idiomas > FrenchTextClassification
Esse modelo é um modelo de classificação de texto genérico que usa o aprendizado de transferência para o idioma francês e precisa ser treinado antes de ser possível usá-lo para previsão. Ele é baseado em incorporações do CamemBERT, no qual adicionamos uma rede neural de três camadas totalmente conectada para classificar dados. CamemBERT é um modelo de idioma de última geração para o francês basedo na arquitetura RoBERTa, pré-treinado no subcorpus francês do corpus multilíngue OSCAR pelo HuggingFace.
Texto a ser classificado como string: "Mon séjour dans cet hôtel s’est très bien passé"
String do JSON com o nome de classe previsto, confiança associada nessa previsão de classe (entre 0 e 1) e uma lista de todas as classes com a confiança associada no campo "all_predictions.
Exemplo:
{
"class": "Positive",
"confidence": 0.9996203184127808,
"all_predictions": [
{
"class": "Negative",
"confidence": 0.0003796691307798028
},
{
"class": "Positive",
"confidence": 0.9996203184127808
}
]
}
{
"class": "Positive",
"confidence": 0.9996203184127808,
"all_predictions": [
{
"class": "Negative",
"confidence": 0.0003796691307798028
},
{
"class": "Positive",
"confidence": 0.9996203184127808
}
]
}
Todos os três tipos de pipelines (Treinamento completo, Treinamento e Avaliação) são suportados por esse pacote.
Enquanto você treina o modelo pela primeira vez, as classes serão inferidas olhando para todo o conjunto de dados fornecido. Após o modelo ser treinado, as mesmas classes serão usadas para previsões e para o retreinamento futuro. Se você quiser redefinir as classes (ou adicionar novas classes), é necessário retreinar o modelo usando a variável de ambiente reset (veja abaixo).
Usar uma GPU tornará a execução do pipeline muito mais rápida, e é recomendável para o treinamento em um conjunto de dados grande.
Esse pacote de ML procurará arquivos json e csv em seu conjunto de dados (não em subdiretórios).
- Arquivos csv: é esperado csv com cabeçalho denominado input_column(padrão “texto“) e target_column(padrão “classe”) e uma linha por dado.
- Arquivos json: espera-se que contenha apenas um ponto de dados com os campos input_column(padrão "texto") e target_column(padrão "classe").
- epochs: personalize o número de epochs para o pipeline de treinamento ou completo (padrão 10)
- input_column: altere esse valor para corresponder ao nome da coluna de entrada do conjunto de dados (padrão: "text")
- target_column: altere esse valor para corresponder ao nome da coluna de entrada do conjunto de dados (padrão: "class")
- reset: adicione essa variável de ambiente se você quiser retreinar do zero a rede neural de três camadas e/ou alterar classes. Por padrão, esse modelo está usando o aprendizado de transferência e mantém as mesmas classes do treinamento anterior.
Avaliar a função produz dois artefatos:
- predictions.csv: Arquivo CSV com quatro colunas:
- text: texto de entrada sendo classificado.
- class: a classe da verdade fundamental a partir do conjunto de dados.
- predicted_class: classe prevista pelo modelo.
- confidence: pontuação de confiança associada à previsão.
- metrics.json: precision do reagrupamento de arquivos json, f1 média das macros, precision e recall, juntamente com f1, precision e recall para cada classe. Exemplo:
{ "accuracy": 0.7572500109672546, "f1_macro": 0.756912701179931, "precision_macro": 0.7594798901045778, "recall_macro": 0.7576722549210066, "details": [ { "class": "Negative", "f1": 0.7659677030609786, "precision": 0.7329335793357934, "recall": 0.8021201413427562 }, { "class": "Positive", "f1": 0.7478576992988835, "precision": 0.7860262008733624, "recall": 0.7132243684992571 } ] }
{ "accuracy": 0.7572500109672546, "f1_macro": 0.756912701179931, "precision_macro": 0.7594798901045778, "recall_macro": 0.7576722549210066, "details": [ { "class": "Negative", "f1": 0.7659677030609786, "precision": 0.7329335793357934, "recall": 0.8021201413427562 }, { "class": "Positive", "f1": 0.7478576992988835, "precision": 0.7860262008733624, "recall": 0.7132243684992571 } ] }
CamemBERT: a Tasty French Language Model, de Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Djamé Seddah e Benoît Sagot.