AI Center: clasificación de texto multilingüe

ai-center

latest

false

Guía del usuario de AI Center

Primeros pasos
Notificaciones
- Mis notificaciones
Proyectos
- Acerca de los proyectos
- Gestionar proyectos
Conjuntos de datos
- Acerca de los conjuntos de datos
- Gestión de conjuntos de datos
Etiquetado de datos
Paquetes ML
Paquetes listos para usar
Procesos
Habilidades ML
- Acerca de las habilidades ML
- Gestión de habilidades ML
Logs de ML
- Acerca de los registros ML
Document UnderstandingTM en AI Center
- Administrador de documentos
- Servicios de OCR
API de AI Center
- Información general
- Lista de API
Licencia
Plantillas de soluciones de AI
- Acerca de las plantillas de soluciones de AI
  - Enviar un correo electrónico a AI
Tutorial
- Paquetes ML
  - Utilizar NER personalizado con aprendizaje continuo
- Habilidades ML
Guía básica de resolución de problemas

Importante :

Este contenido se ha localizado parcialmente a partir de un sistema de traducción automática. La localización de contenidos recién publicados puede tardar entre una y dos semanas en estar disponible.

Clasificación de texto multilingüe

Paquetes listos para usar > Análisis de idioma de UiPath > MultiLingualTextClassification

Nota:

Este paquete ML está obsoleto. Para obtener más información, consulta la página Línea de tiempo de obsolescencia en la guía Información general .

Se trata de un modelo genérico que se puede volver a entrenar para la clasificación de textos. Este paquete ML debe entrenarse y, si se implementa sin haberse entrenado antes, la implementación fallará mostrando un error que indica que el modelo no está entrenado. Se basa en el modelo BERT, un método autogestionado para entrenar previamente los sistemas de procesamiento de idiomas naturales. Se recomienda una GPU, especialmente durante el entrenamiento. Una GPU ofrece una mejora de la velocidad de entre 5 y 10 veces superior.

Lenguajes

Este modelo multilingüe admite los idiomas de la siguiente lista. Se eligieron estos idiomas porque son los 100 idiomas principales con las Wikipedias más grandes:

Afrikáans
Albanés
Árabe
Aragonés
Armenio
Asturiano
Azerbaiyano
Baskir
Vasco
Bávaro
Bielorruso
Bengalí
Bishnupriya Manipuri
Bosnio
Bretón
Búlgaro
Birmano
Catalán
Cebuano
Checheno
Chino (simplificado)
Chino (Tradicional)
Chuvasio
Croata
Checo
Danés
Holandés
English
Estonio
Finlandés
Francés
Gallego
Georgiano
Alemán
Griego
Gujaratí
Haitiano
Hebreo
Hindi
Húngaro
Islandés
Ido
Indonesio
Irlandés
Italiano
Japonés
Javanés
Canarés
Kazajo
Kirguís
Koreano
Latín
Letón
Lituano
Lombardo
Bajo sajón
Luxemburgués
Macedonio
Malgache
Malayo
Malayo
Maratí
Minangkabau
Nepalí
Nevarí
Noruego (Bokmal)
Noruego (Nynorsk)
Occitano
Persa (Farsi)
Piamontés
Polaco
Portugués
Punyabí
Rumano
Ruso
Escocés
Serbio
Serbo-croata
Siciliano
Eslovaco
Esloveno
Azerbaiyano del sur
Español
Sundanés
Suajili
Sueco
Tagalo
Tayiko
Tamil
Tártaro
Telugu
Tailandés
Turco
Ucraniano
Urdu
Uzbeko
Vietnamita
Volapük
Waray-Waray
Galés
Frisón occidental
Punyabí occidental
Yoruba

Detalles del modelo

Tipo de entrada

JSON

Descripción de entrada

Texto que se clasificará como cadena: "Me encantó esta película".

Descripción de salida

JSON con el nombre de clase predecido; confianza asociada a esa predicción de clase (entre 0-1).

Ejemplo:

{
  "prediction": "Positive", 
  "confidence": 0.9422031841278076
}
{
  "prediction": "Positive", 
  "confidence": 0.9422031841278076
}

De forma predeterminada, se recomienda una GPU.

Capacitación habilitada

De forma predeterminada, el entrenamiento está habilitado.

Procesos

Este paquete es compatible con los tres tipos de procesos (entrenamiento completo, entrenamiento y evaluación). Para la mayoría de casos de uso, no se necesitan especificaciones de parámetros; el modelo utiliza técnicas avanzadas para encontrar un modelo eficiente. En entrenamientos posteriores al primero, el modelo utiliza el aprendizaje incremental (es decir, se utilizará la versión previamente entrenada, al final de una ejecución de entrenamiento).

Formato del conjunto de datos

Hay tres opciones disponibles para estructurar tu conjunto de datos para este modelo: JSON, CSV y formato JSON de AI Center (este es también el formato de exportación de la herramienta de etiquetado. El modelo leerá todos los archivos CSV y JSON en el directorio especificado. Para cada formato, el modelo espera dos columnas o dos propiedades, dataset.input_column_name y dataset.target_column_name de forma predeterminada. Los nombres de estas dos columnas y/o directorios son configurables utilizando variables de entorno.

Formato de archivo CSV

Each CSV file can have any number of columns, but only two will be used by the model. Those columns are specified by the dataset.input_column_name and dataset.target_column_name parameters.

Check the following sample and environment variables for a CSV file format example.

text, label
I like this movie, 7
I hated the acting, 9
text, label
I like this movie, 7
I hated the acting, 9

Las variables de entorno para el ejemplo anterior serían las siguientes:

dataset.input_format: auto
dataset.input_column_name: text
dataset.output_column_name: label

Formato de archivo JSON

Varios conjuntos de datos podrían formar parte del mismo archivo JSON.

Check the following sample and environment variables for a JSON file format example.

[
  {
    "text": "I like this movie",
    "label": "7"
  },
  {
    "text": "I hated the acting",
    "label": "9"
  }
]
[
  {
    "text": "I like this movie",
    "label": "7"
  },
  {
    "text": "I hated the acting",
    "label": "9"
  }
]

Las variables de entorno para el ejemplo anterior serían las siguientes:

dataset.input_format: auto
dataset.input_column_name: text
dataset.output_column_name: label

formato de archivo ai_center

Este es el valor predeterminado de las variables de entorno que se pueden establecer, y este modelo leerá todos los archivos en un directorio proporcionado con una extensión .json .

Check the following sample and environment variables for an ai_center file format example.

{
    "annotations": {
        "intent": {
            "to_name": "text",
            "choices": [
                "TransactionIssue",
                "LoanIssue"
            ]
        },
        "sentiment": {
            "to_name": "text",
            "choices": [
                "Very Positive"
            ]
        },
        "ner": {
            "to_name": "text",
            "labels": [
                {
                    "start_index": 37,
                    "end_index": 47,
                    "entity": "Stakeholder",
                    "value": " Citi Bank"
                },
                {
                    "start_index": 51,
                    "end_index": 61,
                    "entity": "Date",
                    "value": "07/19/2018"
                },
                {
                    "start_index": 114,
                    "end_index": 118,
                    "entity": "Amount",
                    "value": "$500"
                },
                {
                    "start_index": 288,
                    "end_index": 293,
                    "entity": "Stakeholder",
                    "value": " Citi"
                }
            ]
        }
    },
    "data": {
        "cc": "",
        "to": "xyz@abc.com",
        "date": "1/29/2020 12:39:01 PM",
        "from": "abc@xyz.com",
        "text": "I opened my new checking account with Citi Bank in 07/19/2018 and met the requirements for the promotion offer of $500 . It has been more than 6 months and I have not received any bonus. I called the customer service several times in the past few months but no any response. I request the Citi honor its promotion offer as advertised."
{
    "annotations": {
        "intent": {
            "to_name": "text",
            "choices": [
                "TransactionIssue",
                "LoanIssue"
            ]
        },
        "sentiment": {
            "to_name": "text",
            "choices": [
                "Very Positive"
            ]
        },
        "ner": {
            "to_name": "text",
            "labels": [
                {
                    "start_index": 37,
                    "end_index": 47,
                    "entity": "Stakeholder",
                    "value": " Citi Bank"
                },
                {
                    "start_index": 51,
                    "end_index": 61,
                    "entity": "Date",
                    "value": "07/19/2018"
                },
                {
                    "start_index": 114,
                    "end_index": 118,
                    "entity": "Amount",
                    "value": "$500"
                },
                {
                    "start_index": 288,
                    "end_index": 293,
                    "entity": "Stakeholder",
                    "value": " Citi"
                }
            ]
        }
    },
    "data": {
        "cc": "",
        "to": "xyz@abc.com",
        "date": "1/29/2020 12:39:01 PM",
        "from": "abc@xyz.com",
        "text": "I opened my new checking account with Citi Bank in 07/19/2018 and met the requirements for the promotion offer of $500 . It has been more than 6 months and I have not received any bonus. I called the customer service several times in the past few months but no any response. I request the Citi honor its promotion offer as advertised."

Para aprovechar el JSON de muestra anterior, las variables de entorno deben establecerse de la siguiente manera:

dataset.input_format: ai_center
dataset.input_column_name: data.text
dataset.output_column_name: annotations.intent.choices

Entrenamiento en GPU o CPU

Puedes utilizar GPU o CPU para el entrenamiento. Se recomienda utilizar la GPU, ya que es más rápido.

Variables de entorno

dataset.input_column_name
- El nombre de la columna de entrada que contiene el texto.
- El valor predeterminado es data.text.
- Asegúrese de que esta variable esté configurada de acuerdo con su archivo JSON o CSV de entrada.
dataset.target_column_name
- El nombre de la columna de destino que contiene el texto.
- El valor predeterminado es annotations.intent.choices.
- Asegúrese de que esta variable esté configurada de acuerdo con su archivo JSON o CSV de entrada.
dataset.input_format
- El formato de entrada de los datos de entrenamiento.
- El valor predeterminado es ai_center.
- Los valores admitidos son: ai_center o auto.
- If ai_center is selected, only JSON files are supported. Make sure to also change the value of the dataset.target_column_name to annotations.sentiment.choices if ai_center is selected.
- Si se selecciona auto , se admiten tanto archivos CoNLL como JSON .
model.epoch
- El número de épocas.
- Valor predeterminado: 100.

Artefactos

Matriz de confusión

Informe de clasificación

precision    recall  f1-score   support
         positive     0.94      0.94      0.94     10408
         negative     0.93      0.93      0.93      9592
    accuracy                              0.94     20000
   macro avg          0.94      0.94      0.94     20000
weighted avg          0.94      0.94      0.94     20000
precision    recall  f1-score   support
         positive     0.94      0.94      0.94     10408
         negative     0.93      0.93      0.93      9592
    accuracy                              0.94     20000
   macro avg          0.94      0.94      0.94     20000
weighted avg          0.94      0.94      0.94     20000

Datos

Archivo CSV de evaluación

Este es un archivo CSV con predicciones en el conjunto de pruebas utilizado para la evaluación.

text,label,predict,confidence
I like this movie, positive, positive, 0.99
I hated the acting, negative, negative, 0.98
text,label,predict,confidence
I like this movie, positive, positive, 0.99
I hated the acting, negative, negative, 0.98

¿Te ha resultado útil esta página?

AnteriorClasificación de texto claro

Sig.Similitud semántica

Lenguajes​

Detalles del modelo​

Tipo de entrada​

Descripción de entrada​

Descripción de salida​

GPU recomendada​

Capacitación habilitada​

Procesos​

Formato del conjunto de datos​

Formato de archivo CSV​

Formato de archivo JSON​

formato de archivo ai_center​

Entrenamiento en GPU o CPU​

Variables de entorno​

Artefactos​

Matriz de confusión​

Informe de clasificación​

Datos​

Archivo CSV de evaluación​