- Documentos de la API
- Introducción
- Uso de la API
- Tutorial de la API
- Resumen
- Fuentes
- Conjuntos de datos
- Comentarios
- Archivos adjuntos
- Predictions
- Crear una transmisión
- Actualizar una transmisión
- Obtener una transmisión por nombre
- Obtener todas las transmisiones
- Eliminar una transmisión
- Obtener resultados de la transmisión
- Obtener comentarios de una transmisión (heredado)
- Avanzar una transmisión
- Restablecer una transmisión
- Etiquetar una excepción
- Desetiquetar una excepción
- Eventos de auditoría
- Obtener todos los usuarios
- CLI
- Guías de integración
- Blog
- Cómo aprenden las máquinas a entender palabras: una guía para las incrustaciones en PNL
- Aprendizaje basado en solicitudes con Transformers
- Efficient Transformers II: destilación de conocimientos y ajuste
- Transformadores eficientes I: mecanismos de atención
- Modelado de intenciones jerárquico profundo no supervisado: obtener valor sin datos de entrenamiento
- Corrección del sesgo de anotación con Communications Mining
- Aprendizaje activo: mejores modelos ML en menos tiempo
- Todo está en los números: evaluar el rendimiento del modelo con métricas
- Por qué es importante la validación del modelo
- Comparación de Communications Mining y Google AutoML para la inteligencia de datos conversacional
Todo está en los números: evaluar el rendimiento del modelo con métricas
Al crear y entrenar un modelo de aprendizaje automático, es esencial comprender el rendimiento. Dependiendo de los datos de entrenamiento y la tarea, incluso el modelo más avanzado puede producir predicciones incorrectas, lo que da lugar a análisis engañosos o flujos de automatización defectuosos.
Vadear manualmente los ejemplos para comprobar las predicciones del modelo no es práctico, especialmente para conjuntos de datos con millones de puntos de datos. En su lugar, Communications Mining calcula y muestra continuamente múltiples métricas para ayudar a analizar modelos y detectar fallos.
Sin embargo, en algunas condiciones, las métricas pueden comportarse de forma inesperada. En esta publicación de blog analizamos algunos de los problemas que surgen al utilizar métricas, y algunas de las soluciones que utiliza Communications Mining para simplificar el proceso.
CommunicationsMining permite a los usuarios crear modelos de aprendizaje automático personalizados para los datos de comunicaciones. Para entender cómo utilizamos las métricas durante este proceso, es útil imaginar un caso de uso específico.
Considere un buzón de correo compartido para un banco, que puede recibir miles de correos electrónicos cada día. Communications Mining se utiliza para clasificar automáticamente estos correos electrónicos para ayudar a los empleados que utilizan el buzón a trabajar de forma más eficiente.
En un caso de uso real, los expertos en la materia del buzón crearían cientos de etiquetas para rastrear y automatizar varios flujos de trabajo. Para nuestros propósitos, consideraremos un caso simplificado
-
Correos electrónicos urgentes. Estos deben detectarse y marcarse en los clientes de correo electrónico de los empleados.
-
Correos electrónicos generados automáticamente. Estos deben detectarse y moverse a una carpeta de archivo para mantener la bandeja de entrada despejada.
Urgent
y Auto Generated
para estas tareas y anota algunos correos electrónicos de ejemplo. Communications Mining entrena automáticamente un modelo ML que predice qué etiquetas se aplican a un correo electrónico. Este modelo se utiliza para automatizar las tareas de clasificación de correo electrónico para datos en vivo.
Enel nivel más bajo, las métricas comparan las predicciones de las etiquetas con las respuestas correctas, en forma de anotaciones de etiquetas Sí/No creadas por los usuarios.
Los modelos de Communications Mining no proporcionan predicciones binarias (sí/no) sobre la presencia de etiquetas. En su lugar, devuelven un número entre 00 y 11. Esto representa la confianza del modelo en que se aplica una etiqueta.
Los valores de confianza del modelo se convierten en predicciones de etiquetas binarias utilizando un umbral. Se trata simplemente de un número entre 00 y 11 que divide los valores de confianza de una etiqueta.
-
Por encima del umbral se predice que se aplicará la etiqueta (un ejemplo "positivo").
-
Por debajo del umbral, no se prevé que se aplique la etiqueta (un ejemplo "negativo").
Utilizando anotaciones, predicciones de etiquetas y un umbral, podemos dividir un conjunto de ejemplos en cuatro grupos distintos
-
Verdaderos positivos (TP). El modelo predice una etiqueta y se aplica la etiqueta.
-
Falsos positivos (FP). El modelo predice una etiqueta y la etiqueta no se aplica.
-
Falsos negativos (FN). El modelo no predice una etiqueta y la etiqueta se aplica.
-
Verdaderos negativos (TN). El modelo no predice una etiqueta y la etiqueta no se aplica.
Cambiar el umbral de una etiqueta afectará a los correos electrónicos que se incluyen en cada uno de estos cuatro grupos, que actúan como punto de partida para muchas métricas.
Precisión
Podríamos tener la tentación de fijarnos en la precisión de nuestro modelo.
De todas las predicciones del modelo, qué fracción es correcta.
Esto parece razonable, y la precisión a menudo se considera la métrica de referencia para el rendimiento de la IA. Sin embargo, en algunos casos la precisión puede ser engañosa.
Urgent
para ningún correo electrónico, obtenemos una puntuación de precisión de:
Esta puntuación es alta, pero nuestro modelo está funcionando mal. La precisión puede sobrestimar el rendimiento en tareas con etiquetas raras como Urgent
y Auto Generated
.
Precisión y recuperación
Urgent
en 25 comentarios, nuestro modelo obtendría valores de precisión y recuperación de 00. Esto pone de relieve el bajo rendimiento de este modelo.
Estas métricas funcionan mejor en etiquetas que se producen con diferentes frecuencias, lo que se conoce como desequilibrio de clases. Los temas en los datos de comunicaciones rara vez se producen a la misma velocidad, por lo que es importante que las métricas de Communications Mining tengan esto en cuenta.
Paraun umbral dado, podemos calcular la precisión y recuperar los valores. Sin embargo, en realidad existe un compromiso entre estas dos métricas
-
Alta precisión. Requiere pocos falsos positivos. Esto significa un umbral alto, por lo que solo los ejemplos con una confianza del modelo cercana a 1 son "positivos".
-
Alto recuerdo. Requiere pocos falsos negativos. Esto significa un umbral bajo, por lo que solo los ejemplos con una confianza del modelo cercana a 0 son "negativos".
Es fácil obtener una buena puntuación en precisión o recuperación (estableciendo umbrales cercanos a 00 o cercanos a 11 respectivamente). Establecer un umbral representa un equilibrio entre los dos, y la mejor compensación depende de para qué se utiliza la etiqueta.
Costes de equilibrio
Auto Generated
debe tener alta precisión (pocos falsos positivos).
Urgent
debe tener una alta recuperación (pocos falsos negativos).
El umbral óptimo para una etiqueta minimiza el coste cuando el modelo comete un error.
En aras del argumento, supongamos que al banco le cuesta 5 £ por cada correo electrónico urgente perdido (falso negativo) y 10 £ por cada correo electrónico marcado erróneamente como autogenerado (falso positivo). El banco también paga a un empleado 20 libras esterlinas por hora para eliminar correos electrónicos incorrectos urgentes y perdidos autogenerados a razón de 100 por hora.
Para un buzón que recibe 1000 correos electrónicos al día, los umbrales pueden ajustarse para minimizar el coste esperado por día.
La precisióny la recuperación necesitan un umbral para cada etiqueta. Establecer estos umbrales es lento, especialmente para grandes conjuntos de datos que pueden tener cientos de etiquetas. Una métrica que funciona sin un umbral óptimo es más útil.
Modelos perfectos
Considere un modelo hipotético "perfecto" que predice cada etiqueta correctamente. Habrá un umbral en el que este modelo tenga un 100 % de precisión y recuperación.
Por encima de este umbral, algunos positivos se identificarán incorrectamente como negativos. Esto reduce la precisión, pero mantiene la recuperación al 100 %. Del mismo modo, reducir el umbral etiquetará incorrectamente los negativos como positivos. Esto reduce la recuperación, pero mantiene la precisión al 100 %.
Según esta lógica, la curva de precisión/recuperación para un modelo perfecto es una forma de caja con la esquina en el punto (100%,100%)(100%,100%). Cualquier modelo imperfecto tendrá una curva por debajo de este modelo perfecto.
Esto significa que mejorar un modelo es lo mismo que aumentar el área bajo la curva de precisión/recuperación.
Precisión media
Aunque permitimos que los usuarios elijan umbrales y exploren el equilibrio precisión/recuperación, la precisión media es la métrica principal que utilizamos para puntuar los modelos en Communications Mining. Funciona bien en promedio, especialmente en los casos en que los falsos positivos y los falsos negativos tienen costes similares. Debido a que utiliza precisión y recuperación, es robusto a los desequilibrios de clase, pero los usuarios no necesitan establecer un umbral para calcularlo.
Informamos de esta métrica de dos maneras en la página Validación
-
Precisión media. El rendimiento de una etiqueta individual, informado para cada etiqueta.
-
Precisión media media. La precisión media de cada etiqueta, promediada en todas las etiquetas. Esto mide el rendimiento de todas las etiquetas en el conjunto de datos.
Utilizamosmétricas para estimar el rendimiento del modelo, pero esta estimación es tan buena como los datos que utilizamos para calcularla. Aunque evaluamos modelos en un conjunto de pruebas distinto del que se entrenó, ese conjunto de pruebas se sigue extrayendo de los ejemplos anotados por los usuarios. Si esos datos no son representativos de la tarea de destino, nuestra métrica puede ser engañosa.
Para el ejemplo bancario, imagina que solo anotamos los correos electrónicos urgentes enviados los lunes y los correos electrónicos generados automáticamente enviados los viernes. Un modelo entrenado en estos ejemplos podría predecir perfectamente las etiquetas solo desde el día en que se envió el correo electrónico.
La precisión media del modelo sería alta, ya que identifica un patrón que siempre funciona en los datos anotados por el usuario. Sin embargo, los correos electrónicos urgentes y autogenerados pueden enviarse cualquier día. En los correos electrónicos activos, el patrón no funcionaba y el modelo funcionaba mal.
Por eso, cuando puntuamos modelos en Communications Mining, no solo devolvemos valores de precisión, recuperación y precisión media. En su lugar, calculamos una calificación de modelo.
Las clasificaciones de los modelos tienen en cuenta muchos factores de rendimiento diferentes, no solo la precisión media. Esta vista holística alivia los inconvenientes de utilizar una sola métrica, al tiempo que proporciona una retroalimentación clara del modelo. En una publicación futura, exploraremos las calificaciones de los modelos con más detalle y cómo se han utilizado para crear mejores modelos en menos tiempo.
-
La precisióny la recuperación miden con precisión el rendimiento de las etiquetas con diferentes frecuencias.
-
La precisión media mide el rendimiento del modelo sin necesidad de un umbral.
-
Ninguna métrica ofrece una imagen completa. Incluso la precisión y la recuperación tienen puntos ciegos cuando los datos de entrenamiento son deficientes o se recopilan de forma deficiente.