communications-mining

latest

false

Importante :

Este contenido se ha traducido mediante traducción automática.

Guía para desarrolladores de Communications Mining

Última actualización 20 de dic. de 2024

Todo está en los números: evaluar el rendimiento del modelo con métricas

Al crear y entrenar un modelo de aprendizaje automático, es esencial comprender el rendimiento. Dependiendo de los datos de entrenamiento y la tarea, incluso el modelo más avanzado puede producir predicciones incorrectas, lo que da lugar a análisis engañosos o flujos de automatización defectuosos.

Vadear manualmente los ejemplos para comprobar las predicciones del modelo no es práctico, especialmente para conjuntos de datos con millones de puntos de datos. En su lugar, Communications Mining calcula y muestra continuamente múltiples métricas para ayudar a analizar modelos y detectar fallos.

Sin embargo, en algunas condiciones, las métricas pueden comportarse de forma inesperada. En esta publicación de blog analizamos algunos de los problemas que surgen al utilizar métricas, y algunas de las soluciones que utiliza Communications Mining para simplificar el proceso.

Communications Mining en acción

CommunicationsMining permite a los usuarios crear modelos de aprendizaje automático personalizados para los datos de comunicaciones. Para entender cómo utilizamos las métricas durante este proceso, es útil imaginar un caso de uso específico.

Considere un buzón de correo compartido para un banco, que puede recibir miles de correos electrónicos cada día. Communications Mining se utiliza para clasificar automáticamente estos correos electrónicos para ayudar a los empleados que utilizan el buzón a trabajar de forma más eficiente.

En un caso de uso real, los expertos en la materia del buzón crearían cientos de etiquetas para rastrear y automatizar varios flujos de trabajo. Para nuestros propósitos, consideraremos un caso simplificado

Correos electrónicos urgentes. Estos deben detectarse y marcarse en los clientes de correo electrónico de los empleados.
Correos electrónicos generados automáticamente. Estos deben detectarse y moverse a una carpeta de archivo para mantener la bandeja de entrada despejada.

El usuario crea etiquetas Urgent y Auto Generated para estas tareas y anota algunos correos electrónicos de ejemplo. Communications Mining entrena automáticamente un modelo ML que predice qué etiquetas se aplican a un correo electrónico. Este modelo se utiliza para automatizar las tareas de clasificación de correo electrónico para datos en vivo.

En este contexto, queremos una métrica que indique lo bueno que es el modelo para reconocer estas dos etiquetas.

Los correos electrónicos con la etiqueta Generado automáticamente no contienen información útil y se eliminarán del buzón para mejorar la eficiencia docs image

Los correos electrónicos con la etiqueta Urgente se muestran a los usuarios y se priorizan para una respuesta rápida docs image

Comparar predicciones

Enel nivel más bajo, las métricas comparan las predicciones de las etiquetas con las respuestas correctas, en forma de anotaciones de etiquetas Sí/No creadas por los usuarios.

Nota: CONFIANZA DEL MODELO

Los modelos de Communications Mining no proporcionan predicciones binarias (sí/no) sobre la presencia de etiquetas. En su lugar, devuelven un número entre 00 y 11. Esto representa la confianza del modelo en que se aplica una etiqueta.

Los valores de confianza del modelo se convierten en predicciones de etiquetas binarias utilizando un umbral. Se trata simplemente de un número entre 00 y 11 que divide los valores de confianza de una etiqueta.

Por encima del umbral se predice que se aplicará la etiqueta (un ejemplo "positivo").
Por debajo del umbral, no se prevé que se aplique la etiqueta (un ejemplo "negativo").

Utilizando anotaciones, predicciones de etiquetas y un umbral, podemos dividir un conjunto de ejemplos en cuatro grupos distintos

Verdaderos positivos (TP). El modelo predice una etiqueta y se aplica la etiqueta.
Falsos positivos (FP). El modelo predice una etiqueta y la etiqueta no se aplica.
Falsos negativos (FN). El modelo no predice una etiqueta y la etiqueta se aplica.
Verdaderos negativos (TN). El modelo no predice una etiqueta y la etiqueta no se aplica.

Cambiar el umbral de una etiqueta afectará a los correos electrónicos que se incluyen en cada uno de estos cuatro grupos, que actúan como punto de partida para muchas métricas.

Precisión

Podríamos tener la tentación de fijarnos en la precisión de nuestro modelo.

De todas las predicciones del modelo, qué fracción es correcta.

Esto parece razonable, y la precisión a menudo se considera la métrica de referencia para el rendimiento de la IA. Sin embargo, en algunos casos la precisión puede ser engañosa.

Los correos electrónicos urgentes pueden ser raros en el buzón, ya que solo 1 de cada 25 correos electrónicos pertenece realmente a esta clase. Para un modelo incorrecto que nunca predice la etiqueta Urgent para ningún correo electrónico, obtenemos una puntuación de precisión de:

Esta puntuación es alta, pero nuestro modelo está funcionando mal. La precisión puede sobrestimar el rendimiento en tareas con etiquetas raras como Urgent y Auto Generated.

Precisión y recuperación

En lugar de precisión, podemos utilizar dos valores conocidos como precisión y recuperación para dar una mejor medida del rendimiento del modelo.

De los comentarios que el modelo predice que tienen la etiqueta, qué fracción tiene realmente esa etiqueta.

De los comentarios que realmente tienen la etiqueta, ¿qué fracción predice el modelo que la tiene?

Utilizando el mismo ejemplo de 1 etiqueta Urgent en 25 comentarios, nuestro modelo obtendría valores de precisión y recuperación de 00. Esto pone de relieve el bajo rendimiento de este modelo.

Estas métricas funcionan mejor en etiquetas que se producen con diferentes frecuencias, lo que se conoce como desequilibrio de clases. Los temas en los datos de comunicaciones rara vez se producen a la misma velocidad, por lo que es importante que las métricas de Communications Mining tengan esto en cuenta.

Precisión, recuperación y exactitud para un conjunto de predicciones del modelo a medida que se varía el umbral docs image

Diferentes etiquetas, diferentes objetivos

Paraun umbral dado, podemos calcular la precisión y recuperar los valores. Sin embargo, en realidad existe un compromiso entre estas dos métricas

Alta precisión. Requiere pocos falsos positivos. Esto significa un umbral alto, por lo que solo los ejemplos con una confianza del modelo cercana a 1 son "positivos".
Alto recuerdo. Requiere pocos falsos negativos. Esto significa un umbral bajo, por lo que solo los ejemplos con una confianza del modelo cercana a 0 son "negativos".

Es fácil obtener una buena puntuación en precisión o recuperación (estableciendo umbrales cercanos a 00 o cercanos a 11 respectivamente). Establecer un umbral representa un equilibrio entre los dos, y la mejor compensación depende de para qué se utiliza la etiqueta.

Costes de equilibrio

Para el ejemplo bancario, es mucho peor tratar un correo electrónico con contenido útil como autogenerado y archivarlo incorrectamente que dejar algunos correos electrónicos autogenerados en el buzón. Esto significa que la etiqueta Auto Generated debe tener alta precisión (pocos falsos positivos).

Por otro lado, el modelo no debería perder los correos electrónicos urgentes, pero es aceptable que algunos correos electrónicos no urgentes tengan esta etiqueta. Esto significa que la etiqueta Urgent debe tener una alta recuperación (pocos falsos negativos).

El umbral óptimo para una etiqueta minimiza el coste cuando el modelo comete un error.

En aras del argumento, supongamos que al banco le cuesta 5 £ por cada correo electrónico urgente perdido (falso negativo) y 10 £ por cada correo electrónico marcado erróneamente como autogenerado (falso positivo). El banco también paga a un empleado 20 libras esterlinas por hora para eliminar correos electrónicos incorrectos urgentes y perdidos autogenerados a razón de 100 por hora.

Para un buzón que recibe 1000 correos electrónicos al día, los umbrales pueden ajustarse para minimizar el coste esperado por día.

Coste diario previsto para los correos electrónicos generados automáticamente y urgentes, ya que el umbral varía docs image

Puntuación sin umbrales

La precisióny la recuperación necesitan un umbral para cada etiqueta. Establecer estos umbrales es lento, especialmente para grandes conjuntos de datos que pueden tener cientos de etiquetas. Una métrica que funciona sin un umbral óptimo es más útil.

Para ello, calculamos la precisión y la recuperación para un rango de umbrales. Estos valores se trazan como una curva de precisión/recuperación, que utilizamos para comprobar el rendimiento del modelo.

Métricas para la etiqueta Urgente. El modelo tiene una precisión del 90 % y una recuperación del 92 % con un umbral del 19,6 %. La curva de precisión/recuperación para esta etiqueta se muestra a la izquierda docs image

Modelos perfectos

Considere un modelo hipotético "perfecto" que predice cada etiqueta correctamente. Habrá un umbral en el que este modelo tenga un 100 % de precisión y recuperación.

Por encima de este umbral, algunos positivos se identificarán incorrectamente como negativos. Esto reduce la precisión, pero mantiene la recuperación al 100 %. Del mismo modo, reducir el umbral etiquetará incorrectamente los negativos como positivos. Esto reduce la recuperación, pero mantiene la precisión al 100 %.

Según esta lógica, la curva de precisión/recuperación para un modelo perfecto es una forma de caja con la esquina en el punto (100%,100%)(100%,100%). Cualquier modelo imperfecto tendrá una curva por debajo de este modelo perfecto.

Esto significa que mejorar un modelo es lo mismo que aumentar el área bajo la curva de precisión/recuperación.

Precisión media

Esto nos lleva a nuestra métrica final: Precisión media.

Figura 1. El área bajo la curva de precisión/recuperación docs image

Cuanto más se acerque este valor al 100 %, mejor será el modelo.

Aunque permitimos que los usuarios elijan umbrales y exploren el equilibrio precisión/recuperación, la precisión media es la métrica principal que utilizamos para puntuar los modelos en Communications Mining. Funciona bien en promedio, especialmente en los casos en que los falsos positivos y los falsos negativos tienen costes similares. Debido a que utiliza precisión y recuperación, es robusto a los desequilibrios de clase, pero los usuarios no necesitan establecer un umbral para calcularlo.

Informamos de esta métrica de dos maneras en la página Validación

Precisión media. El rendimiento de una etiqueta individual, informado para cada etiqueta.
Precisión media media. La precisión media de cada etiqueta, promediada en todas las etiquetas. Esto mide el rendimiento de todas las etiquetas en el conjunto de datos.

La precisión y la recuperación no lo son todo

Utilizamosmétricas para estimar el rendimiento del modelo, pero esta estimación es tan buena como los datos que utilizamos para calcularla. Aunque evaluamos modelos en un conjunto de pruebas distinto del que se entrenó, ese conjunto de pruebas se sigue extrayendo de los ejemplos anotados por los usuarios. Si esos datos no son representativos de la tarea de destino, nuestra métrica puede ser engañosa.

Para el ejemplo bancario, imagina que solo anotamos los correos electrónicos urgentes enviados los lunes y los correos electrónicos generados automáticamente enviados los viernes. Un modelo entrenado en estos ejemplos podría predecir perfectamente las etiquetas solo desde el día en que se envió el correo electrónico.

La precisión media del modelo sería alta, ya que identifica un patrón que siempre funciona en los datos anotados por el usuario. Sin embargo, los correos electrónicos urgentes y autogenerados pueden enviarse cualquier día. En los correos electrónicos activos, el patrón no funcionaba y el modelo funcionaba mal.

Por eso, cuando puntuamos modelos en Communications Mining, no solo devolvemos valores de precisión, recuperación y precisión media. En su lugar, calculamos una calificación de modelo.

Las clasificaciones de los modelos tienen en cuenta muchos factores de rendimiento diferentes, no solo la precisión media. Esta vista holística alivia los inconvenientes de utilizar una sola métrica, al tiempo que proporciona una retroalimentación clara del modelo. En una publicación futura, exploraremos las calificaciones de los modelos con más detalle y cómo se han utilizado para crear mejores modelos en menos tiempo.

Resumen

La precisióny la recuperación miden con precisión el rendimiento de las etiquetas con diferentes frecuencias.
La precisión media mide el rendimiento del modelo sin necesidad de un umbral.
Ninguna métrica ofrece una imagen completa. Incluso la precisión y la recuperación tienen puntos ciegos cuando los datos de entrenamiento son deficientes o se recopilan de forma deficiente.