communications-mining
latest
false
Importante :
Este contenido se ha traducido mediante traducción automática.
Guía de usuario de Communications Mining
Last updated 3 de oct. de 2024

Comprender y mejorar el rendimiento del modelo

Comprender el rendimiento general del modelo

El rendimiento general de un modelo de aprendizaje automático está determinado por una serie de factores contribuyentes, que deben considerarse en combinación entre sí. No es suficiente considerar solo si las etiquetas de un modelo tienen una precisión media alta, o solo observar qué parte de un conjunto de datos está cubierto por las predicciones por sí solo.

Para estar seguros de que un modelo es una representación real de un conjunto de datos, con predicciones de etiquetas precisas y fiables y una alta cobertura, evaluamos 4 factores principales (y aquí se explica cómo):

  • Todas las etiquetas : este factor evalúa el rendimiento medio de todas las etiquetas de la taxonomía
  • Etiquetas de bajo rendimiento: este factor evalúa el rendimiento del 10 % de las etiquetas que tienen los problemas de rendimiento más significativos o el estado general más bajo
  • Cobertura : este factor evalúa la proporción de mensajes que se prevé que tengan al menos una etiqueta informativa
  • Equilibrio : este factor evalúa si los datos revisados son un representante eficaz y equilibrado de todo el conjunto de datos

La plataforma combina su evaluación de estos 4 factores en una única" Valoración de modelo " patentada yfácil de entender . Esta calificación es la mejor medida del rendimiento de un modelo, ya que tiene en cuenta todos los factores más importantes en los que debe evaluarse un modelo de etiqueta, ponderados por su importancia relativa.

La calificación del modelo es una puntuación de 0 a 100, que equivale a una calificación de 'Pobre ' (0-49), 'Promedio ' (50-69), 'Bueno ' (70-89) o 'Excelente ' (90-89). 100).

La validación también proporciona un desglose de cada uno de estos factores : a cada factor se le asigna su propia calificación cualitativa, además de mostrar las métricas que contribuyen a esa calificación. Estos se analizan con más detalle a continuación.

Cada factor puede tener una contribución positiva o negativa a la Calificación del modelo, dependiendo de su rendimiento. Es muy posible que los modelos con calificaciones "Pobres " en cada factor tengan una calificación general de cero, especialmente cuando es muy temprano en el proceso de entrenamiento del modelo.

Ejemplo de calificación de modelo en validación en un conjunto de datos de demostración

Nota:

La clasificación del modelo es específica de las etiquetas y no tiene en cuenta el rendimiento de los campos generales. Sin embargo, la validación también proporciona métricas detalladas sobre el rendimiento de las predicciones generales de campo (consulta aquí).

El menú desplegable "Versión del modelo", situado encima de la clasificación del modelo, te permite ver todas las puntuaciones de validación en las versiones anteriores del modelo en un conjunto de datos determinado. También puedes priorizar o destacar las individuales para que aparezcan en la parte superior de la lista en el futuro. Esta herramienta puede ser útil para realizar un seguimiento y comparar el progreso a medida que construyes tu modelo.

El menú desplegable garantiza que no es necesario fijar una versión del modelo para ver las puntuaciones de validación. La fijación de una versión del modelo (consulta aquí) solo debe utilizarse para las versiones del modelo a las que quieras poder llamar en sentido descendente a través de la API (por ejemplo, para el enrutamiento automatizado).

El menú desplegable de la versión del modelo

Factores

La pestaña Factores en Validación (como se muestra arriba) ofrece un desglose de cada uno de los factores clave que se tienen en cuenta al calcular la Calificación del modelo.

Cada tarjeta de factor muestra:

  • La calificación del factor y una descripción cualitativa del mismo
  • Los contribuyentes , que son los diferentes componentes que contribuyen a la calificación de ese factor
  • Acciones recomendadas, enumeradas en orden de prioridad, que pueden ayudar a mejorar la calificación del factor

Todas las etiquetas

  • Este factor evalúa el rendimiento medio de todas las etiquetas de la taxonomía,
  • Se basa principalmente en la precisión media media (MAP) en todas las etiquetas, ponderada por la frecuencia con la que se asignan
  • También tiene en cuenta cuando hay etiquetas en la taxonomía que tienen advertencias de rendimiento rojas o ámbar
  • Las acciones recomendadas para este factor suelen estar diseñadas para aumentar la precisión media de etiquetas específicas o para eliminar sus advertencias de rendimiento

Etiquetas de bajo rendimiento

  • Este factor evalúa el rendimiento del 10 % de las etiquetas de la taxonomía que tienen los problemas de rendimiento más significativos o el estado general más bajo de la etiqueta (si no se devuelven advertencias)
  • Si incluso el 10 % inferior de tus etiquetas sigue funcionando muy bien, esta es una gran señal de que tu modelo está en buen estado
  • Esto depende del MAP de las etiquetas de menor rendimiento, así como de si estas etiquetas tienen advertencias de rendimiento significativas (por ejemplo, advertencias rojas o ámbar)
  • Las acciones recomendadas para este factor suelen estar diseñadas para aumentar la precisión media de etiquetas específicas de bajo rendimiento y eliminar cualquier otra advertencia de rendimiento individual

Cobertura

  • Este factor evalúa la proporción de mensajes que se prevé que tengan al menos una etiqueta informativa (consulta aquí para obtener más detalles)
  • Es muy importante que un modelo de buen rendimiento "cubra" la mayor parte posible del conjunto de datos con predicciones de etiquetas informativas
  • Las acciones recomendadas para este factor están diseñadas para ayudar a aumentar la cobertura del conjunto de datos. La mayoría de las veces se entrenará en modo 'Baja confianza '
  • Comprender y aumentar la cobertura de un conjunto de datos se trata en detalle aquí

Equilibrio

  • Este factor evalúa si los datos revisados son una representación eficaz y equilibrada de todo el conjunto de datos, y está diseñado para detectar posibles sesgos de anotación (consulta aquí para obtener más detalles)
  • Se basa en una 'puntuación de similitud ', que resulta de comparar los datos revisados con los datos no revisados en el conjunto de datos, así como de si se ha utilizado suficiente modo 'Aleatorio ' al anotar los datos
  • Es importante que los datos revisados en un conjunto de datos sean lo más similares posible a los datos no revisados, para que la plataforma pueda identificar de forma fiable tanto como sea posible.
  • Las acciones recomendadas para este factor están diseñadas para reducir cualquier posible sesgo de anotación y aumentar la puntuación de similitud de los datos revisados
  • Comprender y mejorar el equilibrio del conjunto de datos se trata en detalle aquí

Nota: la plataforma siempre intentará mostrar las siguientes mejores acciones recomendadas que podrían mejorar un factor, incluso si el factor está calificado como 'Bueno' o 'Excelente'. Esto es en caso de que quieras seguir optimizando el rendimiento de ese factor.

Métricas

La pestaña Métricas de la página Validación muestra algunas estadísticas de rendimiento promedio de las etiquetas, así como un gráfico que muestra la precisión promedio de cada etiqueta en comparación con el tamaño de su conjunto de entrenamiento. El gráfico también marca las etiquetas que tienen advertencias de rendimiento de color ámbar o rojo.

Pestaña Métricas de ejemplo en Validación para un conjunto de datos de demostración

Las estadísticas de rendimiento de la etiqueta que se muestran son:

Esencialmente, cuanto mayor sea tu puntuación MAP , mejor será el rendimiento general del modelo en lo que respecta a la precisión de sus predicciones, pero esto variará entre conjuntos de datos dependiendo del tipo de datos y los objetivos en los que hayas centrado tu taxonomía.

Sin embargo, MAP no es una buena medida de cobertura o equilibrio, y no debe confiarse únicamente en él para determinar si tu modelo es adecuado para el propósito. Para obtener más información sobre cómo entender y comprobar la cobertura de tu modelo, consulta aquí, y para comprobar y mejorar el equilibrio de tu modelo, consulta aquí.

Comprender el rendimiento de las etiquetas

El gráfico de rendimiento de la etiqueta que se muestra en la pestaña Métricas de la página Validación (ver arriba) ofrece una indicación visual inmediata del rendimiento de cada etiqueta individual.

Para que una etiqueta aparezca en este gráfico, debe tener al menos 20 ejemplos anclados presentes en el conjunto de entrenamiento utilizado por la plataforma durante la validación. Para garantizar que esto suceda, los usuarios deben asegurarse de proporcionar un mínimo de 25 (a menudo más) ejemplos anclados por etiqueta.

Cada etiqueta se trazará como uno de los tres colores, en función de la comprensión del modelo de cómo está funcionando la etiqueta. A continuación, explicamos lo que significan:

Indicadores de rendimiento de etiquetas

Indicadores de rendimiento de etiquetas:

  • Las etiquetas trazadas en azul en el gráfico tienen un nivel de rendimiento satisfactorio . Esto se basa en numerosos factores que contribuyen, incluido el número y la variedad de ejemplos, el sesgo de anotación y la precisión media para esa etiqueta.
  • Las etiquetas trazadas en ámbar tienen un rendimiento ligeramente inferior al satisfactorio . Pueden tener una precisión media relativamente baja, no tener suficientes ejemplos de entrenamiento o podrían haber sido anotados de forma sesgada. Estas etiquetas requieren un poco de entrenamiento/corrección para mejorar su rendimiento o para reducir el sesgo en la forma en que fueron entrenadas.
  • Las etiquetas trazadas en rojo son etiquetas de bajo rendimiento. Pueden tener una precisión media muy baja, no tener suficientes ejemplos de entrenamiento o estar muy sesgados en la forma en que se anotaron. Estas etiquetas pueden requerir mucho más entrenamiento/corrección para llevar su rendimiento a un nivel satisfactorio o para reducir significativamente el sesgo en la forma en que fueron entrenados.

Nota: verás que los indicadores de rendimiento ámbar y rojo aparecen en las barras de filtro de etiquetas en Explorar, Informes y Validación. Esto ayuda a notificarte rápidamente qué etiquetas necesitan ayuda, y también en qué predicciones de las etiquetas no se debe confiar (sin algún trabajo para mejorarlas) al utilizar las características de análisis.

Rendimiento de etiqueta individual

Los usuarios pueden seleccionar etiquetas individuales en la barra de filtro de etiquetas (o haciendo clic en el diagrama de la etiqueta en el gráfico "Todas las etiquetas") para ver las estadísticas de rendimiento de la etiqueta. La vista de etiqueta específica también mostrará cualquier advertencia de rendimiento y sugerencias de mejores acciones recomendadas para ayudar a mejorar su rendimiento.

La vista de etiqueta mostrará la precisión media de la etiqueta, así como su precisión frente a la recuperación en función de un umbral de confianza dado que los usuarios pueden ajustar para ver cómo cambia (consulta la última sección de este artículo para obtener más detalles).

Página de validación con una etiqueta específica seleccionada

Mejorar el modelo general y el rendimiento de las etiquetas individuales

Si tu modelo o una etiqueta específica tiene una advertencia de rendimiento, la plataforma recomienda la siguiente mejor acción que cree que ayudará a abordar esa advertencia. Esto será a través de una de las tarjetas de factores (como se muestra a continuación) o cuando selecciones una etiqueta específica de la taxonomía o el gráfico "Todas las etiquetas" (como se muestra arriba).

Ejemplo de tarjeta de factor que muestra las acciones recomendadas

Para algunas etiquetas que tienen una precisión media muy baja, puede que no siempre esté claro por qué tienen un mal rendimiento. En el siguiente artículo se analizan las posibles razones por las que una etiqueta puede tener una precisión media baja y cómo mejorarla. La plataforma siempre proporcionará las que crea que son las mejores acciones correctivas para mejorar la etiqueta, enumeradas en orden de prioridad.

Cuando no estás en la página Validación, las advertencias de rendimiento rojas y ámbar siguen apareciendo en el filtro de taxonomía en Explorar e Informes, por lo que pueden ser un indicador útil para comprobar Validación y ver las acciones correctivas recomendadas.

Las siguientes sugerencias de mejores acciones actúan como enlaces en los que puedes hacer clic para llevarte directamente a la vista de entrenamiento que sugiere la plataforma para mejorar el rendimiento de la etiqueta o reducir su sesgo. Las sugerencias se ordenan de forma inteligente con la acción de mayor prioridad para mejorar la etiqueta que aparece en primer lugar.

Estas son la herramienta más importante para ayudarte a comprender el rendimiento de tu modelo, y deben utilizarse regularmente como guías cuando se intenta mejorar el rendimiento de una etiqueta.

El siguiente artículo trata en detalle los motivos por los que una etiqueta puede tener una precisión media baja (aquí). Los últimos artículos de esta sección de la base de conocimientos también cubren los otros modos de entrenamiento que la plataforma puede sugerir para mejorar el rendimiento de tu modelo, que son 'Comprobar etiqueta ', 'Etiqueta perdida ' y 'Reequilibrar '.

Nota: si has seleccionado una versión de modelo anterior, seguirás viendo las advertencias y las acciones sugeridas, pero si pasas el ratón por encima del icono de información, una ventana emergente te advertirá de que estas estadísticas específicas no se pueden cambiar, ya que es una versión de modelo más reciente (en la que puedes trabajar).

Comprender el control deslizante de umbral de etiqueta

Nota: ajustar el control deslizante del umbral de confianza no afecta al modelo, solo te ofrece una representación visual de cómo se verían afectadas las predicciones para esa etiqueta si se seleccionara un determinado umbral de confianza. Esto puede ayudarte a seleccionar un umbral adecuado para las transmisiones o utilizar predicciones para la automatización posterior.

Para ajustar el umbral de confianza de una etiqueta, los usuarios pueden escribir un porcentaje en el cuadro o simplemente arrastrar el control deslizante a lo largo de la escala.

Anotar estadísticas de validación específicas

Observa cómo en la imagen anterior, el umbral de confianza para la etiqueta 'Cita > Motor' está establecido en 68,7 %, lo que da una precisión del 100 % y una recuperación del 85 %.

A continuación, en la siguiente imagen, el umbral de confianza se ha ajustado mediante el control deslizante al 17 %, lo que reduce la precisión al 84 %, pero aumenta la recuperación al 100 %.

Etiquetar gráficos de validación específicos

Para comprender mejor la relación entre precisión y recuperación, consulta aquí, y para comprender mejor cómo seleccionarías los umbrales que se utilizarán en las automatizaciones, consulta aquí.

¿Te ha resultado útil esta página?

Obtén la ayuda que necesitas
RPA para el aprendizaje - Cursos de automatización
Foro de la comunidad UiPath
Uipath Logo White
Confianza y seguridad
© 2005-2024 UiPath. Todos los derechos reservados.