Communications Mining
Más reciente
False
Guía de usuario de Communications Mining
Last updated 2 de jul. de 2024

¿Cómo funciona la validación?

Permisos de usuario necesarios: 'Ver fuentes' Y 'Ver etiquetas'.

Within Validation, the platform evaluates the performance of both the label and general field models associated with a dataset.

Específicamente para el modelo de etiqueta, calcula una 'Calificación del modelo ' general probando una serie de factores de rendimiento diferentes, que incluyen:

  • Qué tan bien es capaz de predecir cada etiqueta en la taxonomía, utilizando un subconjunto de datos de entrenamiento dentro de ese conjunto de datos
  • Qué tan bien cubierto está el conjunto de datos en su conjunto por las predicciones de etiquetas informativas

  • Qué tan equilibrados están los datos de entrenamiento, en términos de cómo se han asignado y qué tan bien representan el conjunto de datos en su conjunto

¿Cómo evalúa el rendimiento de las etiquetas?

Para evaluar qué tan bien puede predecir cada etiqueta, la plataforma primero divide los mensajes revisados (es decir, anotados) en el conjunto de datos en dos grupos; un conjunto mayoritario de datos de entrenamiento y un conjunto minoritario de datos de prueba.

En la siguiente imagen, los puntos de colores representan los mensajes anotados dentro de un conjunto de datos. Esta división está determinada por el ID del mensaje cuando los mensajes se añaden al conjunto de datos, y permanece constante a lo largo de la vida del conjunto de datos.



A continuación, la plataforma se entrena a sí misma utilizando solo el conjunto de entrenamiento como datos de entrenamiento.

Basándose en este entrenamiento, intenta predecir qué etiquetas deben aplicarse a los mensajes en el conjunto de prueba y evalúa los resultados tanto para la precisión como para la recuperación frente a las etiquetas reales que se aplicaron por un usuario humano.

Además de este proceso, la plataforma también tiene en cuenta cómo se asignaron las etiquetas , es decir, qué modos de entrenamiento se utilizaron al aplicar las etiquetas, para comprender si se han anotado de forma sesgada o equilibrada.

Luego, la validación publica estadísticas en vivo sobre el rendimiento de las etiquetas para la última versión del modelo, pero también puedes ver las estadísticas de rendimiento históricas para las versiones del modelo previamente ancladas.

¿Cómo evalúa la cobertura?

Para comprender qué tan bien tu modelo cubre tus datos, la plataforma analiza todos los datos no revisados en el conjunto de datos y las predicciones que la plataforma ha hecho para cada uno de esos mensajes no revisados.

A continuación, evalúa la proporción del total de mensajes que tienen al menos una etiqueta informativa prevista.

Las "etiquetas informativas " son aquellas etiquetas que la plataforma entiende que son útiles como etiquetas independientes, al observar la frecuencia con la que se asignan con otras etiquetas. Etiquetas que siempre se asignan con otra etiqueta, por ejemplo las etiquetas principales que nunca se asignan por sí solas o "Urgente" si siempre se asigna con otra etiqueta, se ponderan a la baja cuando se calcula la puntuación.

¿Cómo evalúa el equilibrio?

Cuando la plataforma evalúa el equilibrio de tu modelo, busca esencialmente un sesgo de anotación que pueda causar un desequilibrio entre los datos de entrenamiento y el conjunto de datos en su conjunto.

Para ello, utiliza un modelo de sesgo de anotación que compara los datos revisados y no revisados para garantizar que los datos anotados sean representativos de todo el conjunto de datos. Si los datos no son representativos, las medidas de rendimiento del modelo pueden ser engañosas y potencialmente poco fiables.

El sesgo de anotación suele ser el resultado de un desequilibrio de los modos de entrenamiento utilizados para asignar etiquetas, especialmente si se utiliza demasiada 'búsqueda de texto' y no suficiente 'Aleatorio'.

El modo de entrenamiento 'Reequilibrar ' muestra los mensajes que están infrarrepresentados en el conjunto revisado. Anotar ejemplos en este modo ayudará a abordar rápidamente cualquier desequilibrio en el conjunto de datos.

¿Cuándo ocurre el proceso de validación?

Cada vez que completas algún entrenamiento dentro de un conjunto de datos, el modelo se actualiza y proporciona nuevas predicciones en cada mensaje. Paralelamente, también vuelve a evaluar el rendimiento del modelo. Esto significa que, cuando las nuevas predicciones estén listas, también deberían estar disponibles las nuevas estadísticas de validación (aunque a veces un proceso puede tardar más que otro), incluido el último archivo .

Ten en cuenta: la plataforma siempre te mostrará por defecto las últimas estadísticas de validación que se han calculado, y te indicará si aún no se han terminado de calcular nuevas estadísticas.

Was this page helpful?

Obtén la ayuda que necesitas
RPA para el aprendizaje - Cursos de automatización
Foro de la comunidad UiPath
Logotipo blanco de UiPath
Confianza y seguridad
© 2005-2024 UiPath. All rights reserved.