Communications Mining
Más reciente
False
Imagen de fondo del banner
Guía de usuario de Communications Mining
Última actualización 18 de abr. de 2024

Mejorar el equilibrio y usar 'Reequilibrar'

Permisos de usuario necesarios: 'Ver fuentes' Y 'Revisar y etiquetar.

¿Qué es el "equilibrio" y por qué es importante?

La calificación de Equilibrio presentada en la Calificación del modelo en Validación es un reflejo de cuán equilibrados están los datos revisados (es decir, los datos de entrenamiento) en un conjunto de datos, en comparación con el conjunto de datos en su conjunto.

Tiene en cuenta una serie de factores contribuyentes (como se muestra a continuación), que incluyen:

  • La similitud de los datos revisados con los datos no revisados (mostrado como una puntuación porcentual)
  • La proporción de datos revisados que se han revisado mediante muestreo aleatorio (es decir, modo 'Aleatorio')
  • La proporción de datos que se han revisado utilizando 'Reequilibrar ' (ver más abajo para más detalles)
  • La proporción de datos que se han revisado al utilizar la "búsqueda de texto "
Un ejemplo de componente de "equilibrio" de la calificación del modelo

Es importante que la proporción de datos revisados mediante muestreo aleatorio sea alta (idealmente más del 20 %) y la proporción de datos revisados etiquetados mediante búsqueda sea baja.

Sin embargo, la calificación de equilibrio está más influenciada por la puntuación de similitud que mide la similitud de los datos no revisados con los datos revisados.

Esta puntuación de similitud se calcula mediante un modelo de sesgo de etiquetado patentado que compara los datos revisados y no revisados para garantizar que los datos etiquetados sean representativos de todo el conjunto de datos. Si los datos no son representativos y se han etiquetado de forma sesgada, las medidas de rendimiento del modelo pueden ser engañosas y potencialmente poco fiables.

El sesgo de etiquetado en la plataforma suele ser el resultado de un desequilibrio de los modos de entrenamiento utilizados para asignar etiquetas, especialmente si se utiliza demasiada 'búsqueda de texto' y no suficiente modo 'Aleatorio'. Sin embargo, aún puede ocurrir, incluso si se utiliza una alta proporción del modo 'Aleatorio'. El entrenamiento de etiquetas específicas en modos como 'Enseñar etiqueta' puede conducir naturalmente a un ligero desequilibrio en los datos revisados. La plataforma te ayuda a identificar cuándo sucede esto y te ayuda a abordarlo de una manera rápida y eficaz.

¿Qué es 'Reequilibrar' y cómo se utiliza?

'Reequilibrar' es un modo de entrenamiento que ayuda a reducir los posibles desequilibrios en la forma en que se ha etiquetado un modelo, es decir, el sesgo de etiquetado, lo que significa que los datos revisados no son tan representativos de todo el conjunto de datos como podrían ser.

El modo de entrenamiento 'Reequilibrar ' muestra los mensajes que están infrarrepresentados en el conjunto revisado.

Etiquetar los mensajes (como lo harías en cualquier otro modo de entrenamiento) presentado en este modo ayudará a abordar los desequilibrios en los datos de entrenamiento y mejorar la puntuación de equilibrio del modelo.

Sugerencia: Reequilibrar suele ser más eficaz cuando se utiliza poco y con frecuencia. Etiquetar un pequeño número de mensajes (entre 10 y 20) en este modo y permitir que el modelo se vuelva a entrenar antes de actualizar y etiquetar más ejemplos es la mejor manera de maximizar el impacto que tendrá en la puntuación de equilibrio del modelo.

El modo de entrenamiento 'Reequilibrar' en un conjunto de datos de demostración

Si descubres que tienes una puntuación de similitud alta pero la calificación de Equilibrio sigue siendo baja, es probable que se deba a que no has etiquetado suficientes datos de entrenamiento en el modo 'Aleatorio'. Si este es el caso, la plataforma sugerirá etiquetar una selección aleatoria de mensajes como la acción prioritaria recomendada. El entrenamiento en este modo da a la plataforma la confianza adicional de que el conjunto de datos no ha sido etiquetado de forma sesgada y de que los datos de entrenamiento son una muestra representativa.

¿Cuánto 'Reequilibrar' debo usar?

Debes seguir utilizando "Reequilibrar" de forma iterativa para mejorar la puntuación de similitud de tu modelo, lo que a su vez aumentará tu calificación de "Equilibrio ".

Una vez que esto alcance una calificación de 'Bueno ' en Validación, depende de ti cuánto más deseas aumentar la puntuación de similitud antes de detener el entrenamiento en 'Reequilibrar'.

Puedes tratar de optimizar esta calificación tanto como sea posible, pero el entrenamiento continuo siempre será un caso de rendimientos decrecientes. Una calificación de 'Bueno ' debería considerarse un nivel de rendimiento aceptable para un buen modelo.

Was this page helpful?

Obtén la ayuda que necesitas
RPA para el aprendizaje - Cursos de automatización
Foro de la comunidad UiPath
Logotipo blanco de UiPath
Confianza y seguridad
© 2005-2024 UiPath. All rights reserved.