communications-mining
latest
false
Importante :
Este contenido se ha traducido mediante traducción automática.
Guía de usuario de Communications Mining
Last updated 3 de oct. de 2024

Mejorar el equilibrio y utilizar Reequilibrar

Permisos de usuario necesarios: 'Ver fuentes' Y 'Revisar y anotar.

¿Qué es el equilibrio y por qué es importante?

La calificación de Equilibrio presentada en la Calificación del modelo en Validación es un reflejo de cuán equilibrados están los datos revisados (es decir, los datos de entrenamiento) en un conjunto de datos, en comparación con el conjunto de datos en su conjunto.

Tiene en cuenta una serie de factores contribuyentes (como se muestra a continuación), que incluyen:

  • La similitud de los datos revisados con los datos no revisados (mostrado como una puntuación porcentual)
  • La proporción de datos revisados que se han revisado mediante muestreo aleatorio (es decir, modo 'Aleatorio')
  • La proporción de datos que se han revisado utilizando 'Reequilibrar ' (ver más abajo para más detalles)
  • La proporción de datos que se han revisado al utilizar la "búsqueda de texto "
Un ejemplo de componente de "equilibrio" de la calificación del modelo

Es importante que la proporción de datos revisados mediante muestreo aleatorio sea alta (idealmente más del 20 %) y la proporción de datos revisados anotados mediante la búsqueda sea baja.

Sin embargo, la calificación de equilibrio está más influenciada por la puntuación de similitud que mide la similitud de los datos no revisados con los datos revisados.

Esta puntuación de similitud se calcula mediante un modelo de sesgo de anotación patentado que compara los datos revisados y no revisados para garantizar que los datos anotados sean representativos de todo el conjunto de datos. Si los datos no son representativos y se han anotado de forma sesgada, las medidas de rendimiento del modelo pueden ser engañosas y potencialmente poco fiables.

El sesgo de anotación en la plataforma suele ser el resultado de un desequilibrio de los modos de entrenamiento utilizados para asignar etiquetas, especialmente si se utiliza demasiada 'búsqueda de texto' y no suficiente modo 'Aleatorio'. Sin embargo, aún puede ocurrir, incluso si se utiliza una alta proporción del modo 'Aleatorio'. El entrenamiento de etiquetas específicas en modos como 'Enseñar etiqueta' puede conducir naturalmente a un ligero desequilibrio en los datos revisados. La plataforma te ayuda a identificar cuándo sucede esto y te ayuda a abordarlo de una manera rápida y eficaz.

¿Qué es 'Reequilibrar' y cómo se utiliza?

'Reequilibrar' es un modo de entrenamiento que ayuda a reducir los posibles desequilibrios en la forma en que se ha anotado un modelo, es decir, el sesgo de anotación, lo que significa que los datos revisados no son tan representativos de todo el conjunto de datos como podrían ser.

El modo de entrenamiento 'Reequilibrar ' muestra los mensajes que están infrarrepresentados en el conjunto revisado.

Anotar los mensajes (como lo harías en cualquier otro modo de entrenamiento) presentados en este modo ayudará a corregir los desequilibrios en los datos de entrenamiento y mejorar la puntuación de equilibrio del modelo.

Sugerencia: Reequilibrar suele ser más eficaz cuando se utiliza poco y con frecuencia. Anotar un pequeño número de mensajes (entre 10 y 20) en este modo y permitir que el modelo se vuelva a entrenar antes de actualizar y anotar más ejemplos es la mejor manera de maximizar el impacto que tendrá en la puntuación de equilibrio del modelo.

El modo de entrenamiento 'Reequilibrar' en un conjunto de datos de demostración

Si descubres que tienes una puntuación de similitud alta pero la calificación de Equilibrio sigue siendo baja, es probable que se deba a que no has anotado suficientes datos de entrenamiento en el modo 'Aleatorio'. Si este es el caso, la plataforma sugerirá anotar una selección aleatoria de mensajes como acción prioritaria recomendada. El entrenamiento en este modo da a la plataforma la confianza adicional de que el conjunto de datos no ha sido anotado de forma sesgada y de que los datos de entrenamiento son una muestra representativa.

¿Cuánto 'Reequilibrar' debo usar?

Debes seguir utilizando "Reequilibrar" de forma iterativa para mejorar la puntuación de similitud de tu modelo, lo que a su vez aumentará tu calificación de "Equilibrio ".

Una vez que esto alcance una calificación de 'Bueno ' en Validación, depende de ti cuánto más deseas aumentar la puntuación de similitud antes de detener el entrenamiento en 'Reequilibrar'.

Puedes tratar de optimizar esta calificación tanto como sea posible, pero el entrenamiento continuo siempre será un caso de rendimientos decrecientes. Una calificación de 'Bueno ' debería considerarse un nivel de rendimiento aceptable para un buen modelo.

¿Te ha resultado útil esta página?

Obtén la ayuda que necesitas
RPA para el aprendizaje - Cursos de automatización
Foro de la comunidad UiPath
Uipath Logo White
Confianza y seguridad
© 2005-2024 UiPath. Todos los derechos reservados.