- Primeros pasos
- Equilibrio
- Clústeres
- Deriva del concepto
- Cobertura
- Conjuntos de datos
- Campos generales (anteriormente entidades)
- Etiquetas (predicciones, niveles de confianza, jerarquía, etc.)
- Modelos
- Transmisiones
- Clasificación del modelo
- Proyectos
- Precisión
- Recordar
- Mensajes revisados y no revisados
- Fuentes
- Taxonomías
- Formación
- Predicciones positivas y negativas verdaderas y falsas
- Validación
- Mensajes
- Administración
- Gestionar fuentes y conjuntos de datos
- Comprender la estructura de datos y los permisos
- Crear o eliminar un origen de datos en la GUI
- Cargar un archivo CSV en un origen
- Preparando datos para cargar archivos .CSV
- Crear un nuevo conjunto de datos
- Fuentes y conjuntos de datos multilingües
- Habilitar sentimiento en un conjunto de datos
- Modificar la configuración de un conjunto de datos
- Eliminar mensajes a través de la IU
- Eliminar un conjunto de datos
- Exportar un conjunto de datos
- Uso de integraciones de Exchange
- Entrenamiento y mantenimiento de modelos
- Comprender las etiquetas, los campos generales y los metadatos
- Jerarquía de etiquetas y mejores prácticas
- Definición de los objetivos de taxonomía
- Casos de uso de análisis frente a automatización
- Convertir tus objetivos en etiquetas
- Crear tu estructura de taxonomía
- Mejores prácticas de diseño de taxonomía
- Importar tu taxonomía
- Descripción general del proceso de entrenamiento del modelo
- Anotación generativa (NUEVO)
- Estado de Dastaset
- Entrenamiento de modelos y mejores prácticas de anotación
- Entrenamiento con análisis de sentimiento de etiqueta habilitado
- Comprender los requisitos de datos
- Entrenamiento
- Introducción a Refinar
- Explicación de la precisión y la recuperación
- Precisión y recuperación
- ¿Cómo funciona la validación?
- Comprender y mejorar el rendimiento del modelo
- ¿Por qué una etiqueta puede tener una precisión media baja?
- Entrenamiento utilizando la etiqueta Comprobar y la etiqueta Perdida
- Entrenamiento mediante la etiqueta de aprendizaje (refinar)
- Entrenamiento mediante Buscar (Refinar)
- Comprender y aumentar la cobertura
- Mejorar el equilibrio y utilizar Reequilibrar
- Cuándo dejar de entrenar tu modelo
- Uso de campos generales
- Extracción generativa
- Uso de análisis y supervisión
- Minería de automatizaciones y comunicaciones
- Información de licencia
- Preguntas frecuentes y más
Guía de usuario de Communications Mining
Mejorar el equilibrio y utilizar Reequilibrar
Permisos de usuario necesarios: 'Ver fuentes' Y 'Revisar y anotar.
¿Qué es el equilibrio y por qué es importante?
La calificación de Equilibrio presentada en la Calificación del modelo en Validación es un reflejo de cuán equilibrados están los datos revisados (es decir, los datos de entrenamiento) en un conjunto de datos, en comparación con el conjunto de datos en su conjunto.
Tiene en cuenta una serie de factores contribuyentes (como se muestra a continuación), que incluyen:
- La similitud de los datos revisados con los datos no revisados (mostrado como una puntuación porcentual)
- La proporción de datos revisados que se han revisado mediante muestreo aleatorio (es decir, modo 'Aleatorio')
- La proporción de datos que se han revisado utilizando 'Reequilibrar ' (ver más abajo para más detalles)
- La proporción de datos que se han revisado al utilizar la "búsqueda de texto "
Es importante que la proporción de datos revisados mediante muestreo aleatorio sea alta (idealmente más del 20 %) y la proporción de datos revisados anotados mediante la búsqueda sea baja.
Sin embargo, la calificación de equilibrio está más influenciada por la puntuación de similitud que mide la similitud de los datos no revisados con los datos revisados.
Esta puntuación de similitud se calcula mediante un modelo de sesgo de anotación patentado que compara los datos revisados y no revisados para garantizar que los datos anotados sean representativos de todo el conjunto de datos. Si los datos no son representativos y se han anotado de forma sesgada, las medidas de rendimiento del modelo pueden ser engañosas y potencialmente poco fiables.
El sesgo de anotación en la plataforma suele ser el resultado de un desequilibrio de los modos de entrenamiento utilizados para asignar etiquetas, especialmente si se utiliza demasiada 'búsqueda de texto' y no suficiente modo 'Aleatorio'. Sin embargo, aún puede ocurrir, incluso si se utiliza una alta proporción del modo 'Aleatorio'. El entrenamiento de etiquetas específicas en modos como 'Enseñar etiqueta' puede conducir naturalmente a un ligero desequilibrio en los datos revisados. La plataforma te ayuda a identificar cuándo sucede esto y te ayuda a abordarlo de una manera rápida y eficaz.
¿Qué es 'Reequilibrar' y cómo se utiliza?
'Reequilibrar' es un modo de entrenamiento que ayuda a reducir los posibles desequilibrios en la forma en que se ha anotado un modelo, es decir, el sesgo de anotación, lo que significa que los datos revisados no son tan representativos de todo el conjunto de datos como podrían ser.
El modo de entrenamiento 'Reequilibrar ' muestra los mensajes que están infrarrepresentados en el conjunto revisado.
Anotar los mensajes (como lo harías en cualquier otro modo de entrenamiento) presentados en este modo ayudará a corregir los desequilibrios en los datos de entrenamiento y mejorar la puntuación de equilibrio del modelo.
Sugerencia: Reequilibrar suele ser más eficaz cuando se utiliza poco y con frecuencia. Anotar un pequeño número de mensajes (entre 10 y 20) en este modo y permitir que el modelo se vuelva a entrenar antes de actualizar y anotar más ejemplos es la mejor manera de maximizar el impacto que tendrá en la puntuación de equilibrio del modelo.
Si descubres que tienes una puntuación de similitud alta pero la calificación de Equilibrio sigue siendo baja, es probable que se deba a que no has anotado suficientes datos de entrenamiento en el modo 'Aleatorio'. Si este es el caso, la plataforma sugerirá anotar una selección aleatoria de mensajes como acción prioritaria recomendada. El entrenamiento en este modo da a la plataforma la confianza adicional de que el conjunto de datos no ha sido anotado de forma sesgada y de que los datos de entrenamiento son una muestra representativa.
¿Cuánto 'Reequilibrar' debo usar?
Debes seguir utilizando "Reequilibrar" de forma iterativa para mejorar la puntuación de similitud de tu modelo, lo que a su vez aumentará tu calificación de "Equilibrio ".
Una vez que esto alcance una calificación de 'Bueno ' en Validación, depende de ti cuánto más deseas aumentar la puntuación de similitud antes de detener el entrenamiento en 'Reequilibrar'.
Puedes tratar de optimizar esta calificación tanto como sea posible, pero el entrenamiento continuo siempre será un caso de rendimientos decrecientes. Una calificación de 'Bueno ' debería considerarse un nivel de rendimiento aceptable para un buen modelo.