- Primeros pasos
- Equilibrio
- Clústeres
- Deriva del concepto
- Cobertura
- Conjuntos de datos
- Entidades
- Etiquetas (predicciones, niveles de confianza, jerarquía, etc.)
- Modelos
- Transmisiones
- Clasificación del modelo
- Proyectos
- Precisión
- Recordar
- Mensajes revisados y no revisados
- Fuentes
- Taxonomías
- Formación
- Predicciones positivas y negativas verdaderas y falsas
- Validación
- Mensajes
- Administración
- Administrar fuentes y conjuntos de datos
- Comprender la estructura de datos y los permisos
- Crear un origen de datos en la GUI
- Cargar un archivo CSV en un origen
- Crear un nuevo conjunto de datos
- Fuentes y conjuntos de datos multilingües
- Habilitar sentimiento en un conjunto de datos
- Modificar la configuración de un conjunto de datos
- Eliminar mensajes a través de la IU
- Eliminar un conjunto de datos
- Exportar un conjunto de datos
- Uso de integraciones de Exchange
- Preparar datos para cargar archivos .CSV
- Entrenamiento y mantenimiento de modelos
- Comprender las etiquetas, las entidades y los metadatos
- Jerarquía de etiquetas y mejores prácticas
- Definición de los objetivos de taxonomía
- Casos de uso de análisis frente a automatización
- Convertir tus objetivos en etiquetas
- Crear tu estructura de taxonomía
- Mejores prácticas de diseño de taxonomía
- Importar tu taxonomía
- Descripción general del proceso de entrenamiento del modelo
- Anotación generativa (NUEVO)
- Comprender el estado de tu conjunto de datos
- Mejores prácticas de entrenamiento y etiquetado de modelos
- Entrenamiento con análisis de sentimiento de etiqueta habilitado
- Entrenamiento
- Introducción a 'Perfeccionar'
- Explicación de la precisión y la recuperación
- Precisión y recuperación
- ¿Cómo funciona la validación?
- Comprender y mejorar el rendimiento del modelo
- ¿Por qué una etiqueta puede tener una precisión media baja?
- Entrenamiento utilizando 'Comprobar etiqueta' y 'Etiqueta perdida'
- Entrenamiento mediante la etiqueta de aprendizaje (refinar)
- Entrenamiento mediante Buscar (Refinar)
- Comprender y aumentar la cobertura
- Mejorar el equilibrio y usar 'Reequilibrar'
- Cuándo dejar de entrenar tu modelo
- Definir y configurar tus entidades
- Comprender las entidades
- ¿Qué entidades preentrenadas están disponibles?
- Habilitar, deshabilitar, actualizar y crear entidades
- Filtrado de entidades
- Revisar y aplicar entidades
- Validación para entidades
- Mejorar el rendimiento de la entidad
- Creación de entidades regex personalizadas
- Uso de análisis y supervisión
- Minería de automatizaciones y comunicaciones
- Preguntas frecuentes y más
Mejorar el equilibrio y usar 'Reequilibrar'
Permisos de usuario necesarios: 'Ver fuentes' Y 'Revisar y etiquetar.
¿Qué es el "equilibrio" y por qué es importante?
La calificación de Equilibrio presentada en la Calificación del modelo en Validación es un reflejo de cuán equilibrados están los datos revisados (es decir, los datos de entrenamiento) en un conjunto de datos, en comparación con el conjunto de datos en su conjunto.
Tiene en cuenta una serie de factores contribuyentes (como se muestra a continuación), que incluyen:
- La similitud de los datos revisados con los datos no revisados (mostrado como una puntuación porcentual)
- La proporción de datos revisados que se han revisado mediante muestreo aleatorio (es decir, modo 'Aleatorio')
- La proporción de datos que se han revisado utilizando 'Reequilibrar ' (ver más abajo para más detalles)
- La proporción de datos que se han revisado al utilizar la "búsqueda de texto "
Es importante que la proporción de datos revisados mediante muestreo aleatorio sea alta (idealmente más del 20 %) y la proporción de datos revisados etiquetados mediante búsqueda sea baja.
Sin embargo, la calificación de equilibrio está más influenciada por la puntuación de similitud que mide la similitud de los datos no revisados con los datos revisados.
Esta puntuación de similitud se calcula mediante un modelo de sesgo de etiquetado patentado que compara los datos revisados y no revisados para garantizar que los datos etiquetados sean representativos de todo el conjunto de datos. Si los datos no son representativos y se han etiquetado de forma sesgada, las medidas de rendimiento del modelo pueden ser engañosas y potencialmente poco fiables.
El sesgo de etiquetado en la plataforma suele ser el resultado de un desequilibrio de los modos de entrenamiento utilizados para asignar etiquetas, especialmente si se utiliza demasiada 'búsqueda de texto' y no suficiente modo 'Aleatorio'. Sin embargo, aún puede ocurrir, incluso si se utiliza una alta proporción del modo 'Aleatorio'. El entrenamiento de etiquetas específicas en modos como 'Enseñar etiqueta' puede conducir naturalmente a un ligero desequilibrio en los datos revisados. La plataforma te ayuda a identificar cuándo sucede esto y te ayuda a abordarlo de una manera rápida y eficaz.
¿Qué es 'Reequilibrar' y cómo se utiliza?
'Reequilibrar' es un modo de entrenamiento que ayuda a reducir los posibles desequilibrios en la forma en que se ha etiquetado un modelo, es decir, el sesgo de etiquetado, lo que significa que los datos revisados no son tan representativos de todo el conjunto de datos como podrían ser.
El modo de entrenamiento 'Reequilibrar ' muestra los mensajes que están infrarrepresentados en el conjunto revisado.
Etiquetar los mensajes (como lo harías en cualquier otro modo de entrenamiento) presentado en este modo ayudará a abordar los desequilibrios en los datos de entrenamiento y mejorar la puntuación de equilibrio del modelo.
Sugerencia: Reequilibrar suele ser más eficaz cuando se utiliza poco y con frecuencia. Etiquetar un pequeño número de mensajes (entre 10 y 20) en este modo y permitir que el modelo se vuelva a entrenar antes de actualizar y etiquetar más ejemplos es la mejor manera de maximizar el impacto que tendrá en la puntuación de equilibrio del modelo.
Si descubres que tienes una puntuación de similitud alta pero la calificación de Equilibrio sigue siendo baja, es probable que se deba a que no has etiquetado suficientes datos de entrenamiento en el modo 'Aleatorio'. Si este es el caso, la plataforma sugerirá etiquetar una selección aleatoria de mensajes como la acción prioritaria recomendada. El entrenamiento en este modo da a la plataforma la confianza adicional de que el conjunto de datos no ha sido etiquetado de forma sesgada y de que los datos de entrenamiento son una muestra representativa.
¿Cuánto 'Reequilibrar' debo usar?
Debes seguir utilizando "Reequilibrar" de forma iterativa para mejorar la puntuación de similitud de tu modelo, lo que a su vez aumentará tu calificación de "Equilibrio ".
Una vez que esto alcance una calificación de 'Bueno ' en Validación, depende de ti cuánto más deseas aumentar la puntuación de similitud antes de detener el entrenamiento en 'Reequilibrar'.
Puedes tratar de optimizar esta calificación tanto como sea posible, pero el entrenamiento continuo siempre será un caso de rendimientos decrecientes. Una calificación de 'Bueno ' debería considerarse un nivel de rendimiento aceptable para un buen modelo.