- Primeros pasos
- Equilibrio
- Clústeres
- Deriva del concepto
- Cobertura
- Conjuntos de datos
- Entidades
- Etiquetas (predicciones, niveles de confianza, jerarquía, etc.)
- Modelos
- Transmisiones
- Clasificación del modelo
- Proyectos
- Precisión
- Recordar
- Mensajes revisados y no revisados
- Fuentes
- Taxonomías
- Formación
- Predicciones positivas y negativas verdaderas y falsas
- Validación
- Mensajes
- Administración
- Administrar fuentes y conjuntos de datos
- Comprender la estructura de datos y los permisos
- Crear un origen de datos en la GUI
- Cargar un archivo CSV en un origen
- Crear un nuevo conjunto de datos
- Fuentes y conjuntos de datos multilingües
- Habilitar sentimiento en un conjunto de datos
- Modificar la configuración de un conjunto de datos
- Eliminar mensajes a través de la IU
- Eliminar un conjunto de datos
- Exportar un conjunto de datos
- Uso de integraciones de Exchange
- Preparar datos para cargar archivos .CSV
- Entrenamiento y mantenimiento de modelos
- Comprender las etiquetas, las entidades y los metadatos
- Jerarquía de etiquetas y mejores prácticas
- Definición de los objetivos de taxonomía
- Casos de uso de análisis frente a automatización
- Convertir tus objetivos en etiquetas
- Crear tu estructura de taxonomía
- Mejores prácticas de diseño de taxonomía
- Importar tu taxonomía
- Descripción general del proceso de entrenamiento del modelo
- Anotación generativa (NUEVO)
- Comprender el estado de tu conjunto de datos
- Mejores prácticas de entrenamiento y etiquetado de modelos
- Entrenamiento con análisis de sentimiento de etiqueta habilitado
- Entrenamiento
- Introducción a 'Perfeccionar'
- Explicación de la precisión y la recuperación
- Precisión y recuperación
- ¿Cómo funciona la validación?
- Comprender y mejorar el rendimiento del modelo
- ¿Por qué una etiqueta puede tener una precisión media baja?
- Entrenamiento utilizando 'Comprobar etiqueta' y 'Etiqueta perdida'
- Entrenamiento mediante la etiqueta de aprendizaje (refinar)
- Entrenamiento mediante Buscar (Refinar)
- Comprender y aumentar la cobertura
- Mejorar el equilibrio y usar 'Reequilibrar'
- Cuándo dejar de entrenar tu modelo
- Definir y configurar tus entidades
- Comprender las entidades
- ¿Qué entidades preentrenadas están disponibles?
- Habilitar, deshabilitar, actualizar y crear entidades
- Filtrado de entidades
- Revisar y aplicar entidades
- Validación para entidades
- Mejorar el rendimiento de la entidad
- Creación de entidades regex personalizadas
- Uso de análisis y supervisión
- Minería de automatizaciones y comunicaciones
- Preguntas frecuentes y más
Validación para entidades
La plataforma muestra estadísticas de validación, advertencias y acciones recomendadas para las entidades habilitadas en la página Validación, al igual que para cada etiqueta de tu taxonomía.
Para verlos, ve a la página Validación y selecciona la pestaña 'Entidades ' en la parte superior, como se muestra en la siguiente imagen.
El proceso en el que la plataforma valida su capacidad para predecir correctamente las entidades es muy similar al de las etiquetas.
los mensajes se dividen (80:20) en un conjunto de entrenamiento y un conjunto de prueba (determinado aleatoriamente por el ID de mensaje de cada mensaje) cuando se añaden por primera vez al conjunto de datos. Cualquier entidad que haya sido asignada (predicciones que fueron aceptadas o corregidas) caerá en el conjunto de entrenamiento o en el conjunto de prueba, en función del conjunto al que se haya asignado originalmente el mensaje en el que se encuentran.
Como a veces puede haber un gran número de entidades en un mensaje y no hay garantía de si un mensaje está en el conjunto de entrenamiento o en el conjunto de prueba, puedes ver una gran disparidad entre el número de entidades en cada conjunto.
También puede haber casos en los que todas las entidades asignadas caigan en el conjunto de entrenamiento. Como se requiere al menos un ejemplo en el conjunto de pruebas para calcular las puntuaciones de validación, esta entidad requeriría más ejemplos asignados hasta que algunos estuvieran presentes en el conjunto de pruebas.
Las estadísticas individuales de precisión y recuperación para cada entidad con suficientes datos de entrenamiento se calculan de forma muy similar a la de las etiquetas:
Precisión = N.º de entidades coincidentes / N.º de entidades previstas
Recuperación = N.º de entidades coincidentes/N.º de entidades reales
Una "entidad coincidente" es aquella en la que la plataforma ha predicho la entidad exactamente (es decir, sin coincidencias parciales)
La puntuación F1 es simplemente la media armónica tanto de la precisión como de la recuperación.
Vale la pena señalar que las estadísticas de precisión y recuperación que se muestran en esta página son más útiles para las entidades que se pueden entrenar en vivo en la plataforma (que se muestran en la segunda columna anterior), ya que todas las entidades revisadas para estos tipos de entidades afectarán directamente a la plataforma. capacidad de predecir esas entidades.
Por lo tanto, la aceptación de las entidades correctas y la corrección o el rechazo de las entidades incorrectas debe hacerse siempre que sea posible.
En el caso de las entidades preentrenadas, para que las estadísticas de validación proporcionen un reflejo preciso del rendimiento, los usuarios deberían asegurarse de que aceptan una cantidad considerable de predicciones correctas, además de corregir las incorrectas.
Si solo corrigieran las predicciones erróneas, los conjuntos de entrenamiento y prueba se llenarían artificialmente solo de las instancias en las que la plataforma ha tenido problemas para predecir una entidad, y no de aquellas en las que es más capaz de predecirlas. Como la corrección de predicciones erróneas para estas entidades no conduce a una actualización en tiempo real de estas entidades (se actualizan periódicamente sin conexión), es posible que las estadísticas de validación no cambien durante algún tiempo y que sean artificialmente bajas.
Aceptar muchas de las predicciones correctas puede no ser siempre conveniente, ya que estas entidades se predicen correctamente la mayoría de las veces. Pero si la mayoría de las predicciones son correctas para estas entidades, es probable que no tengas que preocuparte por su precisión y las estadísticas de recuperación en la página Validación.
Las estadísticas de resumen (precisión media, recuperación media y puntuación F1 media) son simplemente medias de cada una de las puntuaciones de las entidades individuales.
Al igual que con las etiquetas, solo las entidades que tienen suficientes datos de entrenamiento se incluyen en las puntuaciones medias. Aquellos que no tienen suficientes datos de entrenamiento para ser incluidos tienen un icono de advertencia junto a su nombre.
La página Validación de entidades muestra las estadísticas de rendimiento medio de las entidades, así como un gráfico que muestra la puntuación F1 media de cada entidad frente al tamaño de su conjunto de entrenamiento. El gráfico también marca las entidades que tienen advertencias de rendimiento de color ámbar o rojo.
Las estadísticas de rendimiento de la entidad que se muestran son:
- Puntuación F1 media: media de las puntuaciones F1 en todas las entidades con datos suficientes para estimar con precisión el rendimiento. Esta puntuación tiene en cuenta la memoria y la precisión por igual. Un modelo con una puntuación F1 alta produce menos falsos positivos y negativos.
- Precisión media: media de las puntuaciones de precisión en todas las entidades con datos suficientes para estimar con precisión el rendimiento. Un modelo con alta precisión produce menos falsos positivos.
- Promedio de recuperación: promedio de las puntuaciones de recuperación en todas las entidades con datos suficientes para estimar con precisión el rendimiento. Un modelo con alta recuperación produce menos falsos negativos.
El gráfico de rendimiento de la entidad que se muestra en la pestaña Métricas de la página Validación (ver más arriba) ofrece una indicación visual inmediata del rendimiento de cada entidad individual.
Para que una entidad aparezca en este gráfico, debe tener al menos 20 ejemplos anclados presentes en el conjunto de entrenamiento utilizado por la plataforma durante la validación. Para garantizar que esto suceda, los usuarios deben asegurarse de proporcionar un mínimo de 25 (a menudo más) ejemplos anclados por entidad de 25 mensajes diferentes.
Cada entidad se trazará como uno de los tres colores, en función de la comprensión del modelo de cómo se está desempeñando la entidad. A continuación, explicamos lo que significan:
Indicadores de rendimiento de la entidad:
- Las entidades representadas en azul en el gráfico tienen un nivel de rendimiento satisfactorio . Esto se basa en numerosos factores que contribuyen, incluido el número y la variedad de ejemplos y la precisión media para esa entidad
- Las entidades representadas en ámbar tienen un rendimiento ligeramente inferior al satisfactorio . Pueden tener una precisión media relativamente baja o no tener suficientes ejemplos de entrenamiento. Estas entidades requieren un poco de entrenamiento/corrección para mejorar su rendimiento
- Las entidades trazadas en rojo son entidades de bajo rendimiento. Pueden tener una precisión media muy baja o no tener suficientes ejemplos de entrenamiento. Estas entidades pueden requerir mucho más entrenamiento/corrección para llevar su rendimiento a un nivel satisfactorio
Los usuarios pueden seleccionar entidades individuales desde la barra de filtro de entidades (o haciendo clic en el gráfico de la entidad en el gráfico "Todas las entidades") para ver las estadísticas de rendimiento de la entidad.
La vista de entidad específica también mostrará cualquier advertencia de rendimiento y sugerencias de mejores acciones recomendadas para ayudar a mejorar su rendimiento.