- Primeros pasos
- Equilibrio
- Clústeres
- Deriva del concepto
- Cobertura
- Conjuntos de datos
- Campos generales (anteriormente entidades)
- Etiquetas (predicciones, niveles de confianza, jerarquía, etc.)
- Modelos
- Transmisiones
- Clasificación del modelo
- Proyectos
- Precisión
- Recordar
- Mensajes revisados y no revisados
- Fuentes
- Taxonomías
- Formación
- Predicciones positivas y negativas verdaderas y falsas
- Validación
- Mensajes
- Administración
- Gestionar fuentes y conjuntos de datos
- Comprender la estructura de datos y los permisos
- Crear o eliminar un origen de datos en la GUI
- Cargar un archivo CSV en un origen
- Preparando datos para cargar archivos .CSV
- Crear un nuevo conjunto de datos
- Fuentes y conjuntos de datos multilingües
- Habilitar sentimiento en un conjunto de datos
- Modificar la configuración de un conjunto de datos
- Eliminar mensajes a través de la IU
- Eliminar un conjunto de datos
- Exportar un conjunto de datos
- Uso de integraciones de Exchange
- Entrenamiento y mantenimiento de modelos
- Comprender las etiquetas, los campos generales y los metadatos
- Jerarquía de etiquetas y mejores prácticas
- Definición de los objetivos de taxonomía
- Casos de uso de análisis frente a automatización
- Convertir tus objetivos en etiquetas
- Crear tu estructura de taxonomía
- Mejores prácticas de diseño de taxonomía
- Importar tu taxonomía
- Descripción general del proceso de entrenamiento del modelo
- Anotación generativa (NUEVO)
- Estado de Dastaset
- Entrenamiento de modelos y mejores prácticas de anotación
- Entrenamiento con análisis de sentimiento de etiqueta habilitado
- Comprender los requisitos de datos
- Entrenamiento
- Introducción a Refinar
- Explicación de la precisión y la recuperación
- Precisión y recuperación
- ¿Cómo funciona la validación?
- Comprender y mejorar el rendimiento del modelo
- ¿Por qué una etiqueta puede tener una precisión media baja?
- Entrenamiento utilizando la etiqueta Comprobar y la etiqueta Perdida
- Entrenamiento mediante la etiqueta de aprendizaje (refinar)
- Entrenamiento mediante Buscar (Refinar)
- Comprender y aumentar la cobertura
- Mejorar el equilibrio y utilizar Reequilibrar
- Cuándo dejar de entrenar tu modelo
- Uso de campos generales
- Extracción generativa
- Uso de análisis y supervisión
- Minería de automatizaciones y comunicaciones
- Información de licencia
- Preguntas frecuentes y más
Guía de usuario de Communications Mining
Comprender los requisitos de datos
Este artículo ofrece directrices para los volúmenes de datos de comunicaciones necesarios para optimizar la experiencia de entrenamiento y maximizar el valor proporcionado por el análisis y la automatización.
- Retorno de la inversión (ROI)
- Complejidad
- Límites técnicos
Para sacar el máximo partido a Communications Mining™. implementación, recomendamos comenzar con casos de uso de alto volumen. Estos casos se benefician de la capacidad de Communications Mining para procesar grandes cantidades de datos de mensajes de manera eficiente, tanto para análisis históricos y supervisión en vivo, como para automatizaciones.
El esfuerzo necesario para implementar un caso de uso no aumenta significativamente con volúmenes de mensajes más altos. Por lo tanto, los casos de uso de alto volumen tienden a ofrecer un mejor retorno de la inversión en términos de esfuerzo de implementación en comparación con los casos de uso de menor volumen. Esto es importante para las organizaciones con recursos limitados o aquellas que requieren apoyo externo para la implementación.
Sin embargo, si tienes escenarios de menor volumen con alto valor empresarial, también debes considerar estos casos de uso. Muchos casos de uso de bajo volumen son técnicamente factibles y no deben descartarse.
Muchos casos de uso tienen un nivel de complejidad, en términos de número y complejidad de etiquetas y campos a extraer, que no es adecuado para volúmenes muy bajos de mensajes. Esto se debe a que puede haber ejemplos insuficientes en el conjunto de datos de conceptos o campos variados y complejos para afinar y validar eficazmente los modelos especializados de Communications Mining. Esto se aplica tanto al entrenamiento automatizado proporcionado por la anotación generativa como a otros ejemplos anotados por los entrenadores de modelos.
Si bien algunos casos de uso pueden ser técnicamente factibles y tener suficientes ejemplos, los volúmenes más bajos a veces pueden resultar en una experiencia de anotación más pobre para los entrenadores de modelos. Un grupo de datos más grande facilita que los modos de aprendizaje activo de Communications Mining identifiquen y muestren ejemplos útiles para anotar. Un pequeño grupo de datos puede crear menos ejemplos de calidad en toda la taxonomía. Menos ejemplos de calidad hacen que los usuarios confíen en anotar ejemplos difíciles de alcanzar o más complejos.
Antes de proceder con la calificación e implementación de un caso de uso en función de las consideraciones basadas en la complejidad y el ROI, es importante tener en cuenta los límites técnicos de Communications Mining.
Para generar clústeres, Communications Mining requiere un mínimo de 2048 mensajes en un conjunto de datos (que puede estar formado por varias fuentes similares). Los conjuntos de datos inferiores a 2048 mensajes te permiten utilizar todas las características de Comms Mining, además de los clústeres y las sugerencias de etiquetas generadas para los clústeres.
Los casos de uso con menos de 2048 mensajes deben ser muy simples en términos de número y complejidad de etiquetas/campos. También se debe esperar que una proporción mucho mayor del total de mensajes deba anotarse con fines de ajuste y validación en comparación con los casos de uso de mayor volumen. Es probable que no haya suficientes ejemplos para anotar para algunas etiquetas y/o campos si no se producen con frecuencia.
Para garantizar datos de validación significativos, Communications Mining también espera un mínimo de 25 ejemplos anotados por etiqueta y campo. Por lo tanto, es importante que puedas obtener al menos este número de ejemplos de los datos disponibles.
Las siguientes recomendaciones se refieren a casos de uso con un volumen de datos más bajo, pero de alto valor y/o baja complejidad.
En general, los casos de uso deberían funcionar como se espera si su complejidad se alinea con el volumen de datos del mensaje. Los casos de uso de muy bajo volumen suelen ser muy simples, mientras que los casos de uso de alto volumen pueden ser más complejos.
En algunos casos, sincronizar más de un año de datos históricos puede ayudar a obtener suficientes ejemplos de calidad para el entrenamiento. Esto también proporciona la ventaja de un mayor análisis en términos de tendencias y alertas.
Los casos de uso con menos de 20 000 mensajes (en términos de volúmenes históricos o rendimiento anual) deben considerarse cuidadosamente en términos de complejidad, ROI y el esfuerzo necesario para respaldar y habilitar el caso de uso. Si bien existe la posibilidad de que tales casos de uso puedan ser descalificados en función de estas consideraciones, aún pueden proporcionar suficiente valor comercial para continuar.
Cada caso de uso es único, por lo que no hay una única directriz que se ajuste a todos los escenarios de complejidad. Las etiquetas y los campos en sí pueden variar de muy simples a complejos en términos de comprensión y extracción.
La siguiente tabla describe directrices aproximadas para la complejidad de los casos de uso.
Complejidad | Etiquetas | Campos extraídos | Campos generales |
---|---|---|---|
Muy bajo | ~ 2-5 | N/D | 1-2 |
Bajo | ~ 5 - 15 | 1 - 2 para algunas etiquetas | 1 - 3 |
Medio | 15 - 50 | 1 - 5 para varias etiquetas | 1 - 5 * |
Alto | 50+ | 1 - 8+ para una alta proporción de etiquetas | 1 - 5 * |
* Los casos de uso con campos de extracción deben basarse en estos en lugar de en los campos generales. Si no utilizas campos de extracción, puedes esperar campos más generales, pero es posible que no añadan un valor equivalente.
N.º de mensajes * | Limitaciones | Recomendable |
---|---|---|
Menor que |
| Solo debe ser:
|
2048 - 20 000 |
|
Debe ser principalmente:
|
20 000 - 50 000 |
|
Debe ser principalmente:
|
Los volúmenes de datos históricos de los que se obtendrán los ejemplos de entrenamiento suelen tener solo una pequeña proporción de los volúmenes totales anotados. Esta proporción suele ser mayor en casos de uso de menor volumen y mayor complejidad.