- Introducción
- Configuración de su cuenta
- Equilibrio
- Clústeres
- Deriva del concepto
- Cobertura
- Conjuntos de datos
- Campos generales
- Etiquetas (predicciones, niveles de confianza, jerarquía de etiquetas y sentimiento de etiqueta)
- Modelos
- Transmisiones
- Clasificación del modelo
- Proyectos
- Precisión
- Recordar
- Mensajes anotados y no anotados
- Campos extraídos
- Fuentes
- Taxonomías
- Formación
- Predicciones positivas y negativas verdaderas y falsas
- Validación
- Mensajes
- Control y administración de acceso
- Gestionar fuentes y conjuntos de datos
- Comprender la estructura de datos y los permisos
- Crear o eliminar un origen de datos en la GUI
- Cargar un archivo CSV en un origen
- Preparando datos para cargar archivos .CSV
- Crear un conjunto de datos
- Fuentes y conjuntos de datos multilingües
- Habilitar sentimiento en un conjunto de datos
- Modificar la configuración del conjunto de datos
- Eliminar un mensaje
- Eliminar un conjunto de datos
- Exportar un conjunto de datos
- Utilizar integraciones de Exchange
- Entrenamiento y mantenimiento de modelos
- Comprender las etiquetas, los campos generales y los metadatos
- Jerarquía de etiquetas y mejores prácticas
- Comparar casos de uso de análisis y automatización
- Convertir tus objetivos en etiquetas
- Descripción general del proceso de entrenamiento del modelo
- Anotación generativa
- Estado de Dastaset
- Entrenamiento de modelos y mejores prácticas de anotación
- Entrenamiento con análisis de sentimiento de etiqueta habilitado
- Comprender los requisitos de datos
- Entrenamiento
- Introducción a Refinar
- Explicación de la precisión y la recuperación
- Precisión y recuperación
- Cómo funciona la validación
- Comprender y mejorar el rendimiento del modelo
- Razones para etiquetar una precisión media baja
- Entrenamiento utilizando la etiqueta Comprobar y la etiqueta Perdida
- Entrenamiento mediante la etiqueta de aprendizaje (refinar)
- Entrenamiento mediante Buscar (Refinar)
- Comprender y aumentar la cobertura
- Mejorar el equilibrio y utilizar Reequilibrar
- Cuándo dejar de entrenar tu modelo
- Uso de campos generales
- Extracción generativa
- Uso de análisis y supervisión
- Automations and Communications Mining™
- Desarrollador
- Uso de la API
- Tutorial de la API
- Fuentes
- Conjuntos de datos
- Comentarios
- Archivos adjuntos
- Predictions
- Crear una transmisión
- Actualizar una transmisión
- Obtener una transmisión por nombre
- Obtener todas las transmisiones
- Eliminar una transmisión
- Obtener resultados de la transmisión
- Obtener comentarios de una transmisión (heredado)
- Avanzar una transmisión
- Restablecer una transmisión
- Etiquetar una excepción
- Desetiquetar una excepción
- Eventos de auditoría
- Obtener todos los usuarios
- Cargar datos
- Descargando datos
- Integración de Exchange con el usuario del servicio de Azure
- Integración de Exchange con la autenticación de aplicaciones de Azure
- Integración de Exchange con Azure Application Authentication y Graph
- Obtener datos para Tableau con Python
- Integración de Elasticsearch
- Extracción de campos general
- Integración de Exchange autohospedado
- Marco de automatización de UiPath®
- Actividades oficiales de UiPath®
- Cómo aprenden las máquinas a entender palabras: una guía para las incrustaciones en PNL
- Aprendizaje basado en solicitudes con Transformers
- Efficient Transformers II: destilación de conocimientos y ajuste
- Transformadores eficientes I: mecanismos de atención
- Modelado de intenciones jerárquico profundo no supervisado: obtener valor sin datos de entrenamiento
- Corregir el sesgo de anotación con Communications Mining™
- Aprendizaje activo: mejores modelos ML en menos tiempo
- Todo está en los números: evaluar el rendimiento del modelo con métricas
- Por qué es importante la validación del modelo
- Comparación de Communications Mining™ y Google AutoML para la inteligencia de datos conversacional
- Licencia
- Preguntas frecuentes y más

Guía del usuario de Communications Mining
Esta sección ofrece directrices para los volúmenes de datos de comunicaciones necesarios para optimizar la experiencia de entrenamiento y maximizar el valor que proporcionan el análisis y la automatización.
Cuando decidas la cantidad de datos para tu caso de uso, ten en cuenta los siguientes factores:
- Retorno de la inversión (ROI)
- Complejidad
- Límites técnicos
Retorno de la inversión
Para aprovechar al máximo tu implementación de Communications Mining™, recomendamos comenzar con casos de uso de alto volumen. Estos casos se benefician de la capacidad de Communications Mining para procesar grandes cantidades de datos de mensajes de forma eficiente, tanto para análisis históricos y supervisión en vivo, como para automatizaciones.
El esfuerzo necesario para implementar un caso de uso no aumenta significativamente con volúmenes de mensajes más altos. Por lo tanto, los casos de uso de alto volumen tienden a ofrecer un mejor retorno de la inversión en términos de esfuerzo de implementación en comparación con los casos de uso de menor volumen. Esto es importante para las organizaciones con recursos limitados o aquellas que requieren apoyo externo para la implementación.
Sin embargo, si tienes escenarios de menor volumen con alto valor empresarial, también debes considerar estos casos de uso. Muchos casos de uso de bajo volumen son técnicamente factibles y no deben descartarse.
Complejidad
Muchos casos de uso tienen un nivel de complejidad, en términos de número y complejidad de etiquetas y campos a extraer, que no es adecuado para volúmenes muy bajos de mensajes. Esto se debe a que puede haber ejemplos insuficientes en el conjunto de datos de conceptos o campos variados y complejos para afinar y validar de forma efectiva los modelos especializados de Communications Mining™. Esto se aplica tanto al entrenamiento automatizado proporcionado por la anotación generativa como a otros ejemplos anotados por los entrenadores de modelos.
Aunque algunos casos de uso pueden ser técnicamente factibles y tener suficientes ejemplos, los volúmenes más bajos a veces pueden dar como resultado una experiencia de anotación más deficiente para los entrenadores de modelos. Un grupo de datos más grande facilita que los modos de aprendizaje activos de Communications Mining identifiquen y muestren ejemplos útiles para anotar. Un pequeño grupo de datos puede crear menos ejemplos de calidad en toda la taxonomía. Menos ejemplos de calidad hacen que los usuarios confíen en anotar ejemplos esquivos o más complejos.
Límites técnicos
Antes de proceder con la calificación e implementación de un caso de uso en función de las consideraciones basadas en la complejidad y el ROI, debes tener en cuenta las limitaciones técnicas de Communications Mining™.
Para generar clústeres, Communications Mining requiere un mínimo de 2048 mensajes en un conjunto de datos, que puede estar formado por varias fuentes similares. Los conjuntos de datos inferiores a 2048 mensajes te permiten utilizar todas las características de Communications Mining, además de los clústeres y las sugerencias de etiquetas generadas para los clústeres.
Los casos de uso con menos de 2048 mensajes deben ser muy simples en términos de número y complejidad de etiquetas o campos. También debes esperar anotar una proporción mucho mayor del total de mensajes para fines de ajuste y validación en comparación con los casos de uso de mayor volumen. Es probable que no haya suficientes ejemplos para anotar para algunas etiquetas o campos, o ambos, si no se producen con frecuencia.
Para garantizar datos de validación significativos, Communications Mining también espera un mínimo de 25 ejemplos anotados por etiqueta y campo. Por lo tanto, asegúrate de que puedes obtener al menos este número de ejemplos de los datos disponibles.
Las siguientes recomendaciones se refieren a casos de uso con un volumen de datos más bajo, pero de alto valor o baja complejidad, o ambos.
En general, los casos de uso deben funcionar como se espera si su complejidad se alinea con el volumen de datos del mensaje. Los casos de uso de muy bajo volumen deben ser muy simples, mientras que los casos de uso de alto volumen pueden ser más complejos.
En algunos casos, sincronizar más de un año de datos históricos puede ayudar a obtener suficientes ejemplos de calidad para el entrenamiento. Esto también proporciona la ventaja de un mayor análisis en términos de tendencias y alertas.
Los casos de uso con menos de 20 000 mensajes, en términos de volúmenes históricos o rendimiento anual, deben considerarse cuidadosamente en términos de complejidad, ROI y el esfuerzo necesario para admitir y habilitar el caso de uso. Aunque existe la posibilidad de que tales casos de uso puedan ser descalificados en función de estas consideraciones, aún pueden proporcionar suficiente valor comercial para continuar.
Directrices de complejidad de casos de uso
Cada caso de uso es único, por lo que no hay una única directriz que se ajuste a todos los escenarios de complejidad. Las etiquetas y los campos en sí pueden variar de muy simples a complejos en términos de comprensión y extracción.
La siguiente tabla describe directrices aproximadas para la complejidad de los casos de uso.
| Complejidad | Etiquetas | Campos extraídos | Campos generales |
|---|---|---|---|
| Muy bajo | aproximadamente 2 - 5 | N/D | 1-2 |
| Bajo | aproximadamente 5 - 15 | 1 - 2 para algunas etiquetas | 1 - 3 |
| Medio | entre 15 y 50 | 1 - 5 para varias etiquetas | 1 - 5 * |
| Alto | más de 50 | 1 - 8 o más para una alta proporción de etiquetas | 1 - 5 * |
* Los casos de uso con campos de extracción deben basarse en estos en lugar de en los campos generales. Si no utilizas campos de extracción, puedes esperar campos más generales, pero es posible que no añadan un valor equivalente.
Resumen
| El número de mensajes * | Limitaciones | Recomendable |
|---|---|---|
| Menos de 2048 |
| Solo debe ser:
|
| 2048 - 20 000 |
|
Debe ser principalmente:
|
| 20 000 - 50 000 |
|
Debe ser principalmente:
|
*Los volúmenes de datos históricos de los que se obtendrán los ejemplos de entrenamiento suelen tener solo una pequeña proporción de los volúmenes totales anotados. Esta proporción suele ser mayor en casos de uso de menor volumen y mayor complejidad.