communications-mining
latest
false
Importante :
Este contenido se ha traducido mediante traducción automática.
UiPath logo, featuring letters U and I in white

Guía de usuario de Communications Mining

Última actualización 20 de dic. de 2024

Comprender los requisitos de datos

Información general

Este artículo ofrece directrices para los volúmenes de datos de comunicaciones necesarios para optimizar la experiencia de entrenamiento y maximizar el valor proporcionado por el análisis y la automatización.

Cuando decidas la cantidad de datos para tu caso de uso, ten en cuenta los siguientes factores:
  • Retorno de la inversión (ROI)
  • Complejidad
  • Límites técnicos
Importante: Los volúmenes de datos recomendados en esta sección no son los volúmenes de datos esperados que necesitarás anotar para garantizar el rendimiento de tu caso de uso. En cambio, estos volúmenes representan los datos históricos que suelen ser necesarios para obtener suficientes y variados ejemplos de entrenamiento. Por lo general, solo es necesario anotar una pequeña proporción de los volúmenes totales de mensajes con fines de ajuste y validación.

Retorno de la inversión

Para sacar el máximo partido a Communications Mining™. implementación, recomendamos comenzar con casos de uso de alto volumen. Estos casos se benefician de la capacidad de Communications Mining para procesar grandes cantidades de datos de mensajes de manera eficiente, tanto para análisis históricos y supervisión en vivo, como para automatizaciones.

El esfuerzo necesario para implementar un caso de uso no aumenta significativamente con volúmenes de mensajes más altos. Por lo tanto, los casos de uso de alto volumen tienden a ofrecer un mejor retorno de la inversión en términos de esfuerzo de implementación en comparación con los casos de uso de menor volumen. Esto es importante para las organizaciones con recursos limitados o aquellas que requieren apoyo externo para la implementación.

Sin embargo, si tienes escenarios de menor volumen con alto valor empresarial, también debes considerar estos casos de uso. Muchos casos de uso de bajo volumen son técnicamente factibles y no deben descartarse.

Complejidad

Muchos casos de uso tienen un nivel de complejidad, en términos de número y complejidad de etiquetas y campos a extraer, que no es adecuado para volúmenes muy bajos de mensajes. Esto se debe a que puede haber ejemplos insuficientes en el conjunto de datos de conceptos o campos variados y complejos para afinar y validar eficazmente los modelos especializados de Communications Mining. Esto se aplica tanto al entrenamiento automatizado proporcionado por la anotación generativa como a otros ejemplos anotados por los entrenadores de modelos.

Si bien algunos casos de uso pueden ser técnicamente factibles y tener suficientes ejemplos, los volúmenes más bajos a veces pueden resultar en una experiencia de anotación más pobre para los entrenadores de modelos. Un grupo de datos más grande facilita que los modos de aprendizaje activo de Communications Mining identifiquen y muestren ejemplos útiles para anotar. Un pequeño grupo de datos puede crear menos ejemplos de calidad en toda la taxonomía. Menos ejemplos de calidad hacen que los usuarios confíen en anotar ejemplos difíciles de alcanzar o más complejos.

Límites técnicos

Antes de proceder con la calificación e implementación de un caso de uso en función de las consideraciones basadas en la complejidad y el ROI, es importante tener en cuenta los límites técnicos de Communications Mining.

Para generar clústeres, Communications Mining requiere un mínimo de 2048 mensajes en un conjunto de datos (que puede estar formado por varias fuentes similares). Los conjuntos de datos inferiores a 2048 mensajes te permiten utilizar todas las características de Comms Mining, además de los clústeres y las sugerencias de etiquetas generadas para los clústeres.

Los casos de uso con menos de 2048 mensajes deben ser muy simples en términos de número y complejidad de etiquetas/campos. También se debe esperar que una proporción mucho mayor del total de mensajes deba anotarse con fines de ajuste y validación en comparación con los casos de uso de mayor volumen. Es probable que no haya suficientes ejemplos para anotar para algunas etiquetas y/o campos si no se producen con frecuencia.

Para garantizar datos de validación significativos, Communications Mining también espera un mínimo de 25 ejemplos anotados por etiqueta y campo. Por lo tanto, es importante que puedas obtener al menos este número de ejemplos de los datos disponibles.

Recomendaciones para volúmenes de datos más bajos

Las siguientes recomendaciones se refieren a casos de uso con un volumen de datos más bajo, pero de alto valor y/o baja complejidad.

En general, los casos de uso deberían funcionar como se espera si su complejidad se alinea con el volumen de datos del mensaje. Los casos de uso de muy bajo volumen suelen ser muy simples, mientras que los casos de uso de alto volumen pueden ser más complejos.

En algunos casos, sincronizar más de un año de datos históricos puede ayudar a obtener suficientes ejemplos de calidad para el entrenamiento. Esto también proporciona la ventaja de un mayor análisis en términos de tendencias y alertas.

Los casos de uso con menos de 20 000 mensajes (en términos de volúmenes históricos o rendimiento anual) deben considerarse cuidadosamente en términos de complejidad, ROI y el esfuerzo necesario para respaldar y habilitar el caso de uso. Si bien existe la posibilidad de que tales casos de uso puedan ser descalificados en función de estas consideraciones, aún pueden proporcionar suficiente valor comercial para continuar.

Directrices de complejidad de casos de uso

Cada caso de uso es único, por lo que no hay una única directriz que se ajuste a todos los escenarios de complejidad. Las etiquetas y los campos en sí pueden variar de muy simples a complejos en términos de comprensión y extracción.

La siguiente tabla describe directrices aproximadas para la complejidad de los casos de uso.

Tabla 1. Directrices de complejidad de casos de uso
ComplejidadEtiquetasCampos extraídosCampos generales
Muy bajo~ 2-5N/D1-2
Bajo~ 5 - 151 - 2 para algunas etiquetas1 - 3
Medio15 - 501 - 5 para varias etiquetas1 - 5 *
Alto50+1 - 8+ para una alta proporción de etiquetas1 - 5 *

* Los casos de uso con campos de extracción deben basarse en estos en lugar de en los campos generales. Si no utilizas campos de extracción, puedes esperar campos más generales, pero es posible que no añadan un valor equivalente.

Resumen

La siguiente tabla de resumen describe directrices aproximadas para casos de uso con pocos datos:
Tabla 2.
N.º de mensajes *LimitacionesRecomendable

Menor que

2048
  • Sin sugerencias de clústeres y etiquetas
  • Datos insuficientes para que algunos análisis sean significativos
  • Es probable que el ROI sea mínimo
Solo debe ser:
  • Pruebas
2048 - 20 000
  • Es probable que tenga un valor más limitado del aprendizaje activo debido a los volúmenes más bajos
  • Es probable que los datos sean insuficientes para admitir casos de uso complejos
  • Es más probable que tenga un ROI bajo

Debe ser principalmente:

  • POC
  • Casos de uso de baja complejidad
  • Casos de uso de migración de AI Center
20 000 - 50 000
  • Datos potencialmente insuficientes para casos de uso muy complejos (al menos algunos campos/etiquetas complejos)
  • Retorno de la inversión potencialmente más bajo dependiendo de la complejidad

Debe ser principalmente:

  • Casos de uso de complejidad baja-media
  • Algunos casos de uso de alta complejidad
  • Casos de uso de migración de AI Center

Los volúmenes de datos históricos de los que se obtendrán los ejemplos de entrenamiento suelen tener solo una pequeña proporción de los volúmenes totales anotados. Esta proporción suele ser mayor en casos de uso de menor volumen y mayor complejidad.

¿Te ha resultado útil esta página?

Obtén la ayuda que necesitas
RPA para el aprendizaje - Cursos de automatización
Foro de la comunidad UiPath
Uipath Logo White
Confianza y seguridad
© 2005-2025 UiPath. Todos los derechos reservados.