- Documentos de la API
- Introducción
- Uso de la API
- Tutorial de la API
- Resumen
- Fuentes
- Conjuntos de datos
- Comentarios
- Archivos adjuntos
- Predictions
- Crear una transmisión
- Actualizar una transmisión
- Obtener una transmisión por nombre
- Obtener todas las transmisiones
- Eliminar una transmisión
- Obtener resultados de la transmisión
- Obtener comentarios de una transmisión (heredado)
- Avanzar una transmisión
- Restablecer una transmisión
- Etiquetar una excepción
- Desetiquetar una excepción
- Eventos de auditoría
- Obtener todos los usuarios
- CLI
- Guías de integración
- Integración de Exchange con el usuario del servicio de Azure
- Integración de Exchange con la autenticación de aplicaciones de Azure
- Automatización en tiempo real
- Obtener datos para Tableau con Python
- Integración de Elasticsearch
- Integración de EWS autohospedado
- Marco de automatización de UiPath
- Actividades de UiPath Marketplace
- Actividades oficiales de UiPath
- Blog
- Cómo aprenden las máquinas a entender palabras: una guía para las incrustaciones en PNL
- Aprendizaje basado en solicitudes con Transformers
- Efficient Transformers II: destilación de conocimientos y ajuste
- Transformadores eficientes I: mecanismos de atención
- Modelado de intenciones jerárquico profundo no supervisado: obtener valor sin datos de entrenamiento
- Corrección del sesgo de anotación con Communications Mining
- Aprendizaje activo: mejores modelos ML en menos tiempo
- Todo está en los números: evaluar el rendimiento del modelo con métricas
- Por qué es importante la validación del modelo
- Comparación de Communications Mining y Google AutoML para la inteligencia de datos conversacional
Guía para desarrolladores de Communications Mining
Comparación de Communications Mining y Google AutoML para la inteligencia de datos conversacional
Cuando se trata de aprovechar el poder de NLP y ML para automatizar procesos, obtener mejores análisis y obtener una comprensión más profunda de las conversaciones que tiene una empresa, la primera decisión suele ser si comprar una solución o crear la tuya propia.
Esta publicación compara el rendimiento y la filosofía de diseño de la plataforma Communications Mining con una de las soluciones de PNL en la nube más sólidas que existen, AutoML de Google.
Esperamos proporcionar información sobre el proceso de uso de un producto de inteligencia de comunicaciones empresarial dedicado en comparación con el uso de una herramienta de propósito más general, y las ventajas y desventajas que se pueden esperar.
Communications Mining y Google AutoML son soluciones que requieren que el usuario cree un conjunto de datos de entrenamiento anotado que asocie etiquetas a las conversaciones. La calidad de los datos de entrenamiento determina la calidad de las predicciones devueltas por ese modelo entrenado.
La clave para obtener datos de entrenamiento de alta calidad es aplicar etiquetas que representen de forma coherente y precisa el dominio sobre el que quieres hacer predicciones.
La primera diferencia importante entre Communications Mining y Google AutoML es la filosofía de diseño en torno a cómo se debe utilizar el producto.
Anotar tareas frente a aprendizaje activo
El flujo de AutoML es crear un conjunto de datos anotados sin conexión, que se carga y se utiliza para entrenar un modelo. Anotar un conjunto de datos es una operación costosa que requiere mucho trabajo inicial. La forma en que se producen las etiquetas está fuera del alcance de AutoML, pero una posible solución es externalizar las anotaciones a terceros. Google proporciona tareas de anotación para este fin, que están integradas con AutoML, o se podría utilizar Mechanical Turk de Amazon.
Esto no es óptimo por varias razones
-
El acceso de terceros suele ser un obstáculo para las conversaciones internas confidenciales.
-
Puede que no sea deseable subcontratar la anotación a personas que no tienen la información relevante necesaria para capturar completamente las complejidades de las comunicaciones de una empresa
-
El conocimiento contextual del dominio es clave para obtener datos de entrenamiento de alta calidad. Por ejemplo, cualquiera puede anotar imágenes de gatos y perros, pero no tanto los correos electrónicos de un buzón de operaciones bancarias de inversión post-trade, para eso se necesitan expertos en la materia (SME).
En Communications Mining animamos a las personas a cargar una gran cantidad de datos no anotados y utilizar nuestro aprendizaje activo para crear la anotación de forma interactiva. Creemos que la exploración y anotación interactiva de datos es clave para crear un conjunto de etiquetas que realmente capturen toda la información interesante y los matices que viven en las conversaciones de una empresa con el nivel adecuado de granularidad.
Por supuesto, si ya tienes un gran conjunto de datos anotados que te gustaría utilizar como punto de partida, puedes utilizar nuestra herramienta cli para cargar también el conjunto de datos anotados.
Creación de modelos en cascada y Agile
AutoML proporciona ayuda sobre cómo mejorar un modelo, mostrando falsos positivos y falsos negativos para cada etiqueta. Communications Mining proporciona un conjunto de advertencias y acciones sugeridas para cada etiqueta, lo que permite a los usuarios comprender mejor los modos de fallo de su modelo y, por tanto, la forma más rápida de mejorarlo.
Otro eje en el que difieren AutoML y Communications Mining es el modelo de datos que utilizan. AutoML proporciona una estructura de uso muy general tanto para las entradas como para los destinos. Communications Mining está optimizado para los principales canales de comunicación mediados por el lenguaje natural.
Conversaciones semiestructuradas
La mayoría de las conversaciones digitales tienen lugar en uno de los siguientes formatos:
-
Correos electrónicos
-
Tickets
-
Charlas
-
Llamadas telefónicas
-
Comentarios/reseñas/encuestas
Todos estos son formatos semiestructurados, que tienen información más allá del texto que contienen. Un correo electrónico tiene un remitente y algunos destinatarios, así como un asunto. Los chats tienen diferentes participantes y marcas de tiempo. Las reseñas pueden tener metadatos asociados, como la puntuación.
AutoML no tiene una forma canónica de representar estas piezas de información semiestructuradas al cargar ejemplos de entrenamiento, se trata únicamente de texto. Communications Mining proporciona soporte de primera clase para la estructura del correo electrónico, así como campos de metadatos arbitrarios a través de propiedades de usuario.
Como se muestra en el siguiente ejemplo, los correos electrónicos empresariales suelen contener firmas grandes y/o renuncias legales que pueden ser mucho más largas que el contenido real del correo electrónico. AutoML no tiene lógica de eliminación de firmas, por lo que utilizamos Communications Mining para analizar las firmas antes de pasarlas a AutoML. Si bien los algoritmos modernos de aprendizaje automático pueden manejar bastante bien el ruido debido a las firmas, no se puede decir lo mismo de los etiquetadores humanos. Al intentar analizar un correo electrónico en busca de cualquier etiqueta que se aplique y discernir temas interesantes, la carga cognitiva de tener que ignorar las firmas largas no es despreciable y puede conducir a una peor calidad de la etiqueta.
Conceptos relacionados
Delivery
> Speed Delivery
> Cost Delivery
> Tracking
. Para obtener información más detallada, es posible realizar más desgloses, como Delivery
> Cost
> Free Shipping Delivery
> Cost
> Taxes & Customs
.
Delivery
de nivel superior sin necesidad de hacer nada explícitamente con las etiquetas secundarias.
AutoML no ofrece soporte para etiquetas estructuradas, sino que asume una total independencia entre etiquetas. Este es el modelo de datos de uso más general para las etiquetas de PNL, pero creemos que carece de la especificidad necesaria para trabajar de forma óptima con conversaciones semiestructuradas.
Además de la estructura de la etiqueta, la opinión de un fragmento de texto suele ser interesante para los comentarios o el análisis de encuestas. Google proporciona un modelo de sentimiento independiente, que permite a los usuarios utilizar un modelo de sentimiento listo para usar que proporcionará un sentimiento global para la entrada. Sin embargo, para el lenguaje natural complejo, es bastante común tener varios sentimientos simultáneamente. Por ejemplo, considera el siguiente comentario:
Positive
y Negative
de cada etiqueta, no hay forma de indicar que se trata de dos versiones de la misma etiqueta, lo que significa que habría que anotar dos veces como muchos datos.
Entradas idénticas
Otra observación interesante es la de la deduplicación de las entradas. En general, al validar un modelo de aprendizaje automático, es vital mantener una separación rigurosa entre los conjuntos de entrenamiento y prueba, para evitar la fuga de datos, lo que puede conducir a estimaciones de rendimiento demasiado optimistas y, por lo tanto, a fallos sorprendentes cuando se implementan.
AutoML deduplicará automáticamente cualquier entrada, advirtiendo al usuario de que hay entradas duplicadas. Si bien es el enfoque correcto para una API NLP de propósito general, este no es el caso de los datos conversacionales.
Muchos correos electrónicos que se envían internamente se generan automáticamente, desde mensajes de fuera de la oficina hasta recordatorios de reuniones. Al analizar los resultados de una encuesta, es muy posible que muchas personas respondan exactamente lo mismo, especialmente para preguntas limitadas como
Is there anything we could do to improve? → No.
Esto significa que muchas de estas entradas duplicadas están legítimamente duplicadas en la distribución del mundo real, y es importante evaluar qué tan bien funciona el modelo en estas entradas conocidas y estrictamente idénticas.
Ahoraque hemos discutido las diferencias de nivel superior, queremos evaluar el rendimiento bruto de ambos productos para ver cuál requeriría menos esfuerzo para implementar un modelo listo para producción.
Configuración
Nuestro objetivo es hacer que la comparación sea lo más justa posible. Evaluamos el rendimiento en tres conjuntos de datos que son representativos de tres casos de uso básicos de NLP empresarial
Tamaño |
ETIQUETAS ASIGNADAS |
ETIQUETAS ÚNICAS | |
---|---|---|---|
Correos electrónicos de banca de inversión |
1368 |
4493 |
59 |
Correos electrónicos de suscripción de seguros |
3964 |
5188 |
25 |
Comentarios sobre comercio electrónico |
3510 |
7507 |
54 |
Procesamos los datos de la siguiente manera
-
Formato de datos. Para Communications Mining utilizamos el soporte de correo electrónico integrado. AutoML espera un blob de texto, por lo que para representar la estructura del correo electrónico utilizamos el formato
Subject: <SUBJECT-TEXT> Body: <BODY-TEXT>
-
Eliminación de firmas. Todos los cuerpos de los correos electrónicos se preprocesaron para eliminar sus firmas antes de pasar al modelo de aprendizaje automático.
Dado que las tareas de anotación de AutoML no son aplicables a los datos internos confidenciales, utilizamos etiquetas anotadas por pymes con la plataforma de aprendizaje activo Communications Mining para crear los datos supervisados que utilizaremos para entrenar ambos modelos.
Elegimos estos conjuntos de datos por su naturaleza representativa y no los modificamos una vez que vimos los resultados iniciales, para evitar cualquier sesgo de muestreo o selección selectiva.
Mantenemos un conjunto de pruebas fijo que utilizamos para evaluar ambas plataformas y las entrenamos con los mismos datos de entrenamiento. AutoML requiere que los usuarios especifiquen manualmente las divisiones de entrenamiento y validación, por lo que muestreamos aleatoriamente el 10 % de los datos de entrenamiento para utilizarlos como validación, como sugieren los documentos de AutoML.
Métricas
La página de validación de Communications Mining ayuda a los usuarios a comprender el rendimiento de sus modelos. La métrica principal que utilizamos es Precisión media media. AutoML informa de la precisión media en todas las predicciones de etiquetas, así como de la precisión y la recuperación en un umbral determinado.
La precisión media media representa mejor el rendimiento de todas las etiquetas, ya que es una media no ponderada del rendimiento de las etiquetas individuales, mientras que la precisión media, la precisión y la recuperación capturan el comportamiento global del modelo en todas las entradas y etiquetas, y por lo tanto representan mejor el rendimiento común. etiquetas que se producen.
Comparamos las siguientes métricas:
-
Precisión media media La métrica utilizada por Communications Mining, que es la precisión macropromediada en todas las etiquetas
-
Precisión media La métrica utilizada por AutoML, que es la precisión micropromediada en todas las predicciones
-
La precisión de la puntuación F1 y la recuperación por sí solas no son significativas, ya que una puede cambiarse por la otra. Informamos de la puntuación F1, que representa el rendimiento de una tarea en la que la precisión y la recuperación son igualmente importantes.
Los lectores interesados pueden encontrar las curvas de precisión-recuperación completas en la sección correspondiente.
Communications Mining supera a AutoML en todas las métricas de todos los conjuntos de datos de referencia, de media entre 5 y 10 puntos. Esta es una clara indicación de que una herramienta especializada en aprender de las comunicaciones está más adaptada a las automatizaciones y análisis empresariales de alto rendimiento.
Dado que AutoML está diseñado para manejar tareas de PNL de propósito general, debe ser lo suficientemente flexible para adaptarse a cualquier tarea basada en texto, en detrimento de cualquier tarea específica. Además, como muchas soluciones listas para usar que aprovechan el aprendizaje por transferencia, el conocimiento inicial de AutoML se centra más en el lenguaje cotidiano que se utiliza habitualmente en las redes sociales y en los artículos de noticias. Esto significa que la cantidad de datos necesarios para adaptarlo a la comunicación empresarial es mucho mayor que un modelo cuyo propósito principal es tratar con la comunicación empresarial, como Communications Mining, que puede aprovechar el aprendizaje de transferencia a partir de un conocimiento inicial muy similar. En términos de impacto en el mundo real, esto significa más tiempo valioso para las PYME dedicado a anotar, más tiempo antes de obtener valor del modelo y un mayor coste de adopción.
Régimen de datos bajos
Además del conjunto de datos completo, también queremos evaluar el rendimiento de los modelos entrenados con pocos datos. Dado que la recopilación de datos de entrenamiento es un proceso costoso y lento, la velocidad a la que mejora un modelo cuando se le proporcionan datos es una consideración importante al elegir una plataforma de PNL.
El aprendizaje con pocos datos se conoce como aprendizaje en pocos intentos. En concreto, cuando se intenta aprender de K ejemplos para cada etiqueta, esto suele denominarse aprendizaje de K-shot.
Para evaluar el rendimiento de pocos disparos, creamos versiones más pequeñas de cada conjunto de datos muestreando 5 y 10 ejemplos de cada etiqueta, y los anotamos como conjuntos de datos de 5 y 10 disparos, respectivamente. Como mencionamos anteriormente, Communications Mining utiliza una estructura de etiquetas jerárquica, lo que significa que no podemos muestrear exactamente 5 ejemplos para cada etiqueta, ya que los elementos secundarios no pueden aplicar sin sus elementos principales. Por lo tanto, construimos estos conjuntos de datos muestreando etiquetas de hoja en la jerarquía, para que los padres tengan potencialmente más ejemplos.
Estas muestras se extraen de forma completamente aleatoria, sin sesgo de aprendizaje activo que pueda favorecer a la plataforma Communications Mining.
Dado que AutoML no permite a los usuarios entrenar modelos a menos que todas las etiquetas tengan al menos 10 ejemplos, no podemos informar del rendimiento de 5 disparos
En el régimen de datos bajos, Communications Mining supera significativamente a AutoML en la mayoría de las métricas para todas las tareas. Observamos que el rendimiento de 5 disparos para Communications Mining ya es competitivo con el rendimiento de 10 disparos de AutoML en la mayoría de las métricas.
Tener un modelo preciso con pocos puntos de entrenamiento anotados es increíblemente poderoso, ya que significa que los humanos pueden comenzar a trabajar en colaboración con el modelo mucho antes, reforzando el ciclo de aprendizaje activo.
La única métrica en la que AutoML tiene un mayor rendimiento es la Precisión media media para el rendimiento de 10 intentos para los comentarios de los clientes, en la que AutoML supera a Communications Mining en 1,5 puntos.
Dado que AutoML es una herramienta de propósito general, funciona mejor para los datos en prosa, y los comentarios de los clientes tienden a no incluir datos semiestructurados importantes o jerga específica del dominio con la que tendría problemas una herramienta de propósito general, que podría ser una razón por la que AutoML funciona bien.
Tiempo de entrenamiento
El entrenamiento de modelos es un proceso complejo, por lo que el tiempo de entrenamiento es un factor importante a tener en cuenta. El entrenamiento rápido del modelo significa ciclos de iteración rápidos y un bucle de retroalimentación más estricto. Esto significa que cada etiqueta aplicada por un humano da como resultado mejoras más rápidas en el modelo, lo que reduce el tiempo necesario para obtener valor del modelo.
Communications Mining |
AUTOML | |
---|---|---|
Correos electrónicos de banca de inversión |
1m32s |
4h4m |
Comentarios sobre comercio electrónico |
2 min 45 s |
4h4m |
Correos electrónicos de suscripción de seguros |
55 s |
3h59m |
Communications Mining está diseñado para el aprendizaje activo. El tiempo de entrenamiento es muy importante para nosotros, y nuestros modelos están optimizados para entrenar rápido sin comprometer la precisión.
El entrenamiento de un modelo AutoML es unas 200 veces más lento de media en comparación con Communications Mining.
Los modelos de AutoML requieren mucho más tiempo para entrenarse, lo que los hace mucho menos aptos para ser utilizados en un bucle de aprendizaje activo. Dado que el tiempo de iteración es tan largo, es probable que el mejor camino para mejorar un AutoML sea tener grandes lotes de anotación entre el reentrenamiento del modelo, lo que tiene riesgos de anotación de datos redundantes (proporcionando más ejemplos de entrenamiento para un concepto que ya se entiende bien) y pobre exploración de datos (no saber lo que el modelo no sabe hace que sea más difícil lograr una mayor cobertura de conceptos).
Al crear una solución de PNL empresarial, el poder predictivo bruto de un modelo es solo un aspecto que debe tenerse en cuenta. Si bien descubrimos que Communications Mining supera a AutoML en tareas comunes de NLP empresarial, la principal información que obtuvimos fue las diferencias fundamentales en los enfoques de NLP que tienen estas plataformas.
-
Communications Mining es una herramienta adaptada al análisis de conversaciones semiestructuradas. Incluye más componentes necesarios para crear un modelo desde cero en un marco Agile.
-
AutoML es una herramienta de PNL de uso general que debe integrarse con otros componentes para ser eficaz. Se centra más en la creación de modelos con datos anotados preexistentes, en un marco de Waterfall para la creación de modelos de aprendizaje automático.
-
Ambas herramientas son capaces de crear modelos de última generación altamente competitivos, pero Communications Mining se adapta mejor a las tareas específicas que son comunes en el análisis de comunicación empresarial.
A menos que los requisitos exactos puedan definirse por adelantado, los largos tiempos de entrenamiento de los modelos AutoML son prohibitivos para impulsar la exploración interactiva de datos en un bucle de aprendizaje activo, algo para lo que Communications Mining está diseñado.
El requisito de AutoML de tener 10 ejemplos para cada etiqueta antes de entrenar un modelo significa que no se puede utilizar el modelo de forma efectiva para guiar la anotación en las primeras etapas, que es precisamente la parte más difícil de un proyecto de aprendizaje automático.
Además, la brecha de distribución entre las tareas que esperan AutoML y Communications Mining significa que la herramienta más específica es capaz de producir modelos de mayor calidad más rápido, debido al uso más centrado del aprendizaje de transferencia.
Si esta comparación le ha parecido interesante, tiene algún comentario o pregunta, o quiere intentar utilizar Communications Mining para comprender mejor las conversaciones de su empresa, póngase en contacto con UiPath.