ai-center
2023.4
false
UiPath logo, featuring letters U and I in white
Guía del usuario de AI Center
Automation CloudAutomation SuiteStandalone
Last updated 22 de oct. de 2024

Utilizar NER personalizado con aprendizaje continuo

Información en segundo plano

Este ejemplo se utiliza para extraer productos químicos por la categoría mencionada en informes de investigación. Al seguir el siguiente procedimiento, extraerás los productos químicos y los clasificarás como ABBREVIATION, FAMILY, FORMULA, IDENTIFIER, MULTIPLE, SYSTEMATIC, TRIVIAL y NO_CLASS.

Recomendaciones

Cuándo utilizar el modelo de reconocimiento de entidad con nombre personalizado (NER)

Utiliza el modelo NER personalizado para extraer:

  • información especial del texto. Esta información se llama entity.
  • los nombres de personas, lugares, organizaciones, ubicaciones, fechas, valores numéricos, etc. Las entidades extraídas son mutuamente excluyentes. Las entidades están en el nivel de una o varias palabras, no en el nivel de subpalabras. Por ejemplo, en la oración Vivo en Nueva York , una entidad puede ser Nueva York pero no en la oración Leí el neoyorquino .

Puedes utilizar las entidades extraídas directamente en los procesos de extracción de información o como entradas para las tareas posteriores como la clasificación del texto de origen, el análisis de sentimientos del texto de origen, PHI, etc.

Recomendaciones de conjuntos de datos de entrenamiento

  • Tener al menos 200 muestras por entidad si las entidades son densas en las muestras, lo que significa que la mayoría de las muestras (más del 75 %) contienen de 3 a 5 de estas entidades.
  • Si las entidades son escasas (cada muestra tiene menos de tres entidades), es decir, solo unas pocas de todas las entidades aparecen en la mayoría de los documentos, entonces se recomienda tener al menos 400 muestras por entidad. Esto ayuda al modelo a comprender mejor las características discriminatorias.
  • Si hay más de 10 entidades, añade 100 muestras más de forma incremental hasta alcanzar la métrica de rendimiento deseada.

Mejores prácticas

  1. Tener entidades significativas; si un humano no puede identificar una entidad, tampoco puede hacerlo un modelo.
  2. Tener entidades simples. En lugar de una sola dirección de entidad, divídela en varias entidades: nombre de la calle, nombre del estado, nombre de la ciudad o código postal, etc.
  3. Crea conjuntos de datos de entrenamiento y de prueba, y utiliza un proceso completo para el entrenamiento.
  4. Comience con un número mínimo de muestras para la anotación, que abarque todas las entidades.
  5. Asegúrate de que todas las entidades estén representadas tanto en la división de entrenamiento como en la de prueba.
  6. Ejecuta un proceso completo y comprueba las métricas de prueba. Si la métrica de prueba no es satisfactoria, comprueba el informe de clasificación e identifica las entidades con bajo rendimiento. Añade más muestras que cubran las entidades de bajo rendimiento y repite el proceso de entrenamiento, hasta alcanzar la métrica deseada.

Requisitos previos

Este procedimiento utiliza el paquete Reconocimiento personalizado de entidad con nombre. Para obtener más información sobre cómo funciona este paquete y para qué se puede utilizar, consulta Reconocimiento personalizado de entidades con nombre.

Para este procedimiento, hemos proporcionado archivos de muestra de la siguiente manera:

  • Conjunto de datos preetiquetado en formato CoNLL. Puedes descargarlo aquí.
  • Conjunto de datos de prueba preetiquetado. Puedes descargarlo aquí.
  • Flujo de trabajo de muestra para extraer categorías de productos químicos mencionados en informes de investigación. Puedes descargarlo aquí.
    Aviso: Asegúrate de que las siguientes variables se rellenan en el archivo de muestra:
    • in_emailAdress: la dirección de correo electrónico a la que se asignará la tarea de Action Center.
    • in_MLSkillEndpoint: punto de conexión público de la habilidad ML.
    • in_MLSkillAPIKey: clave API de la habilidad ML.
    • in_labelStudioEndpoint: (opcional) para habilitar el etiquetado continuo: proporciona la URL de importación de un proyecto de estudio de etiquetas.

Procedimiento

Sigue el siguiente procedimiento para extraer productos químicos de informes de investigación por categoría.
  1. Importa el conjunto de datos de muestra en UiPath® AI Center. Para ello, ve al menú Conjuntos de datos y carga las carpetas train y test de la muestra.
  2. Selecciona el paquete personalizado NER de Paquetes ML > Paquetes listos para usar > Análisis de idioma de UiPath y créalo.
  3. Ve al menú Procesos y crea una nueva ejecución de procesos completa para el paquete creado en el paso anterior. Señala al entrenamiento y el conjunto de datos de prueba proporcionado en el archivo de muestra.

    Una vez completado, los resultados del proceso estarán disponibles en Artefactos. Puedes descargar el informe de clasificación para evaluar los resultados de la prueba.

  4. Crea una nueva habilidad ML utilizando el paquete generado por la ejecución del proceso en el paso anterior e impleméntala.
  5. Una vez implementada la habilidad, aprovéchala en el flujo de trabajo de UiPath® Studio proporcionado. Para habilitar la captura de datos con predicciones débiles, implementa una instancia de Label Studio y proporciona la URL de la instancia y la clave API en la actividad de Label Studio en el flujo de trabajo.

Primeros pasos con Label Studio

Para dar tus primeros pasos en Label Studio y exportar datos a AI Center, sigue las instrucciones que aparecen a continuación.

  1. Instala Label Studio en tu máquina local o instancia en la nube. Para hacerlo, sigue las instrucciones que aparecen aquí.
  2. Crea un nuevo proyecto desde Plantilla de reconocimiento de entidades con nombre y define los nombres de etiqueta.


  3. Asegúrate de que los nombres de etiqueta no tienen caracteres especiales ni espacios. Por ejemplo, en lugar de Set Date, utiliza SetDate.
  4. Asegúrate de que el valor de la etiqueta <Text> es "$text".


  5. Carga los datos utilizando la API desde aquí.

    Ejemplo de solicitud cURL:

    curl --location --request POST 'https://<label-studio-instance>/api/projects/<id>/import' \)\)
    --header 'Content-Type: application/json' \)\)
    --header 'Authorization: Token <Token>' \)\)
    --data-raw '[
        {
          "data": {
            "text": "<Text1>"
          },
        },
        {
          "data": {
            "text": "<Text2>"
           }
        }
    ]'curl --location --request POST 'https://<label-studio-instance>/api/projects/<id>/import' \)\)
    --header 'Content-Type: application/json' \)\)
    --header 'Authorization: Token <Token>' \)\)
    --data-raw '[
        {
          "data": {
            "text": "<Text1>"
          },
        },
        {
          "data": {
            "text": "<Text2>"
           }
        }
    ]'
  6. Anota tus datos.
  7. Exporta los datos en el formato CoNLL 2003 y cárgalos en AI Center.
  8. Proporcionamos la URL de la instancia de Label Studio y la clave API en el flujo de trabajo de muestra proporcionado para capturar predicciones incorrectas y de poca confianza.
  • Información en segundo plano
  • Recomendaciones
  • Requisitos previos
  • Procedimiento
  • Primeros pasos con Label Studio

¿Te ha resultado útil esta página?

Obtén la ayuda que necesitas
RPA para el aprendizaje - Cursos de automatización
Foro de la comunidad UiPath
Uipath Logo White
Confianza y seguridad
© 2005-2024 UiPath. Todos los derechos reservados.