ixp
latest
false
  • Información general
    • Introducción
    • Extraer datos de documentos no estructurados
    • Crear e implementar modelos
    • Cuotas
  • Creación de modelos
    • Información general
    • Gestionar proyectos
    • Carga de documentos de ejemplo​
      • Mejores prácticas
      • Gestión de campos
      • Importar y exportar taxonomías
    • Revisar predicciones
    • Validar predicciones de extracción
    • Configuración del modelo
  • Validación del modelo
  • Implementación del modelo
  • Preguntas frecuentes
UiPath logo, featuring letters U and I in white

Guía del usuario de Documentos complejos y no estructurados

Última actualización 10 de nov. de 2025

Mejores prácticas

Esta sección contiene las mejores prácticas sobre cómo redactar buenas instrucciones de solicitud a nivel de proyecto (es decir, extracción general), a nivel de grupo de campos y a nivel de campo individual.

Nota: Estas prácticas recomendadas están diseñadas para GPT-4o, pero pueden producirse incidencias de OCR. Incluso con solicitudes bien diseñadas, seguir todas las directrices no garantiza que el rendimiento de la extracción cumpla tus expectativas.

Recomendaciones generales para taxonomía

  • Claridad y simplicidad: utiliza un idioma claro, directo y sin ambigüedades. Evita complicar demasiado las instrucciones que podrían confundir el modelo. Usa un lenguaje sencillo y frases cortas.
  • Consistencia: mantiene una terminología coherente en los campos, grupos de campos e instrucciones para evitar confusiones.
  • Proporcionar contexto: equipa el modelo con un contexto pertinente para comprender el ámbito general de la tarea. Esto podría abarcar información sobre el sector, el tipo de documento o el formato general de los datos, ya que el modelo necesita comprender la tarea que realiza. Si proporcionas más contexto dentro de la solicitud, aumenta la probabilidad de que el modelo prediga de forma correcta el campo.
  • Iterar: dado que el refinamiento de las solicitudes es un proceso iterativo, mantener un registro de tus borradores y sus resultados correspondientes puede proporcionar información valiosa para futuros ajustes y mejoras. Escribe una solicitud, prueba y edita. Repite este proceso hasta que obtengas la extracción deseada.
  • Evita instrucciones negativas: no incluyas instrucciones del tipo «no omitir ninguna sección del documento». En su lugar, sustitúyalo con: asegúrate de cubrir todas las secciones clave, como x, y, z, del documento.
  • Evita el idioma repetitivo: el idioma repetitivo puede provocar redundancia, confusión e instrucciones poco claras para el modelo.
  • Ten cuidado con la información contradictoria: asegúrate de que tu proyecto, tu grupo de campos y tus instrucciones de campo no se contradicen entre sí en cuanto a la información que se debe extraer, el formato de la extracción y dónde se puede encontrar. Esto confundirá el modelo y dará lugar a resultados inconsistentes.
  • Refuerzo del ejemplo: siempre que sea posible, refuerza la instrucción de solicitud con ejemplos de respuestas correctas. Estas instancias pueden guiar el modelo hacia el resultado esperado.

Figura 1. Ejemplo de taxonomía

Nivel de proyecto (extracción general)

Mejores prácticasDetallesImportanciaEjemplo correcto Ejemplo incorrecto
Define la industria y el tipo de documento.Describe brevemente el sector y el tipo de documento del que se extrae la información. A continuación, especifica las características clave y la estructura esperada del tipo de documento para guiar la extracción.  Esto proporciona un contexto importante para el proceso de extracción de datos. Instrucción: extrae información de un estado de cuenta de corretaje, que se encuentra habitualmente en el sector de servicios financieros.Los estados de corretaje normalmente constan de algunas secciones: información general de la cuenta, resumen de la cuenta, tenencias de la cuenta y actividad de transacción de la cuenta.

Instrucción: extrae los siguientes campos del documento.

Explicación: este ejemplo de instrucción de proyecto no beneficia al modelo. No proporciona ningún contexto o características clave importante que ayude a guiar el modelo. 

Especifica si esperas varias apariciones del documento dentro de un archivo.  Indica si el documento contiene varias instancias de datos idénticos y proporciona orientación para cada instancia de extracción. En los casos de uso que pueden tener varios documentos dentro de un solo archivo, asocia un identificador único e inclúyelo como campo en cada grupo de campos. Esto facilitará el procesamiento posterior, permitiendo una automatización más eficiente.  Instrucción: puede haber varias cuentas de corretaje dentro de un solo archivo de documento. Una cuenta de corretaje puede identificarse a través de un campo de número de cuenta único presente en cada grupo de campos. Extrae la información, las tenencias y los grupos de campos de actividad de la cuenta para cada una de las cuentas.

Instrucción: extrae todas las instancias de datos de cada documento de la cuenta.

  

Explicación: este ejemplo de instrucción es inadecuado, ya que no especifica cómo determinar si hay varias apariciones de un tipo de documento dentro del archivo. 

Nivel de grupo de campo

Mejores prácticasDetallesImportanciaEjemplo correcto Ejemplo incorrecto
Agrupa los puntos de datos similares que quieres que se extraigan juntos en grupos de campos.  Organiza los campos relacionados en grupos lógicos.Esto ayuda a agilizar la extracción y minimizar los errores. El nombre, la dirección y el estado civil del propietario de la cuenta se pueden agrupar en un grupo de campos Información del propietario de la cuenta. 

Grupo de campos: información de la cuenta

  

Campos: activos de la cuenta, fecha de la transacción, propietario de la cuenta

  

Explicación: esta agrupación puede ser útil en el caso de que un usuario solo desee extraer esos tres campos. Sin embargo, si hay otros campos como el símbolo del ticker de mantenimiento y la base del coste, el diseño o la estructura de este grupo no será el más efectivo. 

Contexto del grupo de campo Explica cómo cada grupo de campos contribuye al significado y al propósito generales del documento. Esto ayuda al modelo a comprender el contexto de la extracción. Instrucción: esta sección describe los detalles clave del resumen de cuenta de corretaje, incluido el nombre de la participación, la fecha de compra, la cantidad comprada, la base de costo y el precio total pagado. Estos detalles ayudan a determinar las tenencias actuales en un estado de cuenta de corretaje.

Instrucción: extrae los siguientes campos del documento.

  

Explicación: las instrucciones de solicitud carecen de contexto e instrucciones detalladas para el modelo. No explica el tipo de información que requiere extracción ni destaca su importancia. 

  

Aprovecha la ubicación y la estructura de la información en el documento dentro de la solicitud de tu grupo de campos. Indica las ubicaciones probables para los datos de cada campo, por ejemplo, tabla, encabezado, cuerpo, para guiar la extracción.
Nota: Si trabajas en un documento en el que la información aparece en la misma sección, indica la sección en la solicitud. 
Esto ayuda al modelo a centrarse en la parte correcta del documento para cada campo. Instrucción: los datos en el nivel de campo para esta sección se encuentran muy probablemente en el encabezado del informe en la primera página debajo del título del documento.

Instrucción: extrae la información del principio del documento.

  

Explicación: la solicitud es vaga y no proporciona al modelo suficientes detalles sobre dónde buscar específicamente en el documento. 

Modelar tablas utilizando grupos de campos con camposun grupo de campos como una tabla, en la que cada columna actúa como un campo único en ese grupo. Este enfoque es clave para un modelado de datos efectivo, ya que garantiza una diferenciación clara, minimiza la duplicación de datos y aumenta la consistencia de los datos. Este método permite una disposición de datos estructurada de forma lógica y sistemática, lo que posteriormente conduce a una mayor eficiencia durante las consultas y el análisis de datos. 

Grupo de campo: clientes

Campos: nombre, dirección, número de teléfono

Grupos de campos: nombre del cliente, dirección del cliente, número de teléfono del cliente

Campos: nombre, dirección, número de teléfono

Explicación: este ejemplo separa innecesariamente los detalles del cliente en grupos de campos individuales, lo que complica la gestión de datos y la hace propensa a incoherencias.

Crear grupos de campos principal y secundario Las relaciones se indican con un signo mayor que >. Un grupo de campos principal puede tener varios grupos de campos secundarios.  Aprovechar los grupos de campos para mostrar las relaciones entre los datos dentro de los documentos es una excelente manera de mantener la organización jerárquica de los datos.

Grupo de campos: declaración de corretaje

Campos: propietario de la cuenta, tipo de cuenta

Nombre de grupo de campos: Declaración de corretaje > Asignación de activos

Campos: tipo de activo, por ejemplo, acciones, bonos, efectivo, porcentaje de activos totales

Nombre de grupo de campos: Declaración de corretaje > Inversiones

Campos: nombre de la inversión, cantidad de propiedad, precio por acción, valor total de la inversión

Grupo de campos: propietario de la cuenta

Campos: nombre, nombre de la inversión, tipo de cuenta, número de acciones, acciones, bonos

Grupo de campos: Propietario de la cuenta > Dirección

Campos: calle, ciudad, estado, código postal

Grupo de campos: Propietario de la cuenta > Información de contacto

Campos: Número de teléfono, Correo electrónico

  

Explicación: esta es una jerarquía poco estructurada porque combina campos no relacionados bajo el mismo padre, y los grupos de campos secundarios (Dirección e Información de contacto) no se relacionan lógicamente con los campos del padre (Nombre de la inversión, Número de acciones, acciones, bonos). Esto podría confundir el modelo de IA, ya que no refleja la organización natural de los datos dentro del documento. 

Utiliza un campo clave para archivos que contienen varios documentos dentro de ellos Selecciona un identificador exclusivo en el documento que te permita diferenciar los datos. Incluye este campo en cada grupo de campos. No es necesitas modificar la instrucción para este campo de un grupo de campos a otro. La inclusión de este campo clave permite separar la información dentro del documento y elimina la confusión al procesar los datos extraídos.  Campo: número de cuenta, número de la seguridad social, número de póliza

Campo: fecha, nombre

Explicación: los nombres de campo enumerados no serían buenos campos clave, ya que no son únicos. Las fechas y los nombres se pueden repetir. 

Nivel de campo

Mejores prácticasDetallesImportanciaEjemplo correcto Ejemplo incorrecto
Elige los nombres de los campos con cuidado Elige nombres claros y reconocibles para los campos que se alineen con las expectativas del usuario. Si hay un nombre universal que se utiliza en todas las variaciones del documento, asegúrate de incluirlo.  Los nombres de los campos precisos garantizan una extracción precisa y reducen la ambigüedad. Campo: fecha del accidente

Campo: fecha

  

Explicación: la fecha es un término genérico y no proporciona ningún contexto sobre a qué se refiere la fecha. Esto puede conducir a una extracción de datos imprecisa, ya que el modelo de IA puede recoger cualquier fecha que aparezca en el documento. 

Sé explícito y detallado con las instrucciones Inicia el modelo indicando explícitamente lo que quieres que el modelo extraiga. Especifica el formato y la estructura exactos de los datos que se van a extraer.  Las solicitudes claras y detalladas guían el modelo para extraer exactamente lo que necesitas, en el formato que esperas. Instrucciones: extrae la lista de todos los asesores del documento, conviértela en una lista separada por comas y ordénala alfabéticamente.

Instrucción: obtén todos los asesores

  

Explicación: la solicitud es vaga y no proporciona al modelo instrucciones claras sobre el resultado deseado y cómo debe formatearse. Esto puede dar lugar a incoherencias en la información extraída, lo que dificulta el procesamiento de los resultados. 

  

Proporciona ejemplos dentro de las instruccionesProporciona entradas de ejemplo y las salidas esperadas correspondientes para aclarar los resultados esperados. Esto ayuda al modelo a comprender exactamente lo que estás buscando.  Instrucciones: extrae las fechas de la transacción del documento. Las fechas deben estar en formato MM/DD/YYYY. Por ejemplo, si el documento indica que la transacción se completó el 1 de enero de 2021, la fecha extraída debe ser 01/01/2021. Si la fecha de la transacción se indica en el formato MM/YYYY, se extraerá como el primer día de ese mes. Por ejemplo, si la fecha se presenta como 05/2021, extráela como 05/01/2021.

Instrucción: obtén las fechas de la transacción del documento.

  

Explicación: la solicitud anterior no es tan efectiva porque no proporciona instrucciones explícitas sobre cómo manejar los diferentes formatos de fecha que se encuentran en el documento. Esta falta de claridad puede provocar una extracción de fechas inconsistente, lo que hace que la tarea de interpretar y analizar datos sea más complicada. 

Céntrate en una idea principal por instrucción de campo. Evita sobrecargar la solicitud intentando extraer grandes cantidades de datos secuenciales en un solo campo para mejorar la precisión. Cada nivel de campo debe centrarse en extraer un dato. Esto también facilitará el procesamiento posterior. 

Campo 1: extrae el número de cuenta.

Campo 2: extrae la fecha de la transacción.

Campo 3: extrae el saldo de la cuenta.

Instrucciones: extrae el número de cuenta, la fecha de la transacción y el saldo de la cuenta juntos.

Explicación: la solicitud está sobrecargada con varias instrucciones que dirigen al modelo para extraer diferentes tipos de datos simultáneamente. Este enfoque podría crear resultados de extracción desordenados y dificultar el procesamiento posterior. 

Nivel de tipo de campo

Mejores prácticasDetallesImportanciaEjemplo correcto Ejemplo incorrecto
Elige tipos de datos con propósitoConsidera cómo quieres que se formateen los datos extraídos y asegúrate de que se alinee con los casos de uso descendentes para optimizar la extracción para la automatización. 
  • Fecha: utiliza esto para representar fechas en texto. Las fechas se normalizarán como UTC con un formato YYYY-MM-DD HH:MM:SS
  • Texto exacto: utilízalo para representar el texto que aparece textualmente en el texto. 
  • Texto inferido: utilízalo para el texto que puede no aparecer literalmente en el texto, pero tiene otros identificadores dentro del documento que están presentes. 
  • Cantidad monetaria: utiliza esto para representar valores monetarios en el texto. Las cantidades monetarias se normalizan en los siguientes formatos de ejemplo: $00.00o 00.00 USD.
  • Número: utilízalo para representar cantidades en texto. Los números se infieren a partir del documento, los usuarios pueden introducir valores y, opcionalmente, anotar pruebas. El valor se formateará como un valor decimal, 00.00.
Seleccionar el tipo de datos adecuado permite un formato preciso y un procesamiento posterior más fácil.

Nombre del campo: volumen de transacción

Tipo de datos: número

Nombre del campo: número de teléfono

Tipo de datos: número

Explicación: utilizar el tipo de datos Número para un número de teléfono no es beneficioso. Aunque un número de teléfono se compone de dígitos, no es un valor numérico, lo que significa que no se pueden realizar cálculos aritméticos con él; se describe mejor como una cadena de dígitos. Por lo tanto, utilizar un tipo de datos de texto exacto sería la opción adecuada. 

Solo incluye instrucciones específicas del tipo de campo en el tipo de campo. 

Cuando se proporcionan instrucciones para la extracción de datos, es crucial mantenerlas específicas para cada tipo de campo. Si hay instrucciones generales que se aplican a todos los campos de un cierto tipo, un usuario puede proporcionarlas en el nivel de tipo de campo para evitar la repetición. Por ejemplo, si todos los campos de Cantidad monetaria deben estar en USD, especifica esto en el nivel de tipo de campo. 

  

Sin embargo, algunos conjuntos de datos pueden requerir campos únicos que no cubren los tipos de campo existentes (Fecha, Texto, Cantidad monetaria, etc.). En estos casos, puedes crear un nuevo tipo de campo personalizado. Al escribir instrucciones para estos nuevos campos, especifica cómo deben formatearse los datos para garantizar que los datos extraídos cumplan con su propósito previsto. Estas prácticas mejoran la precisión y la consistencia de tus datos extraídos. 

 

Tipo de campo: fecha

Instrucciones: extrae todas las fechas asociadas a las transacciones del documento. Las fechas deben normalizarse al formato YYYY-MM-DD.

Tipo de campo: cantidad monetaria

Instrucción: extrae el precio del artículo de la columna Precio en la tabla de elementos de la factura.

Explicación: la instrucción es relevante específicamente para extraer una cantidad monetaria de un campo determinado (la columna Precio), no para cualquier otro campo basado en la cantidad monetaria. 

Pruebas e iteración

  1. Crea un campo para toda la Información que quieres extraer, pero no incluyas ninguna instrucción.
  2. Selecciona una muestra de 2 a 3 documentos y ejecuta predicciones en cada uno de ellos. Estos documentos deben reflejar la variación presente en los documentos para los que estás creando el modelo.
  3. Compara las extracciones del modelo con lo que esperabas. Para los campos que no funcionaron bien, redacta una solicitud utilizando las prácticas recomendadas enumeradas anteriormente, ya que esto te servirá como tu solicitud de referencia.
  4. Vuelve a ejecutar las predicciones utilizando los mismos 2 a 3 documentos de ejemplo que probaste anteriormente y comprueba si ha mejorado el rendimiento de la extracción.
  5. Si las predicciones son incorrectas o incompletas, refina las solicitudes para añadir los detalles necesarios para mejorar el rendimiento de extracción del modelo. Si las predicciones se alinean con tus expectativas, amplía el tamaño de tu muestra de los documentos. Es crucial aumentar gradualmente estos números. Pasa de 2 a 3, luego a 10, luego a 20, 30, y así sucesivamente. Continúa hasta que te sientas seguro de que las predicciones del modelo son correctas.
  6. Si las instrucciones han cambiado, vuelve a evaluar los documentos vistos anteriormente para asegurarte de que las predicciones siguen siendo precisas.
  7. Una vez que estés satisfecho con el rendimiento del modelo, vuelve a leer el primer documento y comienza a anotar. Anotar al menos 10 documentos para obtener métricas de rendimiento de campo valiosas a través de la pestaña Medir. Esta característica te permite evaluar el rendimiento de la extracción tanto en el nivel general del proyecto como en el de campo.
  8. Supervisa las métricas de rendimiento para informar tu refinamiento de solicitud a gran escala. El proceso de iteración de solicitud debe producirse principalmente en el nivel de campo, donde los ajustes tendrán impactos más específicos y directos en los campos específicos que no funcionan bien. Si la puntuación de un grupo de campos no funciona bien, ajustar las instrucciones de tu proyecto y grupo de campos puede tener más impacto, ya que afectan a varios campos.

¿Te ha resultado útil esta página?

Obtén la ayuda que necesitas
RPA para el aprendizaje - Cursos de automatización
Foro de la comunidad UiPath
Uipath Logo
Confianza y seguridad
© 2005-2025 UiPath. Todos los derechos reservados.