- Primeros pasos
- Componentes de marco
- Resumen de la clasificación de documentos
- Asistente para Configurar clasificadores de Clasificar ámbito de documento
- Clasificador basado en palabras clave
- Clasificador inteligente de palabra clave
- Clasificador de CapturaFlexible
- Clasificador de aprendizaje automático
- Actividades relacionadas con la clasificación de documentos
- Paquetes ML
- Procesos
- Gestor de datos
- Servicios de OCR
- Document Understanding implementado en Automation Suite
- Document Understanding implementado en AI Center independiente
- Aprendizaje profundo
- Licencia
- Referencias
- Actividades.DeUipath
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Guía del usuario de Document Understanding
Extractor basado en regex
El extractor basado en expresiones regulares es la herramienta perfecta para casos de uso sencillos, en los que, para determinados campos, los datos se encuentran siempre en un formato y contexto estrictos y predecibles. En otras palabras, si tienes un campo para el que puedes definir una expresión regular que sea consistentemente buena cuando coincide, entonces el extractor basado en expresiones regulares es una buena opción.
La actividad viene con un asistente de configuración que te ayuda a definir las expresiones regulares para los campos a los que quieres dirigir la extracción de datos de esta manera.
La actividad admite tanto los campos simples como la extracción de campos de tabla.
Se recomienda buscar otros métodos de extracción, en caso de que haya una gran variabilidad del contexto y del formato de los valores esperados. En estos casos, puede ser más adecuado un extractor de formularios o un extractor de aprendizaje automático.
Este extractor no tiene capacidad de aprendizaje (entrenamiento) y requiere una configuración de antemano.
No hay requisitos especiales para usar el extractor basado en expresiones regulares.
El extractor basado en expresiones regulares tiene dos configuraciones principales a tener en cuenta:
- el asistente Configurar expresiones regulares, que permite definir expresiones regulares para determinados campos. Este asistente también pone a tu disposición el asistente del editor de expresiones regulares, que te ayuda a crear tus expresiones regulares.
- la configuración UsarAlineaciónVisual, que permite controlar si las expresiones regulares configuradas para un extractor deben aplicarse a la salida de texto del componente de digitalización, o a una versión de texto en la que las líneas de texto se organizan visualmente y las palabras se reordenan en líneas basadas en su alineación visual.
El asistente Configurar expresiones regulares se puede utilizar para definir las expresiones regulares que se utilizarán para capturar datos tanto para campos simples como para campos de tabla.
- Añade una actividad Extractor basado en expresiones regulares a tu flujo de trabajo, dentro de una actividad Ámbito de extracción de datos.
- Configura tus expresiones regulares haciendo clic en el botón Configurar expresiones.
- Se abrirá la ventana del Asistente.
- Se abrirá la ventana del Asistente.
- Amplía la entrada de tipo de documento para ver todos los campos definidos y comienza a configurar tus expresiones regulares. Los tipos de documento y sus campos respectivos se leen automáticamente desde la taxonomía del proyecto. La opción de configuración de expresiones regulares está disponible para todos los campos en la taxonomía.
- tipo de documento ampliado que muestra un único campo regular:
- Tipo de documento expandido y campo de tabla, que muestran las opciones de configuración para una tabla:
En el caso de un campo simple, solo puede definirse una única expresión regular mediante el asistente de expresiones regulares que se abre al hacer clic en la opción "Editar" situada junto a ese campo.
En el caso de un campo de tabla, existen múltiples opciones disponibles para su configuración:
- La Expresión regular de valor de tabla puede utilizarse para capturar toda el área de una tabla. Si no se añade ningún valor en la línea del campo Tabla, todo el contenido de texto del documento se considera en adelante para el procesamiento de la tabla.
- La Expresión regular de valor de fila puede utilizarse para capturar una fila completa de una captura de tabla determinada. Si no se añade ningún valor en la línea del campo Filas, el área de la tabla se divide al final de línea. Cada valor capturado se considera a partir de este momento como una fila sobre la que se va a aplicar la extracción de columnas.
- La Expresión regular de valor de columna puede utilizarse para capturar el valor de una columna concreta de cada línea capturada.
Escenarios de uso de las expresiones regulares Tabla, Filas y Columna:
- Si dejas vacíos los campos Expresión regular de tabla y Expresión regular de filas, todas las líneas de la versión de texto del documento se utilizarán para aplicar las Expresiones regulares de nivel de columna en la identificación del valor de la celda.
- Si defines una expresión regular para capturar el área de la tabla, pero dejas vacía la Expresión regular de filas, todas las líneas de la captura de la tabla se procesan de manera individual utilizando cada Expresión regular de columna para capturar los valores de las celdas.
- Si dejas vacía la Expresión regular de tabla, pero defines una Expresión regular de filas, se utilizará todo el texto capturado con esta última y las Expresiones regulares de columna se aplicarán para capturar los valores de celda de cada fila.
- Si rellenas las Expresiones regulares Tabla y Filas, la actividad aplica la Expresión regular Tabla para identificar la cadena de tabla, a continuación, aplica la Expresión regular Filas para identificar cada línea, seguida de la Expresión regular Nivel de columna para la captura de valores de celda.
- tipo de documento ampliado que muestra un único campo regular:
- Añade tu expresión regular en el campo Expresión.
Nota: Tienes la opción de escribir la Expresión regular entera en el campo Expresión o crearla utilizando el botón Editar.Importante: En cualquiera de las expresiones regulares que definas, ¡asegúrate de tener al menos un grupo de captura! Solo las partes capturadas de una expresión se utilizan para la notificación de valores.
- Haz clic en la lista desplegable de la columna Opciones de expresión regular. Las Opciones de expresión regular se pueden establecer desde esta opción de selección múltiple.
- Hay múltiples opciones entre las que puedes elegir:
- CulturaInvariable: especifica que se ignoran las diferencias culturales lingüísticas.
- ECMAScript: habilita el comportamiento compatible con ECMA Script para la expresión. Este valor solo puede utilizarse junto con las opciones IgnorarMayúsculas y Multilínea.
- CapturaExplícita: especifica que las únicas capturas válidas son las de grupos explícitamente nombrados o numerados y definidos como
(?<name> subexpression)
. Se ignorarán todos los paréntesis sin nombre. - IgnorarMayúsculas: especifica que la búsqueda no distingue entre mayúsculas y minúsculas.
- IgnorarPatrónDeEspacioEnBlanco: elimina el espacio en blanco sin mayúsculas del patrón definido y habilita los comentarios marcados con
#
. Esta opción no se aplica a clases de caracteres, cuantificadores numéricos o tokens que marcan el comienzo de un elemento de idioma de expresión regular individual. - LíneaSimple: especifica que la búsqueda se inicie en una sola línea. El punto
(.)
coincide con todos los caracteres, incluida la excepción\n
. - Multilínea: especifica que la búsqueda se inicie en varias líneas. Para esta opción, los caracteres especiales
^
y$
coinciden con el principio y el final de cualquier línea. - DerechaAIzquierda: especifica que la búsqueda se realiza de derecha a izquierda.
Nota: Aquí puedes encontrar más información sobre las Opciones de expresiones regulares.
- Haz clic en el botón Editar para editar las opciones de ese campo y el formato de la expresión regular.
- Añade texto en el campo Texto de prueba para probar los criterios de búsqueda que elijas con respecto al texto al que deseas aplicar la expresión regular.
- Selecciona uno de los tipos de fórmula de expresión regular de la lista desplegable. De este modo, se establece la expresión regular para que coincida con una de las siguientes características:
- Literal: coincide exactamente con los caracteres que has especificado. Esta opción distingue entre mayúsculas y minúsculas.
- Dígito: coincide con un dígito.
- Uno de: coincide con un único carácter presente en el conjunto.
- No es ninguno: coincide con un único carácter que no está presente en el conjunto.
- Cualquiera: coincide con cualquier carácter, excepto
\n
. - Cualquier carácter de palabra: coincide con cualquier letra o número.
- Espacio en blanco: coincide con un espacio en blanco.
- Comienza con: inicia la búsqueda donde comienza la línea.
- Termina con: inicia la búsqueda donde termina la línea.
- Avanzado: requiere una expresión personalizada.
- Correo electrónico: coincide con una dirección de correo electrónico.
- URL: coincide con una URL.
- Fecha de EE. UU.: coincide con el formato de fecha de EE. UU.
- Número de teléfono de EE. UU.: coincide con el formato de número de teléfono de EE. UU.
Nota: Puedes encontrar más información sobre las expresiones regulares en .NET aquí.
- Utiliza el campo Valor para escribir el valor de la expresión regular.
- Selecciona un cuantificador de la lista desplegable Cuantificadores.
- Exactamente: coincide con el elemento anterior exactamente las veces que se especifica. De forma predeterminada, está establecido en
1
. - Cualquiera (0 o más): coincide cero o más veces con el elemento precedente, pero el menor número de veces posible.
- Al menos uno (1 o más): coincide con el elemento precedente una o más veces.
- Cero o uno: coincide con el elemento precedente una o ninguna vez o el mínimo de veces posible.
- Entre X e Y veces: coincide con el elemento precedente entre
x
yy
veces, dondex
yy
son números enteros, pero el menor número de veces posible.
- Exactamente: coincide con el elemento anterior exactamente las veces que se especifica. De forma predeterminada, está establecido en
- Utiliza el botón para añadir un campo Expresión regular adicional. Desplaza los campos hacia arriba y hacia abajo en la jerarquía utilizando los botones y . Utiliza el botón para eliminar el campo.
- Si deseas extraer un campo específico, selecciona la casilla de verificación de la opción Capturar.
- El campo Expresión completa muestra la expresión completa, exactamente como la hayas personalizado.
- Selecciona una o varias opciones de la lista desplegable Opciones de expresión regular.
- Una vez que hayas realizado todas las configuraciones, haz clic en el botón Guardar para salir del modo Edición y, a continuación, vuelve a hacer clic en él para cerrar el asistente.