- Primeros pasos
- Componentes de marco
- Visión general de taxonomía
- Gestor de taxonomía
- Actividades relacionadas con taxonomía
- Resumen de la clasificación de documentos
- Asistente para Configurar clasificadores de Clasificar ámbito de documento
- Clasificador basado en palabras clave
- Clasificador inteligente de palabra clave
- Clasificador de CapturaFlexible
- Clasificador de aprendizaje automático
- Actividades relacionadas con la clasificación de documentos
- Paquetes ML
- Procesos
- Gestor de datos
- Servicios de OCR
- Document Understanding implementado en Automation Suite
- Document Understanding implementado en AI Center independiente
- Aprendizaje profundo
- Licencia
- Referencias
- Actividades.DeUipath
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Visión general de taxonomía
La taxonomía son los metadatos que el marco Document Understanding considera en cada uno de sus pasos.
Una taxonomía es una colección de tipos de documentos.
- Un tipo de documento es la definición de un tipo lógico de documento que debe ser gestionado por diferentes procesos empresariales. Algunos ejemplos de tipos de documentos son las facturas, los historiales médicos, los formularios de Hacienda, los contratos, etc. Un tipo de documento, además de un nombre, un grupo y una categoría (para facilitar su gestión), suele contener una colección de campos.
- Un campo es información que está previsto encontrar y recopilar de un tipo de documento específico.
Como ya hemos visto, una taxonomía es una estructura jerárquica que contiene el esquema de la información que utilizará el marco Document Understanding en todo momento. Cada definición de entidad (para tipos de documentos o campos) que se encuentra en la taxonomía tiene un ID único.
Si deseas clasificar los archivos entrantes en diferentes tipos de documentos, la taxonomía debe contener los tipos de documentos que deseas tratar específicamente. Estos te permitirán configurar los procesos de Document Understanding basándose en un esquema de datos uniforme: la estructura de la taxonomía.
Si deseas extraer datos de determinados tipos de documentos, la taxonomía contendrá la lista de campos a los que se dirige la extracción automática de datos. Estos permitirán la configuración de varios métodos y reglas de extracción, de nuevo, basados en un único esquema de datos real: la estructura del tipo de documento.
Un campo puede tener partes derivadas: información formateada extraída o editada a partir del valor textual subyacente que se encuentra en un documento.
Tipo de campo |
Permite multivalor |
Propósito |
Piezas derivadas para el formato |
Información adicional |
---|---|---|---|---|
Texto |
Sí |
Información textual |
N/D |
N/D |
Número |
Sí |
Valores numéricos |
|
N/D |
Fecha |
Sí |
Fechas |
|
Los campos de fecha permiten la definición de un formato esperado, que debe ser una cadena de formato de fecha compatible con MSDN (por ejemplo,
dd-MM-yyyy o MM, dd, yyyy ).
Este formato lo utiliza la actividad Ámbito de extracción de datos al intentar analizar una fecha en sus partes correspondientes al día, mes y año. |
Nombre |
Sí |
Nombres de personas |
|
N/D |
Address |
Sí |
Direcciones |
|
N/D |
ESTABLECER |
Sí |
Información que tiene valores estrictos notificados de un conjunto predefinido |
N/D |
Un campo Establecer debe definir las opciones permitidas como valores. Estos se reflejan en la estación de validación. |
Booleano |
Sí |
Valores Sí/No |
N/D |
Un campo booleano solamente puede tener el valor Sí o No, y se refleja en la estación de validación. |
Tabla |
No |
Datos tabulares |
N/D |
Los campos Tabla contienen la definición de las columnas. |
Columna de tabla |
No |
Cada celda de la tabla. |
N/D |
Las columnas de una tabla se definen como uno de los campos regulares de la lista de componentes. No pueden ser de tipo Tabla. |
und
) para admitir casos excepcionales.
DocumentTaxonomy
, el método Serialize()
devuelve una representación del objeto JSON
, de modo que pueda almacenarse y recuperarse para su uso posterior.
DocumentTaxonomy.Deserialize(jsonString)
devuelve un objeto DocumentTaxonomy
, dotado de los datos codificados en JSON que se han pasado como parámetro.
Una vez instalado el paquete UiPath.IntelligentOCR.Activities en el proyecto UiPath Studio, aparecerá el botón Gestor de taxonomía en la cinta principal de la pestaña de diseño de Studio. Utiliza el asistente del Gestor de taxonomía para editar la taxonomía del proyecto.
taxonomy.json
.
El archivo se crea automáticamente cuando se abre por primera vez el asistente del Gestor de taxonomía. Puedes ver la ubicación exacta del archivo en el Gestor de taxonomía pasando el ratón por encima del botón . También, cada vez que abras el Gestor de taxonomía, aparecerá un mensaje emergente en la esquina superior derecha que te informará de la ubicación del archivo. Cuando se publica un proyecto desde Studio, la taxonomía se publicará, así como un artefacto del proyecto.
taxonomy.json
es único para cada proyecto, aunque se puede reutilizar si se copia manualmente en un nuevo proyecto. Para ello, basta con crear un nuevo proyecto, luego ir a la carpeta del proyecto y copiar el archivo con la taxonomía deseada en la ubicación correcta (en la carpeta DocumentProcessing).
La taxonomía para document understanding se requiere como un objeto en todo el marco Document Understanding.
La forma más sencilla y práctica de cargar el objeto es mediante la actividad Cargar taxonomía. Una vez cargado el objeto de taxonomía, se puede utilizar en todos los componentes del marco posteriores que lo requieran.
- Si decides guardar la taxonomía en otra ubicación, aún puedes cargarla en tu proyecto (una vez obtenido el contenido de la cadena del archivo de taxonomía, por ejemplo, una variable
myTaxonomyContentString
), utilizando una sencilla actividadAsignar, tal y como se indica a continuación:myTaxonomy = DocumentTaxonomy.Deserialize(myTaxonomyContentString)
- Si el caso de uso lo requiere, recuerda que la taxonomía es un objeto de clase simple que, cuando es necesario, puede modificarse incluso durante su ejecución.
- ¿Qué es la taxonomía?
- ¿Cómo ayuda en la clasificación de documentos?
- ¿Cómo ayuda en la extracción de datos?
- Tipos de campo y detalles
- Otra información capturada en la taxonomía
- Métodos de extensión de taxonomía
- Serialize()
- Deserialize(String)
- GetFields(String)
- Cómo crear y editar la taxonomía de un proyecto
- Cómo utilizar la taxonomía en un proyecto
- Casos de uso avanzados