- Información general
- Proceso de Document Understanding
- Tutoriales de inicio rápido
- Componentes de marco
- Información general
- Actividades de Document Understanding
- Visión general de taxonomía
- Gestor de taxonomía
- Actividades relacionadas con taxonomía
- Resumen de la clasificación de documentos
- Asistente para Configurar clasificadores de Clasificar ámbito de documento
- Clasificador inteligente de palabra clave
- Clasificador basado en palabras clave
- Clasificador de aprendizaje automático
- Clasificador generativo
- Actividades relacionadas con la clasificación de documentos
- Consumo de datos
- Llamadas a API
- Paquetes ML
- Información general
- Document Understanding - Paquete ML
- DocumentClassifier: paquete ML
- Paquetes ML con capacidades OCR
- 1040: paquete ML
- 1040 Anexo C - Paquete ML
- 1040 Anexo D - Paquete ML
- 1040 Anexo E - Paquete ML
- 1040x: paquete ML
- 3949a: paquete ML
- 4506T: paquete ML
- 709: paquete ML
- 941x: paquete ML
- 9465: paquete ML
- 990 - Paquete ML: vista previa
- ACORD125: paquete ML
- ACORD126 - Paquete ML
- ACORD131 - Paquete ML
- ACORD140 - Paquete ML
- ACORD25 - Paquete ML
- Extractos bancarios: paquete ML
- Conocimientos de embarque: paquete ML
- Certificado de incorporación: paquete ML
- Certificado de origen: paquete ML
- Cheques: paquete ML
- Certificado de producto secundario: paquete ML
- CMS1500 - Paquete ML
- Declaración de conformidad de la UE: Paquete ML
- Estados financieros: paquete ML
- FM1003: paquete ML
- I9 - Paquete ML
- Documentos de identidad: paquete ML
- Facturas: paquete ML
- FacturasChina - Paquete ML
- Facturas en hebreo: paquete ML
- FacturasIndia - Paquete ML
- FacturasJapón - Paquete ML
- Envío de facturas: paquete ML
- Listas de embalaje: paquete ML
- Pasaportes: paquete ML
- Nóminas - - Paquete ML
- Órdenes de compra: paquete ML
- Recibos - paquete ML
- ConsejosDeRemesas: paquete ML
- UB04 - Paquete ML
- Facturas de servicios públicos: paquete ML
- Títulos de vehículos: paquete ML
- W2 - Paquete ML
- W9 - Paquete ML
- Otros paquetes ML listos para usar
- Puntos finales públicos
- Requisitos de hardware
- Procesos
- Administrador de documentos
- Servicios de OCR
- Idiomas admitidos
- Aprendizaje profundo
- Paneles de insights
- Document Understanding implementado en Automation Suite
- Document Understanding implementado en AI Center independiente
- Licencia
- Actividades
- Actividades.DeUipath
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities

Document Understanding user guide
Visión general de taxonomía
¿Qué es la taxonomía?
The Taxonomy is the metadata that the Document UnderstandingTM framework considers in each of its steps.
- Una taxonomía es una colección de tipos de documentos.
- Un tipo de documento es la definición de un tipo lógico de documento que debe ser gestionado por diferentes procesos empresariales. Algunos ejemplos de tipos de documentos son las facturas, los historiales médicos, los formularios de Hacienda, los contratos, etc. Un tipo de documento, además de un nombre, un grupo y una categoría (para facilitar su gestión), suele contener una colección de campos.
- Un campo es información que está previsto encontrar y recopilar de un tipo de documento específico.
Una taxonomía es una estructura jerárquica que contiene el esquema de la información que el marco de Document Understanding utilizará a lo largo. Cada definición de entidad (para tipos de documentos o campos) encontrada en la taxonomía tiene un ID único.
¿Cómo ayuda en la clasificación de documentos?
Si deseas clasificar los archivos entrantes en diferentes tipos de documentos, la taxonomía debe contener los tipos de documentos que deseas tratar específicamente. Estos te permitirán configurar los procesos de Document Understanding basándose en un esquema de datos uniforme: la estructura de la taxonomía.
¿Cómo ayuda en la extracción de datos?
Si deseas extraer datos de determinados tipos de documentos, la taxonomía contendrá la lista de campos a los que se dirige la extracción automática de datos. Estos permitirán la configuración de varios métodos y reglas de extracción, de nuevo, basados en un único esquema de datos real: la estructura del tipo de documento.
Tipos de campo y detalles
Un campo puede tener partes derivadas: información formateada extraída o editada a partir del valor textual subyacente que se encuentra en un documento.
| Tipo de campo | Permite multivalor | Propósito | Piezas derivadas para el formato | Información adicional |
|---|---|---|---|---|
| Texto | Sí | Información textual | N/D | N/D |
| Número | Sí | Valores numéricos |
| N/D |
| Fecha | Sí | Fechas |
| Date fields allow for the definition of an Expected Format , which must be an MSDN-compliant date format string (for example, dd-MM-yyyy or MM, dd, yyyy ). Este formato lo utiliza la actividad Ámbito de extracción de datos al intentar analizar una fecha en sus partes correspondientes al día, mes y año. |
| Nombre | Sí | Nombres de personas |
| N/D |
| Address | Sí | Direcciones |
| N/D |
| ESTABLECER | Sí | Definir una lista de posibles valores de un conjunto predefinido | N/D | Un campo Establecer debe definir las opciones permitidas como valores. Estos se reflejan en la estación de validación. |
| Booleano | Sí | Valores Sí/No | N/D | Un campo booleano solamente puede tener el valor Sí o No, y se refleja en la estación de validación. |
| Tabla | No | Datos tabulares | N/D | Los campos Tabla contienen la definición de las columnas. |
| Columna de tabla | No | Cada celda de la tabla. | N/D | Las columnas de una tabla se definen como uno de los campos regulares de la lista de componentes. No pueden ser de tipo Tabla. |
Excepciones
You can define default Report as Exception reasons at the taxonomy level. These predefined reasons appear in Validation Station when a business user reports a document as an exception.
Esto permite a los usuarios empresariales marcar documentos como excepciones en función de razones predefinidas (las razones de excepción que se definen en el Gestor de taxonomía).
Por ejemplo, un usuario puede esperar una factura pero recibir un registro médico, esperar un documento en coreano pero recibir uno en ruso o esperar un documento legible pero recibir uno con calidad deficiente.
Las razones que definas aparecen en una lista desplegable en la que el usuario puede seleccionar la opción más adecuada. En función de la razón seleccionada, se puede configurar la reanudación de la automatización para determinar qué ruta de procesamiento tomar a continuación.
Otra información capturada en la taxonomía
La taxonomía también contiene la lista de grupos y categorías, así como una colección de idiomas admitidos que pueden asociarse a los documentos procesados. Por ejemplo, para procesar documentos en japonés e inglés, la etiqueta Idiomas admitidos debe contener el nombre y código de idioma respectivos. Se recomienda añadir un idioma indeterminado (código und) para admitir casos excepcionales.
Métodos de extensión de taxonomía
Serialize()
Si se llama en un objeto DocumentTaxonomy, el método Serialize() devuelve una representación del objeto JSON, de modo que pueda almacenarse y recuperarse para su uso posterior.
Deserialize(String)
La extensión estática DocumentTaxonomy.Deserialize(jsonString) devuelve un objeto DocumentTaxonomy, dotado de los datos codificados en JSON que se han pasado como parámetro.
GetFields(String)
Called on a DocumentTaxonomy object, the GetFields() method called with a DocumentTypeId string returns a list of fields defined within that document type.
Cómo crear y editar la taxonomía de un proyecto
Once the UiPath.IntelligentOCR.Activities package is installed in your project in UiPath® Studio, a Taxonomy Manager button appears in the main ribbon of Studio's Design tab. Use the Taxonomy Manager wizard to edit your project taxonomy.
La Taxonomía se almacena en un archivo dentro del proyecto UiPath Studio, en la carpeta DocumentProcessing y en el archivo taxonomy.json.
The file is automatically created when you first open the Taxonomy Manager wizard. You can check the exact location of the file in the Taxonomy Manager, by hovering over the
button. Alternatively, each time you open the Taxonomy Manager, a pop-up message will appear in the upper right corner, informing you of the location of the file. When a project is published from Studio, the taxonomy will be published as well as an artifact of the project.
El archivo taxonomy.json es único para cada proyecto, aunque se puede reutilizar si se copia manualmente en un nuevo proyecto. Para ello, basta con crear un nuevo proyecto, luego ir a la carpeta del proyecto y copiar el archivo con la taxonomía deseada en la ubicación correcta (en la carpeta DocumentProcessing).
For data integrity purposes, we recommend you always edit the taxonomy using Taxonomy Manager.
Cómo utilizar la taxonomía en un proyecto
La taxonomía para document understanding se requiere como un objeto en todo el marco Document Understanding.
The simplest and most convenient way to load your object is by using the Load Taxonomy activity. Once your taxonomy object is loaded, you can use it in all subsequent framework components requiring it.
Casos de uso avanzados
-
Si decides guardar la taxonomía en otra ubicación, aún puedes cargarla en su proyecto (una vez obtenida la cadena de contenido del archivo de taxonomía, por ejemplo, una variable
myTaxonomyContentString), mediante una simple tarea Asignar, como se indica a continuación:myTaxonomy = DocumentTaxonomy.Deserialize(myTaxonomyContentString) -
Si el caso de uso lo requiere, recuerda que la taxonomía es un objeto de clase simple que, cuando es necesario, puede modificarse incluso durante su ejecución.
- ¿Qué es la taxonomía?
- ¿Cómo ayuda en la clasificación de documentos?
- ¿Cómo ayuda en la extracción de datos?
- Tipos de campo y detalles
- Excepciones
- Otra información capturada en la taxonomía
- Métodos de extensión de taxonomía
- Serialize()
- Deserialize(String)
- GetFields(String)
- Cómo crear y editar la taxonomía de un proyecto
- Cómo utilizar la taxonomía en un proyecto
- Casos de uso avanzados