- Información general
- Contratos de procesamiento de documentos
- Notas relacionadas
- Acerca de los contratos de procesamiento de documento
- Clase Cuadro
- Interfaz IPersistedActivity
- Clase PrettyBoxConverter
- Interfaz IClassifierActivity
- Interfaz IClasificadorProveedorDeCapacidades
- Clase ClassifierDocumentType
- Clase ClassifierResult
- ClassifierCodeActivity Class
- ClassifierNativeActivity Class
- ClassifierAsyncCodeActivity Class
- Clase ClasificadorCapacidadDeTipoDeDocumento
- Clase
- Clase
- Clase ExtractorDocumentType
- Clase ExtractorDocumentTypeCapabilities
- Clase ExtractorFieldCapability
- Clase
- Clase ExtractorResult
- Interfaz ICapabilitiesProvider
- Interfaz IExtractorActivity
- Clase ExtractorPayload
- Enumeración DocumentActionPriority
- Clase DocumentActionData
- Enumeración DocumentActionStatus
- DocumentActionType Enum
- Clase DocumentClassificationActionData
- Clase DocumentValidationActionData
- Clase UserData
- Clase Documento
- Clase DocumentoDividirResultado
- Clase DomExtensions
- Clase Página
- Clase SecciónDePágina
- Clase de polígono
- Clase PolygonConverter
- Clase de metadatos
- Clase GrupoDeWord
- Clase Word
- Enum FuenteDeProcesamiento
- Clase ResultadosTablaCelda
- Clase ResultadosTablaValor
- Clase ResultadosTablaColumnaInfo
- Clase TablaDeResultados
- Enum Rotación
- Enum TipoDeSección
- Enum TipoDeGrupoDeWord
- Interfaz IDocumentTextProjection
- Clase ResultadoDeClasificación
- Clase ResultadoDeExtracción
- Clase ResultadosDeDocumento
- Clase ResultadosDeLímitesDeDocumento
- Clase ResultadosDePuntoDeDatos
- Clase ResultadosDeValor
- Clase ResultadosDeContenidoDeReferencia
- Clase ResultadosDeValorDeTokens
- Clase ResultadosDeCampoDerivado
- Enum ResultadosDeFuenteDeDatos
- Clase ResultadoDeConstantes
- Clase ValorDeCampoSimple
- Clase ValorDeCampoDeTabla
- Clase GrupoDeDocumento
- Clase TaxonomíaDeDocumento
- Clase TipoDeDocumento
- Clase Campo
- Enum TipoDeCampo
- Clase InformaciónDeLenguaje
- Clase MetadataEntry
- Enumeración de tipo de texto
- Clase TipoDeCampo
- Interfaz de actividad de ITracking
- Interfaz de ITrainableActivity
- Interfaz ITrainableClassifierActivity
- Interfaz ITrainableExtractorActivity
- Clase TrainableClassifierAsyncCodeActivity
- Clase TrainableClassifierCodeActivity
- Clase TrainableClassifierNativeActivity
- Clase TrainableExtractorAsyncCodeActivity
- Clase TrainableExtractorCodeActivity
- Clase TrainableExtractorNativeActivity
- Digitalizador de Document Understanding
- Document Understanding ML
- Servidor local de OCR de Document Understanding
- Proceso Document Understanding - Plantilla Studio
- Document Understanding
- Notas relacionadas
- Acerca del paquete de actividades Document Understanding
- Compatibilidad de proyectos
- Datos del documento
- Establecer contraseña de PDF
- Fusionar PDF
- Obtener el recuento de páginas del PDF
- Extraer texto en PDF
- Extraer imágenes en PDF
- Extraer rango de página en PDF
- Extraer datos del documento
- Cree una tarea de validación y espere
- Esperar la tarea de validación y continuar
- Crear tarea de validación
- Clasificar documento
- Crear tarea de validación de clasificación
- Crear tarea de validación de clasificación y esperar
- Esperar la tarea de validación de clasificación y reanudar
- OCRInteligente
- Notas relacionadas
- Acerca del paquete de actividades IntelligentOCR
- Compatibilidad de proyectos
- Cargar taxonomía
- Digitalizar documento
- Clasificar ámbito de documento
- Clasificador basado en palabras clave
- Clasificador inteligente de palabra clave
- Mostrar Estación de Clasificación
- Crear acción de clasificación de documentos
- Esperar la acción de clasificación de documentos y reanudar
- Entrenar el alcance de los clasificadores
- Entrenador del clasificador basado en palabras clave
- Entrenador del clasificador inteligente de palabra clave
- Alcance de la extracción de información
- Extractor basado en regex
- Extractor de forma
- Extractor inteligente de formularios
- Mostrar Estación de Validación
- Crear acción de validación de documentos
- Esperar la acción de validación de documentos y reanudar
- Entrenar el alcance de los Extractores
- Exportar resultados de extracción
- Servicios ML
- OCR
- Contratos OCR
- Notas relacionadas
- Acerca de los contratos OCR
- Compatibilidad de proyectos
- IOCRActivity Interface
- OCRAsyncCodeActivity Class
- OCRCodeActivity Class
- OCRNativeActivity Class
- Clase Carácter
- Clase OCRResult
- Clase Word
- FontStyles Enum
- OCRRotation Enum
- Clase OCRCapabilities
- OCRScrapeBase Class
- OCRScrapeFactory Class
- ScrapeControlBase Class
- Enum ScrapeEngineUsages
- ExtraerBaseDelEctor
- Clase ScrapeEngineFactory
- Clase ExtraerEngineProvider
- OmniPage
- PDF
- [No en la lista] Abbyy
- [No en la lista] Abbyy incrustado
Datos del documento
Los datos del documento son un recurso que sirve tanto como variable de entrada como de salida, dentro de tus flujos de trabajo de Document Understanding. El objeto Datos del documento contiene toda la información necesaria sobre un solo documento. Si clasificas un documento, el objeto incluye el Tipo de documento. Si extraes datos, el objeto contiene los campos extraídos correspondientes. Independientemente de la actividad, los datos del documento contienen de forma coherente el texto del documento y el DOM (modelo de objeto del documento).
Con Datos de documento puedes: recopilar toda la información necesaria sobre un documento en una variable, guardar datos en cada propiedad del objeto y reutilizarlos para otras actividades en el flujo de trabajo.
Los datos del documento contienen información sobre los siguientes atributos:
- TipoDeDocumento: proporciona datos sobre el tipo de documento identificado, rellenados por actividades como Clasificar documento o Crear tarea de validación de clasificación
- Datos: contiene los valores de campo extraídos, rellenados por actividades como Extraer datos de documento o Crear tarea de validación de documentos
- DetallesDeArchivo: contiene detalles sobre
IResource
. - SubDocumentos: incluye una colección de datos de documentos, rellenada por actividades como Crear tarea de validación de clasificación.
- MetadatosDeDocumento: contiene información sobre el procesamiento del documento, como:
- Idioma del texto detectado
- Campos extraídos como tabla de datos
- Modelo de objeto de documento (DOM): contiene el modelo de objeto de documento que utilizan todas las actividades.
Consejo: a menos que una actividad sea la primera parte de la actividad de Document Understanding de un flujo de trabajo de Studio, utiliza Datos del document como entrada. Utiliza la variable Archivo como entrada solo si la actividad es la primera parte de Document Understanding de un flujo de trabajo de Studio.
Las propiedades de la variable Datos del documento pueden rellenarse y consumirse por una o varias actividades. Dependiendo de la actividad que rellena la variable, las propiedades pueden diferir.
Nombre del atributo | Propiedad | Descripción | Actividades que rellenan el valor |
---|---|---|---|
Tipo de documento | NombreParaMostrar (utilizado para modelos personalizados) | Nombre del tipo de documento | Clasificar documento |
ID (utilizado para modelos listos para usar) | Nombre del tipo de documento | ||
Confianza | Confianza de clasificación | ||
URL | URL de dónde es accesible el Tipo de documento; puede ser personalizado o predefinido, al que se hace referencia a través del proyecto respectivo en el centro de Document Understanding. | ||
Campos | Valor de campo | Valor de extracción del campo | |
Puntuación de confianza de extracción | Puntuación de confianza de la extracción, como lo proporciona el modelo | ||
Puntuación de confianza de OCR | Puntuación de confianza proporcionada por el motor OCR | ||
Detalles del archivo | NombreCompleto | Nombre completo del archivo | Actividades que crean el objeto Datos del documento, que recibe un archivo como entrada |
Extensión | Extensión del archivo | ||
Intervalo de páginas | Rango de páginas del archivo | ||
Subdocumentos | N/A | Colección de datos del documento
Nota: esto no se rellena actualmente y se añadirá en el futuro junto con las capacidades de validación de clasificación y división.
| Clasificar documento |
Metadatos | N/A | Información sobre el procesamiento del documento | Actividades que crean el objeto Datos del documento y reciben un archivo como entrada. |
DOM | N/A | El modelo de objeto del documento, utilizado por todas las actividades | |
Texto | N/A | Todo el texto extraído | |
Idioma detectado | N/A | El idioma detectado en el documento | |
Confianza dividida | N/A | Si el documento está dividido, el modelo de división devuelve el documento
Nota: esto no se rellena actualmente y se añadirá en el futuro junto con las capacidades de validación de clasificación y división.
| Clasificar documento |
Resultados como tabla de datos | N/A | Campos exportados como tabla de datos | Extraer datos del documento |
Cuando utilizas Datos de documento, el primer objeto de salida se crea a partir de tu archivo de entrada. Después de crear este objeto, te recomendamos que lo pases a tus próximas actividades. Al pasarlo a tus próximas actividades, puedes reutilizar el Texto y el DOM de tu archivo original. Este enfoque evita tener que volver a digitalizar el archivo cada vez.
Si configuras un campo de tipo de documento para que tenga varios valores, el sistema espera varios valores. Un ejemplo podría ser una pregunta de opción múltiple en un formulario. Los resultados aparecen en el atributo multivalor del campo, devuelto como una lista. Si el campo de tipo de documento está configurado para ser de valor único, el sistema devuelve el resultado en el atributo de valor del campo de forma predeterminada.
La siguiente tabla muestra cómo los datos del documento devuelven campos de valor único y multivalor:
Tipo de campo | no tiene valor | Tiene un valor | Tiene dos o más valores | DocumentData.Data.FieldName.Value | DocumentData.Data.FieldName.MultiValues |
---|---|---|---|---|---|
Valor único | Sí | No | N/D | "" | null |
Valor único | No | Sí | N/D | <value that was identified><valor que se identificó> | null |
Valor múltiple | Sí | No | No | "" | [] (matriz vacía) |
Valor múltiple | No | Sí | No | <value that was identified><valor que se identificó> | [<matriz con un valor idéntico al .Value >]
|
Valor múltiple | No | No | Sí | <first value that was identified><primer valor que se identificó> | [<matriz con valores n , siendo el primer valor idéntico al .Value >]
|
Puedes devolver los campos que extrajiste de un documento como una tabla de datos, utilizando el objeto Datos del documento. A continuación, puedes utilizar la variable Tabla de datos dentro de las actividades de Excel.
Para devolver los campos extraídos como una tabla de datos, elige la salida ResultsAsDatatable para la actividad Extraer datos del documento .