- Información general
- Primeros pasos
- Actividades
- Paneles de insights
- Proceso de Document Understanding
- Tutoriales de inicio rápido
- Componentes de marco
- Información general
- Actividades de Document Understanding
- Resumen de la clasificación de documentos
- Asistente para Configurar clasificadores de Clasificar ámbito de documento
- Clasificador inteligente de palabra clave
- Clasificador basado en palabras clave
- Clasificador de aprendizaje automático
- Clasificador generativo
- Actividades relacionadas con la clasificación de documentos
- Consumo de datos
- Llamadas a API
- Paquetes ML
- Información general
- Document Understanding - Paquete ML
- DocumentClassifier: paquete ML
- Paquetes ML con capacidades OCR
- 1040: paquete ML
- 1040 Anexo C - Paquete ML
- 1040 Anexo D - Paquete ML
- 1040 Anexo E - Paquete ML
- 1040x: paquete ML
- 3949a: paquete ML
- 4506T: paquete ML
- 709: paquete ML
- 941x: paquete ML
- 9465: paquete ML
- ACORD131 - Paquete ML
- ACORD140 - Paquete ML
- ACORD25 - Paquete ML
- Extractos bancarios: paquete ML
- Conocimientos de embarque: paquete ML
- Certificado de incorporación: paquete ML
- Certificado de origen: paquete ML
- Cheques: paquete ML
- Certificado de producto secundario: paquete ML
- CMS1500 - Paquete ML
- Declaración de conformidad de la UE: Paquete ML
- Estados financieros: paquete ML
- FM1003: paquete ML
- I9 - Paquete ML
- Documentos de identidad: paquete ML
- Facturas: paquete ML
- FacturasAustralia: paquete ML
- FacturasChina - Paquete ML
- Facturas en hebreo: paquete ML
- FacturasIndia - Paquete ML
- FacturasJapón - Paquete ML
- Envío de facturas: paquete ML
- Listas de embalaje: paquete ML
- Nóminas - - Paquete ML
- Pasaportes: paquete ML
- Órdenes de compra: paquete ML
- Recibos: paquete ML
- ConsejosDeRemesas: paquete ML
- UB04 - Paquete ML
- Facturas de servicios públicos: paquete ML
- Títulos de vehículos: paquete ML
- W2 - Paquete ML
- W9 - Paquete ML
- Otros paquetes ML listos para usar
- Puntos finales públicos
- Limitaciones de tráfico
- Configuración de OCR
- Procesos
- Servicios de OCR
- Idiomas admitidos
- Aprendizaje profundo
- Licencia
Guía del usuario de Document Understanding
Diagnóstico de conjuntos de datos
Entrenar a un nuevo modelo desde cero a veces puede ser un trabajo muy exigente.
La función de diagnóstico de conjuntos de datos te ayuda a crear conjuntos de datos eficaces proporcionando información y pistas sobre los pasos necesarios para lograr una buena precisión del modelo entrenado.
Situado en la barra de administración del administrador de documentos, el diagnóstico de conjuntos de datos proporciona una guía visual y escrita durante todo el proceso de entrenamiento de un nuevo modelo.
Hay tres niveles de estado del conjunto de datos expuestos en la barra de administración:
- Rojo: se necesitan más datos de entrenamiento etiquetados.
- Naranja: se recomienda que haya más datos de entrenamiento etiquetados.
- Verde: se consigue el nivel necesario de datos de entrenamiento etiquetados.
Si no se crea ningún campo en la sesión, el nivel de estado del conjunto de datos es gris.
Hay más información sobre cada estado en el menú emergente Diagnóstico del conjunto de datos. Haz clic en el botón Diagnóstico del conjunto de datos para abrirlo.
Proporciona información sobre los documentos usados para el entrenamiento del modelo, el número total de páginas importadas y el número total de páginas etiquetadas.
La separación en la barra de estado de color está determinada por el número recomendado de páginas etiquetadas necesarias para el entrenamiento del modelo y el estado real de tu conjunto de datos, incluidos los datos etiquetados y no etiquetados. Al pasar el ratón por encima de cada color de la barra de estado se obtiene información adicional sobre cada estado.
Las cifras disponibles en la pestaña Conjunto de datos se calculan a partir del número de campos regulares y campos de elementos de la sesión de entrenamiento.
- Rojo: el conjunto de datos requiere más datos etiquetados para el entrenamiento del modelo.
- Naranja: para aumentar el nivel de precisión del modelo entrenado, se recomienda usar más datos etiquetados. Puedes elegir seguir con los datos reales, pero el nivel de precisión no es tan alto como se desea.
- Verde: los datos etiquetados son suficientes para que el conjunto de datos se entrene en consecuencia y reciba información precisa.
Proporciona información sobre cada campo etiquetado, más concretamente el número total de páginas de formación en las que está señalada la etiqueta, el número total de documentos evaluados con el campo etiquetado y su estado para el conjunto de entrenamiento actual.
- Campo: el nombre del campo etiquetado.
- Páginas de entrenamiento: el número de páginas del conjunto de Entrenamiento+Validación en las que el campo está etiquetado.
- Documentos de evaluación: el número de documentos del conjunto de evaluación en los que se ha etiquetado este campo.
- Estado: el estado de cada campo, marcado por tres opciones, Rojo, Naranja y Verde.
Aquí están todas las opciones disponibles para la barra Estado:
- Rojo: no hay datos suficientes sobre el campo, por lo que se necesitan más etiquetas.
- Naranja: es necesario etiquetar más páginas para que los resultados sean relevantes.
- Verde: hay suficientes páginas etiquetadas para que los resultados sean relevantes.
Los botones Actualizar y Cerrar son aplicables a ambas pestañas, lo que significa que si se pulsa el botón Actualizar en la pestaña Conjunto de datos, también se actualiza la pestaña Archivos.
- Actualizar: usa la opción de actualización tras realizar modificaciones en el conjunto de datos, ya sea en el número de páginas totales o en el número de páginas etiquetadas. El menú emergente se actualiza automáticamente cada pocos minutos y tiene lugar en ambas pestañas simultáneamente. Usa esta función cuando se necesite una actualización fuera de la ventana automática.
- Cerrar: una vez que se haya recopilado toda la información necesaria, cierra el menú haciendo clic en el botón Cerrar. Todo el menú emergente se cierra, independientemente de la pestaña desde la que se haga clic en el botón.
Puedes modificar los siguientes campos con la Calculadora del conjunto de datos:
- Tipo de documento listo para usar
- Número de idiomas
- Número de diseños
Los siguientes campos de la pestaña Calculadora son de solo lectura y sus valores se determinan haciendo una intersección del tipo de documento listo para usar utilizado y los campos del esquema actual:
- Campos regulares listos para usar
- Campos de columna listos para usar
- Campos de clasificación listos para usar
Modificar cualquiera de los campos mencionados afecta al tamaño recomendado del conjunto de datos. La pestaña Conjunto de datos de la ventana emergente abierta actual se actualiza a un estado verde/amarillo/rojo en función del nuevo tamaño recomendado. Una vez que se guardan los cambios, el indicador general de diagnóstico del conjunto de datos tiene en cuenta el nuevo estado de la pestaña Conjunto de datos.
Digamos que al crear inicialmente el tipo de documento, has seleccionado Facturas para el campo Tipo de documento listo para usar. Si cambias tu elección inicial a otra cosa, por ejemplo, Recibos, el conjunto de datos asimila la información de ambos tipos de documentos y muestra la información que se cruza entre ambos tipos (Facturas y Recibos) que hayas seleccionado.
Si hay campos que solo están presentes en uno de los modelos, aparecen en los campos regulares personalizados o en los campos de columna personalizados, porque estos cambios se aplican tanto a los campos regulares como a los de clasificación.