document-understanding

2022.10

false

Importante :

La localización de contenidos recién publicados puede tardar entre una y dos semanas en estar disponible.

Guía del usuario de Document Understanding

Bucle de ajuste preciso automático (vista previa pública)

A la hora de entrenar/reentrenar un modelo ML, lo primero que hay que tener en cuenta es que los mejores resultados se obtienen acumulando todos los datos en un único conjunto de datos grande e, idealmente, minuciosamente conservado. Entrenar en el conjunto de datos A y luego volver a entrenar el modelo resultante en el conjunto de datos B generará resultados claramente peores que entrenar en el conjunto de datos combinado A+B.

En segundo lugar, hay que tener en cuenta que no todos los datos son iguales. Los datos etiquetados en una herramienta dedicada como Administrador de documentos son, en general, de mejor calidad y darán lugar a un modelo con mejor resultado que los datos etiquetados en herramientas con un enfoque diferente como la Estación de validación. Los datos de la Estación de validación pueden ser de alta calidad desde el punto de vista de los procesos empresariales, pero no tanto desde el punto de vista del entrenamiento del modelo, ya que un modelo ML necesita datos en un formato muy específico, que casi siempre es distinto del que necesitan los procesos empresariales. Por ejemplo, en una factura de 10 páginas, el número de factura puede aparecer en cada una de ellas, pero en la Estación de validación basta con indicarlo en la primera página, mientras que en el Administrador de documentos habría que etiquetarlo en todas las páginas. En este caso, falta el 90 % de las etiquetas correctas en los datos de la Estación de validación. Por esta razón, los datos de la Estación de validación tienen una utilidad limitada, como se ha descrito anteriormente.

Para entrenar con eficacia un modelo ML, se necesita un conjunto de datos único, completo, de alta calidad y representativo. Por lo tanto, un enfoque acumulativo consiste en añadir más datos al conjunto de datos de entrada y, por lo tanto, entrenar el modelo ML con un conjunto de datos cada vez mayor. Una forma de hacerlo es utilizar el bucle de ajuste fino automático.

Para comprender mejor esta función, veamos dónde encaja el ajuste fino automático en el ciclo de vida del modelo ML.

¿Te ha resultado útil esta página?

AnteriorAjuste preciso

Sig.Acerca de Document Manager