- Notas de versão do Document Understanding
- Pacotes de ML e notas de versão de pontos de extremidade públicos
Notas de versão do Document Understanding
Outubro de 2021
Melhorias
Campos com menos de 10 documentos rotulados podem ser excluídos sem confirmação.
Correções de bugs
- Corrigido um bug que afetava arquivos importados com o mesmo nome.
- Corrigido um bug no Google OCR que gerava um erro em documentos com páginas vazias.
- Corrigido um bug que exibia incorretamente a contagem de arquivos na caixa de diálogo Importar dados para importações de conjuntos de dados do Validation Station ou Data Manager.
Problemas conhecidos
- A exportação padrão (nível de documento) só funciona com pacotes de ML versão 21.10 ou posterior no AI Center. A versão aparece na coluna Change Log da visualização dos Pacotes de ML no AI Center. Para versões mais antigas, use a caixa de seleção Exportação compatível com versões anteriores na caixa de diálogo Exportar arquivos.
Suporte a documentos de várias páginas
O Data Manager agora suporta documentos de várias páginas. Esta é uma grande atualização que afeta todos os aspectos de um fluxo de Machine Learning:
Importação: você pode fazer upload de documentos de até 150 páginas; para contornar esse limite, correndo o risco de uma experiência de rotulagem instável, marque a caixa de seleção Habilitar documentos grandes na caixa de diálogo Importar dados.
Pré-rotulagem: o documento é pré-rotulado como um todo, produzindo os mesmos resultados da execução no fluxo de trabalho de RPA, mas leva mais tempo no caso de documentos maiores. Consulte também Problemas conhecidos abaixo.
Rotulagem: rotulagem mais conveniente devido à rolagem natural pelas páginas do documento.
Exportação: feita por padrão no nível de documento. Caso deseje exportar os documentos ao nível de página, marque a caixa de seleção Exportação compatível com versões anteriores na caixa de diálogo Exportar arquivos; isso também é recomendado se a precisão do modelo produzida pela exportação padrão estiver abaixo das expectativas.
Treinamento: na maioria dos cenários, os modelos treinados com os novos conjuntos de dados exportados em nível de documento devem ter o mesmo desempenho com a Exportação retrocompatível. No entanto, se os modelos funcionarem abaixo das expectativas, recomendamos que você tente novamente o treinamento usando uma exportação retrocompatível, caso isso possa produzir melhores resultados.
Avaliação: esta é a principal motivação para o recurso de suporte a documentos de várias páginas, pois as pontuações das Avaliações refletirão com mais precisão o desempenho do tempo de execução. Observe que isso pressupõe que cada documento de várias páginas contém um único documento lógico. Por exemplo, se você importar pacotes de arquivo de 20 páginas contendo 10 faturas de 2 páginas cada, isso não deve ser usado como parte dos conjuntos de avaliação. No entanto, eles podem ser usados como parte dos conjuntos de treinamento, mas somente se você exportar usando a opção de retrocompatibilidade habilitada.
Melhorias
Exportar esquema de suporte usando o botão de opção na caixa de diálogo Exportar arquivos.
O tamanho máximo de importação aumentou para 2 GB ou 2.000 páginas.
Conjunto de teste renomeado para Conjunto de avaliação para consistência com os Pipelines de Avaliação do AI Center.
O botão Prever aparece por padrão na barra de gerenciamento, mas as configurações de pré-rotulagem precisam ser configuradas para que o botão seja habilitado.
Todas as restrições sobre o número de amostras por campo removidas das exportações de conjuntos de avaliação.
Adicionado o nome da sessão Data Manager ao lado do nome do arquivo na barra de gerenciamento para identificar mais facilmente a sessão em que você está trabalhando no caso de várias guias do Data Manager abertas ao mesmo tempo.
Suporte para documentos de idioma chinês.
Melhorias de acessibilidade.
Localização para Português-Portugal, Russo e Turco.
Problemas conhecidos
- O modelo Faturas China não formata datas em estilo chinês no formato padrão aaaa-mm-dd. Isso será melhorado nas próximas versões.
- A análise de datas do Data Manager é inconsistente com a análise feita por modelos de ML durante a execução. Se você perceber que as datas estão sendo analisadas incorretamente no Data Manager, é provável que sejam analisadas corretamente na previsão do modelo durante a execução. Este é um problema conhecido e será resolvido em um patch futuro.
- No momento, usar a opção Prever com Endpoints públicos pré-rotula apenas as primeiras 10 páginas de um documento. Este é um problema conhecido e um aprimoramento será incluído em um próximo patch. Usar a opção Prever com Habilidades de ML no AI Center, no entanto, não impõe essa limitação.