document-understanding
2020.10
false
UiPath logo, featuring letters U and I in white
Veraltet
Document Understanding-Benutzerhandbuch.
Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
Last updated 29. Juli 2024

OCR-Dienste

Über OCR-Dienste

OCR Engines werden für die folgenden Zwecke verwendet:

  • Zur Datenbeschriftungszeit beim Importieren von Dokumenten in den Data Manager. Die für diesen Schritt verfügbaren Dienste sind UiPath Document OCR (kostenlos in der Cloud oder lokal), Google Cloud OCR (nur Cloud), Microsoft Read OCR (Cloud oder lokal) und Omnipage (nur lokal).
  • Zur Laufzeit beim Aufrufen von Modellen aus RPA-Workflows. Die für diesen Schritt verfügbaren Dienste sind alles OCR Engines, die in die UiPath RPA-Plattform integriert sind, einschließlich der oben genannten, sowie Abbyy Finereader, Microsoft OCR (Legacy), Microsoft Project Oxford OCR und Tesseract.

In der Produktion empfehlen wir, die OCR mit der Aktivität Digitize Document in Ihrem Workflow aufzurufen und das Dokumentobjektmodell als Eingabe an die Aktivität zu übergeben, die das ML-Modell aufruft. Dazu müssen Sie die Aktivität Machine Learning Extractor (Offizieller Feed) verwenden.

Für Testzwecke lässt sich die OCR auch gut direkt im AI Center konfigurieren (Fenster Einstellungen), aber für Produktionsbereitstellungen wird dies nicht empfohlen.

Lokale Bereitstellungen

UiPath Document OCR lässt sich auf drei Arten bereitstellen:

  • Auf dem Robot, der ein Aktivitätspaket von LocalServer und das Paket UiPath.OCR.Activities Version 3.1.0-preview oder höher verwendet - erfordert keinen Internetzugang und keine zusätzliche Hardware, aber die Robotermaschine benötigt eine CPU mit AVX2-Unterstützung.
    • Dies sollte Ihre Standardoption sein. Für größere Volumen können Sie weitere Robots hinzufügen.
  • Eigenständiger Docker-Container, der auf der Linux-GPU-Maschine ausgeführt wird (siehe unten – empfohlen für Volumen über 1 Mio. Seiten/Jahr) – Erfordert Internetzugang für die Lizenzierung/Messung
    • Dies sollte Ihre Standardoption für große Volumen von 2-3 Millionen Seiten pro Jahr sein.
  • Eigenständiger Docker-Container, der auf der Linux-CPU-Maschine ausgeführt wird (siehe unten) – Erfordert Internetzugang für die Lizenzierung/Messung
    • Nur in seltenen Situationen, in denen Ihre Robotermaschinen auf CPUs ohne AVX2-Unterstützung laufen oder keine GPU abgerufen werden kann.
  • ML-Fähigkeit in AI Center (siehe Abschnitt „ML-Pakete“) (GPU wird dringend empfohlen) – Erfordert keinen lokalen Internetzugang bei AI Center-Installation mit Air Gap

Anforderungen

Dieser Abschnitt beschreibt die Hardware- und Softwareanforderungen für die Installation von OCR Engines.

Hardwareanforderungen

  • Beteiligte Maschinen: VM in der Cloud oder On-Prem Box oder Laptop

  • Betriebssysteme: Windows (Windows 10) oder Linux (Ubuntu/CentOS/RedHat)

  • Rechenmodule: CPU oder GPU

  • OCR: UiPath Dokument OCR CPU oder UiPath OCR GPU oder OmniPage OCR CPU

CPU-Cores

RAM (GB)

Video-RAM (GB)

HDD (GB)

UiPath CPU

8

8

 

50

UiPath GPU

1

4

8

50

OmniPage CPU

1

2

 

30

Softwareanforderungen

Die Softwareanforderungen für OCR-Module sind die gleichen wie für Data Manager.

Netzwerkkonfiguration

Data Manager benötigt Zugriff auf das OCR-Modul <IP>:<port_number>. Mögliches OCR-Modul: UiPath Document OCR (lokal), Omnipage OCR (lokal), Google Cloud Vision OCR, Microsoft Read Azure, Microsoft Read (lokal).
Roboter benötigen Zugriff auf OCR <IP>:<port_number>. Die gleichen OCR-Optionen wie oben, mit Ausnahme von Omnipage, das in den Robotern direkt als Aktivitätspack verfügbar ist.

OCR Engines benötigen Zugriff auf den Lizenzierungsserver, der von UiPath in Azure auf Port 443 gehostet wird.

Minimale Test- oder Proof-of-Concept-Konfiguration

Wenn Sie nur vorgefertigte, einsatzbereite Modelle verwenden möchten, können Sie eine OCR Engine auf Ihrem Windows 10-Laptop ausführen. Stellen Sie sicher, dass Docker Desktop über 8G RAM verfügt.

Wenn Sie ein benutzerdefiniertes Modell versuchshalber als Demo für ein kleines Datenvolumen (unter 100 Dokumente) trainieren möchten, können Sie die OCR Engine in einer Umgebung mit einem Limit von 4 GB RAM ausführen. In kleinen Fällen wie diesem ist möglicherweise keine GPU für das OCR-Modul erforderlich.

Voraussetzungen

OCR-Modul sind Containeranwendungen, die über dem Docker ausgeführt werden. Sie sind nicht auf derselben Maschine ausführbar wie das lokale AI Center. Anhand dieser vorausgesetzten Befehle des Installationsprogramms können sie auf einer separaten Maschine ausgeführt und Docker- und Nvidia-Treiber (optional) eingerichtet werden. Diese Skripte sollten nicht auf der Maschine ausgeführt werden, auf der AI Center installiert wird.

Die Voraussetzungen für OCR-Module sind die gleichen wie für Data Manager.

GPU-Maschineninstallation (optional)

Linux

Führen Sie diesen Befehl aus:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpucurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu

Auf einigen Systemen muss der Befehl zweimal ausgeführt oder das System möglicherweise neu gestartet werden, um alle Anforderungen zu installieren.

Azure-spezifisch: Für den Einsatz virtueller Maschinen der NV-Serie müssen Sie den NVIDIA-Treiber installieren, bevor Sie den obigen Befehl ausführen. Oder Sie können auch eine Treibererweiterung von Azure verwenden, um den erforderlichen NVIDIA-Treiber passend zu dieser Stufe des GPU-Modells zu installieren.

Azure VMs

Wenn Sie auf einer VM in Azure installieren, verwenden Sie stattdessen diesen Befehl:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azurecurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure

Installation

UiPath Document OCR (Vorschau)

UiPath Document OCR ist eine proprietäre OCR Technologie von UiPath, die Zeichen folgender Skriptsprachen mit lateinischer Schrift unterstützt: Englisch, Französisch, Deutsch, Italienisch, Portugiesisch, Rumänisch und Spanisch. Text in anderen Sprachen wird erkannt, aber ohne Akzente, z. B. wird „Ł“ auf Polnisch als „L“ erkannt. Mit UiPath Document OCR verarbeitete Seiten werden nicht zu dem Seitenkontingent gezählt, das zusammen mit der Lizenz für Document Understanding Enterprise erworben wurde, sodass UiPath OCR frei verwenden kann.

UiPath Document OCR ist sowohl lokal als Docker-Container als auch in der Cloud als Clouddienst-API mit der folgenden URL verfügbar: https://du.uipath.com/ocr. Die vollständige Beschreibung der verfügbaren URLs finden Sie auf der Seite über Öffentliche Endpunkte.

  1. Führen Sie die folgenden Befehle aus, um UiPath Document OCR zu installieren:
    docker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latestdocker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latest
  2. Mithilfe von CPUs ausführen
    docker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=acceptdocker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept
  3. Mit GPU ausführen
    docker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=acceptdocker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept
  4. Im AI Center befindet sich beim Erstellen eines neuen ML-Pakets unten auf dem Bildschirm der OCR Konfigurationsabschnitt, in dem Sie den OCR Engine-Typ, die OCR URL und den OCR-Schlüssel definieren können. Der OCR-Schlüssel ist der API-Schlüssel, den Sie im Abschnitt „Lizenzen“ Ihres Automation Cloud-Kontos erhalten.
    Wichtig: Die Container „UiPath Document OCR“ und „Omnipage OCR“ können nicht auf derselben Maschine ausgeführt werden wie das lokale AI Center.

OmniPage OCR

Der Container „Omnipage Docker“ ist nur mit Data Manager zum Importieren von Dokumenten in Sprachen gedacht, die UiPath Document OCR noch nicht unterstützt.

Führen Sie diese Befehle aus:

docker login aiflprodweacr.azurecr.io -u *** -p ***docker pull aiflprodweacr.azurecr.io/omnipage-ocr:latestdocker run -d -p 5100:80 aiflprodweacr.azurecr.io/omnipage-ocr:latest LicenseAgreement=acceptdocker login aiflprodweacr.azurecr.io -u *** -p ***docker pull aiflprodweacr.azurecr.io/omnipage-ocr:latestdocker run -d -p 5100:80 aiflprodweacr.azurecr.io/omnipage-ocr:latest LicenseAgreement=accept

Google Cloud OCR

Der Endpunkt ist in der Dokumentation der Google Cloud Platform verfügbar. Der APISchlüssel kann mit der Google Cloud Platform Console abgerufen werden, wenn Sie einen Google Cloud Vision-Dienst abonniert haben.

Microsoft Read

Wichtig: Gilt sowohl für Azure- als auch für lokale Containerendpunkte.

Bei Azure-Diensten müssen Sie sowohl den Endpunkt als auch den ApiKey angeben.

Bei lokalen Containerendpunkten ist kein API-Schlüssel erforderlich.

Konfigurieren von OCR-Diensten in ML-Paketen für Document Understanding für den Data Manager und das AI Center

Die folgende Tabelle zeigt, wie die sechs unterstützten OCR-Modultypen in Data Manager und AI Center konfiguriert werden.

Wichtig: Im AI Center entspricht das ocr.method-Argument dem Dropdownmenü „OCR-Modul“ in der Ansicht zur ML-Paketerstellung.

OCR-Modul

ocr.method

ocr.key

ocr.url

UiPath

UiPath

UiPath Automation Cloud

API-Schlüssel „Document Understanding“

Enterprise-Plan

http://<IP_addr>:<port_number>

OmniPage

omnipage

UiPath Automation Cloud

API-Schlüssel „Document Understanding“

Enterprise-Plan

http://<IP_addr>:<port_number>

Google

Google

API-Schlüssel der GCP-Konsole

https://vision.googleapis.com/v1/images:annotate

Microsoft Read 2.0 On-Prem

Microsoft

Keine

http://<IP_addr>:<port_number>/vision/v2.0/read/core/Analyze

Microsoft Read 2.0 Azure

Microsoft

API-Schlüssel für Ihre Ressource im Azure Portal

<Azure_resource_Endpoint>/vision/v2.0/read/core/asyncBatchAnalyze

Microsoft Read 3.1 On-Prem

Microsoft

Keine

http://<IP_addr>:<port_number>/vision/v3.1/read/analyze

Microsoft Read 3.1 Azure

Microsoft

API-Schlüssel für Ihre Ressource im Azure Portal

<Azure_resource_Endpoint>/vision/v3.1/read/analyze

War diese Seite hilfreich?

Hilfe erhalten
RPA lernen – Automatisierungskurse
UiPath Community-Forum
Uipath Logo White
Vertrauen und Sicherheit
© 2005–2024 UiPath. Alle Rechte vorbehalten