- Erste Schritte
- Framework-Komponenten
- Document Understanding im AI Center
- Pipelines
- ML-Pakete
- Data Manager
- OCR-Dienste
- OCR-Dienste
- Lizenzierung
- Referenzen
Document Understanding-Benutzerhandbuch.
OCR-Dienste
OCR Engines werden für die folgenden Zwecke verwendet:
- Zur Datenbeschriftungszeit beim Importieren von Dokumenten in den Data Manager. Die für diesen Schritt verfügbaren Dienste sind UiPath Document OCR (kostenlos in der Cloud oder lokal), Google Cloud OCR (nur Cloud), Microsoft Read OCR (Cloud oder lokal) und Omnipage (nur lokal).
- Zur Laufzeit beim Aufrufen von Modellen aus RPA-Workflows. Die für diesen Schritt verfügbaren Dienste sind alles OCR Engines, die in die UiPath RPA-Plattform integriert sind, einschließlich der oben genannten, sowie Abbyy Finereader, Microsoft OCR (Legacy), Microsoft Project Oxford OCR und Tesseract.
In der Produktion empfehlen wir, die OCR mit der Aktivität Digitize Document in Ihrem Workflow aufzurufen und das Dokumentobjektmodell als Eingabe an die Aktivität zu übergeben, die das ML-Modell aufruft. Dazu müssen Sie die Aktivität Machine Learning Extractor (Offizieller Feed) verwenden.
Für Testzwecke lässt sich die OCR auch gut direkt im AI Center konfigurieren (Fenster Einstellungen), aber für Produktionsbereitstellungen wird dies nicht empfohlen.
UiPath Document OCR lässt sich auf drei Arten bereitstellen:
- Auf dem Robot, der ein Aktivitätspaket von LocalServer und das Paket UiPath.OCR.Activities Version 3.1.0-preview oder höher verwendet - erfordert keinen Internetzugang und keine zusätzliche Hardware, aber die Robotermaschine benötigt eine CPU mit AVX2-Unterstützung.
- Dies sollte Ihre Standardoption sein. Für größere Volumen können Sie weitere Robots hinzufügen.
- Eigenständiger Docker-Container, der auf der Linux-GPU-Maschine ausgeführt wird (siehe unten – empfohlen für Volumen über 1 Mio. Seiten/Jahr) – Erfordert Internetzugang für die Lizenzierung/Messung
- Dies sollte Ihre Standardoption für große Volumen von 2-3 Millionen Seiten pro Jahr sein.
- Eigenständiger Docker-Container, der auf der Linux-CPU-Maschine ausgeführt wird (siehe unten) – Erfordert Internetzugang für die Lizenzierung/Messung
- Nur in seltenen Situationen, in denen Ihre Robotermaschinen auf CPUs ohne AVX2-Unterstützung laufen oder keine GPU abgerufen werden kann.
- ML-Fähigkeit in AI Center (siehe Abschnitt „ML-Pakete“) (GPU wird dringend empfohlen) – Erfordert keinen lokalen Internetzugang bei AI Center-Installation mit Air Gap
Dieser Abschnitt beschreibt die Hardware- und Softwareanforderungen für die Installation von OCR Engines.
-
Beteiligte Maschinen: VM in der Cloud oder On-Prem Box oder Laptop
-
Betriebssysteme: Windows (Windows 10) oder Linux (Ubuntu/CentOS/RedHat)
-
Rechenmodule: CPU oder GPU
-
OCR: UiPath Dokument OCR CPU oder UiPath OCR GPU oder OmniPage OCR CPU
|
CPU-Cores |
RAM (GB) |
Video-RAM (GB) | HDD (GB) |
---|---|---|---|---|
UiPath CPU |
8 |
8 |
50 | |
UiPath GPU |
1 |
4 |
8 |
50 |
OmniPage CPU |
1 |
2 |
30 |
Die Softwareanforderungen für OCR-Module sind die gleichen wie für Data Manager.
<IP>:<port_number>
. Mögliches OCR-Modul: UiPath Document OCR (lokal), Omnipage OCR (lokal), Google Cloud Vision OCR, Microsoft Read Azure, Microsoft Read (lokal).
<IP>:<port_number>
. Die gleichen OCR-Optionen wie oben, mit Ausnahme von Omnipage, das in den Robotern direkt als Aktivitätspack verfügbar ist.
OCR Engines benötigen Zugriff auf den Lizenzierungsserver, der von UiPath in Azure auf Port 443 gehostet wird.
Wenn Sie nur vorgefertigte, einsatzbereite Modelle verwenden möchten, können Sie eine OCR Engine auf Ihrem Windows 10-Laptop ausführen. Stellen Sie sicher, dass Docker Desktop über 8G RAM verfügt.
Wenn Sie ein benutzerdefiniertes Modell versuchshalber als Demo für ein kleines Datenvolumen (unter 100 Dokumente) trainieren möchten, können Sie die OCR Engine in einer Umgebung mit einem Limit von 4 GB RAM ausführen. In kleinen Fällen wie diesem ist möglicherweise keine GPU für das OCR-Modul erforderlich.
OCR-Modul sind Containeranwendungen, die über dem Docker ausgeführt werden. Sie sind nicht auf derselben Maschine ausführbar wie das lokale AI Center. Anhand dieser vorausgesetzten Befehle des Installationsprogramms können sie auf einer separaten Maschine ausgeführt und Docker- und Nvidia-Treiber (optional) eingerichtet werden. Diese Skripte sollten nicht auf der Maschine ausgeführt werden, auf der AI Center installiert wird.
Die Voraussetzungen für OCR-Module sind die gleichen wie für Data Manager.
Linux
Führen Sie diesen Befehl aus:
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu
Auf einigen Systemen muss der Befehl zweimal ausgeführt oder das System möglicherweise neu gestartet werden, um alle Anforderungen zu installieren.
Azure-spezifisch: Für den Einsatz virtueller Maschinen der NV-Serie müssen Sie den NVIDIA-Treiber installieren, bevor Sie den obigen Befehl ausführen. Oder Sie können auch eine Treibererweiterung von Azure verwenden, um den erforderlichen NVIDIA-Treiber passend zu dieser Stufe des GPU-Modells zu installieren.
Azure VMs
Wenn Sie auf einer VM in Azure installieren, verwenden Sie stattdessen diesen Befehl:
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure
UiPath Document OCR ist eine proprietäre OCR Technologie von UiPath, die Zeichen folgender Skriptsprachen mit lateinischer Schrift unterstützt: Englisch, Französisch, Deutsch, Italienisch, Portugiesisch, Rumänisch und Spanisch. Text in anderen Sprachen wird erkannt, aber ohne Akzente, z. B. wird „Ł“ auf Polnisch als „L“ erkannt. Mit UiPath Document OCR verarbeitete Seiten werden nicht zu dem Seitenkontingent gezählt, das zusammen mit der Lizenz für Document Understanding Enterprise erworben wurde, sodass UiPath OCR frei verwenden kann.
UiPath Document OCR ist sowohl lokal als Docker-Container als auch in der Cloud als Clouddienst-API mit der folgenden URL verfügbar: https://du.uipath.com/ocr. Die vollständige Beschreibung der verfügbaren URLs finden Sie auf der Seite über Öffentliche Endpunkte.
Der Container „Omnipage Docker“ ist nur mit Data Manager zum Importieren von Dokumenten in Sprachen gedacht, die UiPath Document OCR noch nicht unterstützt.
Führen Sie diese Befehle aus:
docker login aiflprodweacr.azurecr.io -u *** -p ***docker pull aiflprodweacr.azurecr.io/omnipage-ocr:latestdocker run -d -p 5100:80 aiflprodweacr.azurecr.io/omnipage-ocr:latest LicenseAgreement=accept
docker login aiflprodweacr.azurecr.io -u *** -p ***docker pull aiflprodweacr.azurecr.io/omnipage-ocr:latestdocker run -d -p 5100:80 aiflprodweacr.azurecr.io/omnipage-ocr:latest LicenseAgreement=accept
Der Endpunkt ist in der Dokumentation der Google Cloud Platform verfügbar. Der APISchlüssel kann mit der Google Cloud Platform Console abgerufen werden, wenn Sie einen Google Cloud Vision-Dienst abonniert haben.
Konfigurieren von OCR-Diensten in ML-Paketen für Document Understanding für den Data Manager und das AI Center
Die folgende Tabelle zeigt, wie die sechs unterstützten OCR-Modultypen in Data Manager und AI Center konfiguriert werden.
ocr.method
-Argument dem Dropdownmenü „OCR-Modul“ in der Ansicht zur ML-Paketerstellung.
OCR-Modul |
ocr.method |
ocr.key |
ocr.url |
---|---|---|---|
UiPath |
UiPath |
UiPath Automation Cloud API-Schlüssel „Document Understanding“ Enterprise-Plan |
|
OmniPage |
omnipage |
UiPath Automation Cloud API-Schlüssel „Document Understanding“ Enterprise-Plan |
|
|
|
API-Schlüssel der GCP-Konsole |
|
Microsoft Read 2.0 On-Prem |
Microsoft |
Keine |
|
Microsoft Read 2.0 Azure |
Microsoft |
API-Schlüssel für Ihre Ressource im Azure Portal |
|
Microsoft Read 3.1 On-Prem |
Microsoft |
Keine |
|
Microsoft Read 3.1 Azure |
Microsoft |
API-Schlüssel für Ihre Ressource im Azure Portal |
|
- Über OCR-Dienste
- Lokale Bereitstellungen
- Anforderungen
- Hardwareanforderungen
- Softwareanforderungen
- Netzwerkkonfiguration
- Minimale Test- oder Proof-of-Concept-Konfiguration
- Voraussetzungen
- GPU-Maschineninstallation (optional)
- Installation
- UiPath Document OCR (Vorschau)
- OmniPage OCR
- Google Cloud OCR
- Microsoft Read
- Konfigurieren von OCR-Diensten in ML-Paketen für Document Understanding für den Data Manager und das AI Center