- Erste Schritte
- Framework-Komponenten
- Übersicht zur Dokumentklassifizierung
- „Klassifizierer konfigurieren“-Assistent von Classify Document Scope
- Schlüsselwortbasierte Classifier (Keyword Based Classifier)
- Intelligenter Schlüsselwortklassifizierer
- FlexiCapture Classifier
- Machine Learning Classifier
- Dokumentklassifizierung – verwandte Aktivitäten
- ML-Pakete
- Pipelines
- Data Manager
- OCR-Dienste
- OCR-Dienste
- Document Understanding – in der Automation Suite bereitgestellt
- Document Understanding – im eigenständigen AI Center bereitgestellt
- Deep Learning
- Lizenzierung
- Referenzen
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Aktivitäten (UiPath.IntelligentOCR.Activities)
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.Omnipage.Activities
- UiPath.PDF.Aktivitäten (UiPath.PDF.Activities)
OCR-Dienste
OCR Engines werden für die folgenden Zwecke verwendet:
- Zur Datenbeschriftungszeit beim Importieren von Dokumenten in den Data Manager. Die für diesen Schritt verfügbaren Engines sind UiPath Document OCR, Google Cloud Vision OCR und Microsoft Read OCR.
- Zur Laufzeit beim Aufrufen von Modellen aus RPA-Workflows. Die für diesen Schritt verfügbaren Engines sind alle in die UiPath-RPA-Plattform integrierte Engines, einschließlich der oben genannten, sowie Abbyy Finereader, Microsoft OCR (Legacy), Microsoft Project Oxford OCR und Tesseract.
In der Produktion empfehlen wir, die OCR mit der Aktivität Digitize Document in Ihrem Workflow aufzurufen und das Dokumentobjektmodell als Eingabe an die Aktivität zu übergeben, die das ML-Modell aufruft. Dazu müssen Sie die Aktivität Machine Learning Extractor (Offizieller Feed) verwenden.
Für Testzwecke lässt sich die OCR auch gut direkt im AI Center konfigurieren (Fenster Einstellungen), aber für Produktionsbereitstellungen wird dies nicht empfohlen.
Dieser Abschnitt beschreibt die Hardware- und Softwareanforderungen für die Installation von OCR Engines.
-
Beteiligte Maschinen: VM in der Cloud/lokale/Laptop
-
Betriebssysteme: Windows (Windows 10)/Linux (Ubuntu/RedHat)
-
Rechenmodule: CPU/GPU
-
OCR: UiPath Document OCR CPU/UiPath Document OCR GPU
|
CPU-Cores |
RAM (GB) |
Video-RAM (GB) | HDD (GB) |
---|---|---|---|---|
UiPath CPU |
4 |
4 |
50 | |
UiPath GPU |
1 |
4 |
8 |
50 |
Linux-Betriebssystem
Wenn Sie das Produkt auf einer VM in der Cloud installieren, werden folgende Betriebssysteme unterstützt:
Software |
Versionen |
---|---|
Ubuntu |
20.04 LTS 18.04 LTS 16.04 LTS |
RHEL |
7.x |
Wenn Sie das Produkt auf einer Maschine in einem lokalen Rechenzentrum installieren, werden folgende Betriebssysteme unterstützt:
Software |
Versionen |
---|---|
Ubuntu |
20.04 LTS 18.04 LTS 16.04 LTS |
RHEL |
7.x |
Windows-Betriebssystem
Die Liste der unterstützten Windows-Betriebssysteme finden Sie auf der offiziellen Docker-Website.
Unter Windows erfordert Ihre Maschine aktivierte Virtualisierung. Wir empfehlen dringend, dies nur auf physischen Maschinen wie Laptops oder Desktop Workstations zu tun. Wir unterstützen keine Ausführung auf Docker unter Windows in virtuellen Maschinen (Cloud oder Rechenzentrum) mit geschachtelter Virtualisierung.
Browser
Software |
Versionen |
---|---|
Google Chrome |
50+ |
-
Data Manager benötigt Zugriff auf das OCR-Modul
<IP>:<port_number>
. Mögliches OCR-Modul: UiPath Document OCR (lokal), Google Cloud Vision OCR, Microsoft Read Azure, Microsoft Read (lokal). -
Roboter benötigen Zugriff auf OCR
<IP>:<port_number>
. Die gleichen OCR-Optionen wie oben. -
OCR Engines benötigen Zugriff auf den Lizenzierungsserver, der von UiPath in Azure auf Port 443 gehostet wird.
Wenn Sie nur vorgefertigte, einsatzbereite Modelle verwenden möchten, können Sie eine OCR Engine auf Ihrem Windows 10-Laptop ausführen. Stellen Sie sicher, dass Docker Desktop über 8G RAM verfügt.
Wenn Sie ein benutzerdefiniertes Modell versuchshalber als Demo für ein kleines Datenvolumen (unter 100 Dokumente) trainieren möchten, können Sie die OCR Engine in einer Umgebung mit einem Limit von 4 GB RAM ausführen. In kleinen Fällen wie diesem ist möglicherweise keine GPU für das OCR-Modul erforderlich.
OCR-Modul sind Containeranwendungen, die über dem Docker ausgeführt werden. Sie sind nicht auf derselben Maschine ausführbar wie das lokale AI Center. Anhand dieser vorausgesetzten Befehle des Installationsprogramms können sie auf einer separaten Maschine ausgeführt und Docker- und Nvidia-Treiber (optional) eingerichtet werden. Diese Skripte sollten nicht auf der Maschine ausgeführt werden, auf der AI Center installiert wird.
/
in der Spalte ganz rechts:
df -h
df -h
Wenn die Partition kleiner als die minimalen Speicheranforderungen ist, sehen Sie im Abschnitt Konfigurieren des Docker-Datenordners nach.
Linux
Folgen Sie den Anweisungen in der offiziellen Docker-Dokumentation, oder führen Sie diesen Befehl aus:
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu
Wenn dieser Befehl fehlschlägt, haben Sie ein inkompatibles Linux-Betriebssystem, und Sie müssen Ihre IT auffordern, Docker auf der Maschine zu installieren, indem Sie den Anweisungen in der offiziellen Docker-Dokumentation folgen.
Azure VMs
Wenn Sie auf einer VM in Azure installieren, verwenden Sie stattdessen diesen Befehl:
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu --cloud azure
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu --cloud azure
Windows 10
Laden Sie Docker Desktop herunter und installieren Sie es. Bei kürzlich aktualisierten Versionen von Windows 10 muss WSL2 installiert sein. Wenn also das Dialogfeld „WSL 2-Installation ist unvollständig“ angezeigt wird, klicken Sie auf die Schaltfläche „Neu starten“.
workdir
beim Data Manager) und den Pfad dazu in den Docker-Ausführungsbefehl nach dem Flag -v
aufnehmen. Unter Windows öffnet Docker Desktop dabei eine Benachrichtigung wie die untenstehende. Sie müssen auf Freigeben klicken, um fortzufahren.
Geben Sie den Pfad zu dem Ordner ein, in den Docker seine Dateien aufnehmen soll, führen Sie dann diesen Befehl aus, und starten Sie dann neu:
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --change-mount </path/to/folder>
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --change-mount </path/to/folder>
Docker hilft, Software in Docker images zu versenden. Eine laufende Instanz eines Bilds wird als Container bezeichnet. Ein Container kann so oft wie nötig angehalten, entfernt, erneut gestartet werden, sofern das Bild verfügbar ist.
Sobald das Bild entfernt wurde, geht er verloren. Wiederherstellen lässt er sich nur noch aus der ursprünglichen Registrierung, wenn er dort noch verfügbar ist.
–v
und –p
zugeordnet werden.
In der folgenden Tabelle finden Sie eine Liste der gängigen Befehle für die Docker-Befehlszeile.
Klicken Sie hier, um die vollständige Liste der grundlegenden Docker-Befehle zu sehen.
Befehl |
Beschreibung |
---|---|
|
Melden Sie sich bei einer Registrierung an. |
|
Laden Sie ein Bild aus einer Registrierung herunter. Anhand des neuesten Tag wird häufig auf die neueste Version eines Bilds verwiesen. |
ODER
|
Ausführen eines Images im getrennten Modus, während Port 80 im Container dem Port 5000 auf der Hostmaschine und <container folder> dem <host folder> zugeordnet wird. „Getrennter Modus“ bedeutet, dass der Container das Terminal nicht blockiert, sodass Sie andere Vorgänge auf demselben Terminal ausführen können. |
|
Listen Sie die auf Ihrem System vorhandenen Bilder auf. |
|
Listen Sie alle Container auf (sowohl ausgeführte als auch angehaltene). Anhand der Container-ID wird auf den Container verwiesen, wenn er z. B. angehalten oder entfernt werden muss. |
|
Container anhalten Dieser Befehl entfernt den Container nicht, ist aber vor dem Entfernen erforderlich. |
„
docker rm <container id> “
|
Container entfernen Der Container muss zuvor angehalten werden. |
|
Display the logs (des Containers) |
|
Entfernen Sie ein oder mehrere Bilder aus dem System. Dies hilft, Speicherplatz zu sparen, da Bilder viel Platz einnehmen können. |
|
Entfernen Sie alle gestoppten Container |
Befehl |
Beschreibung |
---|---|
|
Führen Sie einen Befehl als Administrator aus. Versuchen Sie es immer dann, wenn Sie einen Fehler Berechtigung verweigert erhalten. |
|
Zeigen Sie Informationen zu den Netzwerkschnittstellen im System an. Suchen Sie die IP Ihrer Maschine in den Abschnitten eth0 oder docker0. |
|
Zeigen Sie den Pfad zum aktuellen Ordner an. |
|
Listen Sie den Inhalt eines Verzeichnisses auf. |
|
Wechseln Sie zu einem anderen Ordner. |
|
Erstellen Sie einen neuen Ordner. |
Linux
Führen Sie diesen Befehl aus:
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu
Auf einigen Systemen muss der Befehl zweimal ausgeführt oder das System möglicherweise neu gestartet werden, um alle Anforderungen zu installieren.
Azure-spezifisch: Für den Einsatz virtueller Maschinen der NV-Serie müssen Sie den NVIDIA-Treiber installieren, bevor Sie den obigen Befehl ausführen. Oder Sie können auch eine Treibererweiterung von Azure verwenden, um den erforderlichen NVIDIA-Treiber passend zu dieser Stufe des GPU-Modells zu installieren.
Azure VMs
Wenn Sie auf einer VM in Azure installieren, verwenden Sie stattdessen diesen Befehl:
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure
UiPath Document OCR ist eine proprietäre OCR Technologie von UiPath, die Zeichen folgender Skriptsprachen mit lateinischer Schrift unterstützt: Englisch, Französisch, Deutsch, Italienisch, Portugiesisch, Rumänisch und Spanisch. Text in anderen Sprachen wird erkannt, aber ohne Akzente, z. B. wird „Ł“ auf Polnisch als „L“ erkannt. Mit UiPath Document OCR verarbeitete Seiten werden nicht zu dem Seitenkontingent gezählt, das zusammen mit der Lizenz für Document Understanding Enterprise erworben wurde, sodass UiPath OCR frei verwenden kann.
UiPath Document OCR kann auf folgende Art bereitgestellt werden:
- Öffentliche Cloud-URLs – Weitere Details finden Sie auf der Seite Öffentliche Endpunkte.
- lokale Installation (einschließlich air-gapped) mit dem Aktivitätspaket UiPath.DocumentUnderstanding.OCR.LocalServer (erfordert keinen Internetzugang)
- lokaler Container für reguläre eigenständige Docker (erfordert Internetzugang)
- lokaler Container für eigenständige Docker (air-gapped) (erfordert keinen Internetzugang)
- lokal als ML-Fähigkeit in der regulären Installation des AI Centers (erfordert Internetzugang)
- lokal als ML-Fähigkeit in der Bereitstellung des AI Centers (air-gapped) (erfordert keinen Internetzugang)
-
Führen Sie folgende Befehle aus, um UiPath Document OCR als eigenständigen Docker-Container zu installieren:
docker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latest
docker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latest -
Mithilfe von CPUs ausführen
docker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept
docker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept -
Mit GPU ausführen
docker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept
docker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept -
Im AI Center befindet sich beim Erstellen eines neuen ML-Pakets unten auf dem Bildschirm der optionale OCR Konfigurationsabschnitt, in dem Sie den serverseitigen OCR Engine-Typ, die OCR URL und den OCR-Schlüssel definieren können. Der OCR-Schlüssel ist der API-Schlüssel, den Sie im Abschnitt „Lizenzen“ Ihres Automation Cloud-Kontos erhalten. Dies ist die OCR-Konfiguration, die von der Aktivität „Machine Learning Extractor“ verwendet wird, wenn Sie das Kontrollkästchen „UseServerSideOCR“ aktivieren. Dieses Feld ist standardmäßig deaktiviert, und in diesem Fall verwendet der Extraktor die OCR in der Aktivität „Digitize Document“.
Wichtig: Der Container „UiPath Document OCR“ kann nicht auf derselben Maschine ausgeführt werden wie das lokale AI Center.
Der Endpunkt ist in der Dokumentation der Google Cloud Platform verfügbar. Der APISchlüssel kann mit der Google Cloud Platform Console abgerufen werden, wenn Sie einen Google Cloud Vision-Dienst abonniert haben.
Konfigurieren von OCR-Diensten in ML-Paketen für Document Understanding für den Data Manager und das AI Center
Die folgende Tabelle zeigt, wie die sechs unterstützten OCR-Modultypen in Data Manager und AI Center konfiguriert werden.
OCR-Modul |
OCR-Methode |
OCR-Schlüssel |
OCR-URL |
---|---|---|---|
UiPath |
UiPath Document OCR |
UiPath Automation Cloud API-Schlüssel „Document Understanding“ Enterprise-Plan |
|
|
Google Cloud Vision OCR |
API-Schlüssel der GCP-Konsole |
|
Microsoft Read 2.0 On-Prem |
Microsoft Read OCR |
Keine |
|
Microsoft Read 2.0 Azure |
Microsoft Read OCR |
API-Schlüssel für Ihre Ressource im Azure Portal |
|
Microsoft Read 3.2 On-Prem |
Microsoft Read OCR |
Keine |
|
Microsoft Read 3.2 Azure |
Microsoft Read OCR |
API-Schlüssel für Ihre Ressource im Azure Portal |
|
- Über OCR-Dienste
- Anforderungen
- Hardwareanforderungen
- Softwareanforderungen
- Netzwerkkonfiguration
- Minimale Test- oder Proof-of-Concept-Konfiguration
- Voraussetzungen
- Installieren von Docker
- Konfigurieren des Docker-Datenordners (nur Linux)
- Kurzübersicht Docker
- Kurzübersicht Linux Terminal
- GPU-Maschineninstallation (optional)
- Installation
- UiPath Document OCR
- Google Cloud OCR
- Microsoft Read
- Konfigurieren von OCR-Diensten in ML-Paketen für Document Understanding für den Data Manager und das AI Center