studio
2024.10
true
UiPath logo, featuring letters U and I in white
Studio-Benutzerhandbuch
Last updated 18. Nov. 2024

OCR-Aktivitäten

In einigen Situationen sind bestimmte Anwendungen nicht mit der Nutzung von normalen Scraping- oder UI-Automatisierungstechnologien kompatibel. Aktivitäten in Studio, die OCR-Technologie verwenden, scannen den gesamten Bildschirm der Maschine und finden alle angezeigten Zeichen. Dies ermöglicht es dem Benutzer, Automatisierungen basierend auf dem zu erstellen, was auf dem Bildschirm angezeigt wird. Dadurch wird die Automatisierung in Umgebungen mit virtuellen Maschinen vereinfacht. Citrix und andere Remote Desktop-Dienstprogramme sind normalerweise das Ziel von OCR-basierten Aktivitäten, da sie nur ein Bild des Desktops an den Benutzer streamen, was bedeutet, dass normale UI-Selektoren nicht gefunden werden können.

Hinweis: Eine bewährte Methode für die Erstellung von Automatisierungen ist die Verwendung des Aufnahmeassistenten für das Erstellen des Projekts, das automatischen Erstellen von Selektoren und das Optimieren der Aktivitäten für Ihre Anforderungen.

Klicken Sie auf OCR Text und Hover OCR Text OCR verwenden, um den Bildschirm des Computers nach Text zu scannen und Aktionen relativ dazu auszuführen. Wenn sich grafische Elemente, der Text aber nicht ändern, funktionieren Automatisierungen, die mit der Texterkennung erstellt wurden, in der Regel weiterhin. Dies sind sehr nützliche Aktivitäten zur Automatisierung grundlegender Aktionen in Umgebungen virtueller Maschinen. Als Eingabe erhalten diese Aktivitäten ein Ziel, das entweder eine String-Variable, eine Region-Variable, eine UIElement-Variable oder ein Selektor sein kann, die die Koordinaten angeben, an denen die Aktion ausgeführt werden muss. Das Ziel kann auch automatisch generiert werden, indem die Funktion „ Auf Bildschirm anzeigen“ verwendet wird, die UI-Elemente in der angegebenen Region identifiziert und Selektoren dafür generiert. Wenn dies nicht funktioniert, ist möglicherweise ein manueller Eingriff erforderlich.

OCR-Text abrufen (Get OCR Text) extrahiert einen String und dessen Informationen aus einem angegebenen UI-Element, indem es die OCR-Screen-Scraping-Methode anwendet. Die Aktivität kann auch automatisch gemeinsam mit einem Container während des Screen-Srcaping ausgeführt wird. Standardmäßig wird die Google OCR-Engine verwendet, aber Sie können dies leicht in Abbyy oder Microsoft ändern. Es bestehen einige Unterschiede zwischen diesen OCR-Engines, wie hier erklärt, weshalb sie sich für unterschiedliche Situationen eignen. Als Input erhält diese Aktivität ein Ziel, welches entweder eine Region- bzw. UiElement-Variable oder ein Selektor sein kann. Dies hilft Ihnen bei der Identifizierung der von Ihnen gewünschten Automatisierung und der Stelle, an der die Aktionen durchgeführt werden sollen. Das Ziel kann auch automatisch anhand der Funktion Auf dem Bildschirm anzeigen (Indicate on Screen) generiert werden, die UI-Elemente in der angegebenen Region identifiziert und Selektoren für diese erstellt. Wenn dies nicht funktioniert, ist ggf. ein manueller Eingriff erforderlich. Diese Aktivität gibt eine String-Variable mit dem Text, der im UI-Element gefunden wurde, zurück und eine TextInfo-Variable mit den Bildschirmkoordinaten aller gefundenen Worte.

OCR-Textposition finden (Find OCR Text Position) sucht nach einem angegebenen String in einem UI-Element und gibt eine UIElement-Variable zurück, die den besagten String beinhaltet. Diese Aktivität kann hilfreich sein bei der Lokalisierung von UI-Elementen bzgl. zum Text am Bildschirm. Als Input erhält diese Aktivität einen String mit dem Text, nach dem gesucht wird, und ein Ziel, welches entweder eine Region- bzw. UiElement-Variable oder ein Selektor sein kann. Dies hilft bei der Identifizierung der von Ihnen gewünschten Automatisierung und der Stelle, an der die Aktionen durchgeführt werden sollen. Das Ziel kann auch automatisch anhand der Funktion Auf dem Bildschirm anzeigen (Indicate on Screen) generiert werden, die UI-Elemente in der angegebenen Region identifiziert und Selektoren für diese generiert. Wenn dies nicht funktioniert, ist ggf. ein manueller Eingriff erforderlich. Die Aktivität liefert eine UIElement-Variable mit der Position, an welcher der Text gefunden wurde.

OCR-Text vorhanden (OCR Text Exists) überprüft mithilfe von OCR-Technologie, ob ein Text in einem angegebenen UI-Element gefunden wird und liefert eine boolesche Variable, die „true“ ist, wenn der Text vorhanden ist, ansonsten ist sie „false“. Diese Aktivität kann bei allen Typen von textbasierten Automatisierungen hilfreich sein, da sie es Ihnen ermöglicht, Entscheidungen zu treffen, basierend auf der Tatsache, ob ein angegebener String angezeigt wird oder nicht. Sie kann auch verwendet werden, um bestimmte Aktionen in einer Schleife durchzuführen, indem sie als Bedingung in der Aktivität Wiederholungsumfang (Retry Scope) verwendet wird. Als Input erhält diese Aktivität einen String mit dem Text, nach dem gesucht wird, und ein Ziel, welches entweder eine Region- bzw. UiElement-Variable oder ein Selektor sein kann. Dies hilft Ihnen bei der Identifizierung der von Ihnen gewünschten Automatisierung und der Stelle, an der die Aktionen durchgeführt werden sollen. Das Ziel kann auch automatisch anhand der Funktion Auf dem Bildschirm anzeigen (Indicate on Screen) erstellt werden, die UI-Elemente in der angegebenen Region identifiziert und Selektoren für diese erstellt. Wenn dies nicht funktioniert, ist ggf. ein manueller Eingriff erforderlich. Diese Aktivität liefert eine boolesche Variable, die angibt, ob der Text gefunden wurde oder nicht.

OCR Engineswie Google OCR, Google Cloud OCR, Microsoft OCR, Microsoft Cloud OCR und Abbyy Cloud OCR sind ebenfalls als separate Aktivitäten verfügbar. Diese Aktivitäten extrahieren eine Zeichenfolge und ihre Position aus einem bereitgestellten Bild mithilfe verschiedener OCR-Engines. Diese Aktivitäten können mit anderen OCR-Aktivitäten verwendet werden (Click OCR Text, Hover OCR Text, Get OCR Text, Find OCR Text Position). Als Eingabe erhalten diese Aktivitäten eine Bildvariable, die die zu scannende Bilddatei enthält. Als Ausgabe geben die Aktivitäten eine IEnumerable<KeyValuePair<Rectangle,String>> -Variable zurück, die den extrahierten Text und ihre Bildschirmkoordinaten enthält, sowie eine String-Variable, die den extrahierten Text enthält.

War diese Seite hilfreich?

Hilfe erhalten
RPA lernen – Automatisierungskurse
UiPath Community-Forum
Uipath Logo White
Vertrauen und Sicherheit
© 2005–2024 UiPath. Alle Rechte vorbehalten