- 概述
- 用户界面自动化
- 通过用户界面自动化实现自动化的应用程序和技术
- 项目兼容性
- UI-ANA-016 - 拉取打开浏览器 URL
- UI-ANA-017 - 出错时继续 True
- UI-ANA-018 - 列出 OCR/图像活动
- UI-DBP-006 - 容器使用情况
- UI-DBP-013 - Excel 自动化误用
- UI-DBP-030 - 选取器中的禁止变量使用情况
- UI-DBP-031 - 活动验证
- UI-PRR-001 - 模拟单击
- UI-PRR-002 - 模拟键入
- UI-PRR-003 - 打开应用程序误用
- UI-PRR-004 - 硬编码延迟
- UI-REL-001 - 选取器中的大 IDX
- UI-SEC-004 - 选取器电子邮件数据
- UI-SEC-010 - 应用程序/Url 限制
- UI-USG-011 - 不允许的属性
- UX-SEC-010 - 应用程序/Url 限制
- UX-DBP-029 - 使用不安全的密码
- UI-PST-001 - 项目设置中的审核日志级别
- UiPath 浏览器迁移工具
- 剪切区域
- 计算机视觉录制器
- 活动索引
- 激活
- 锚点基准
- 附加浏览器
- 附加窗口
- 阻止用户输入
- 标注
- 选中
- 单击
- 单击图像
- 单击图像触发器
- 单击 OCR 文本
- 单击文本
- 单击触发器
- 关闭应用程序
- 关闭选项卡
- 关闭窗口
- 上下文感知锚点
- 复制选定文本
- 元素属性更改触发器
- 存在元素
- 元素作用域
- 元素状态更改触发器
- 导出用户界面树
- 提取结构化数据
- 查找子元素
- 查找元素
- 查找图像
- 查找图像匹配项
- 查找 OCR 文本位置
- 查找相对元素
- 查找文本位置
- 获取活动窗口
- 获取上级
- 获取属性
- 获取事件信息
- 从剪贴板获取
- 获取全文
- 获取 OCR 文本
- 获取密码
- 获取位置
- 获取源元素
- 获取文本
- 获取可见文本
- 返回
- 前往
- 转至主页
- Google Cloud Vision OCR
- 隐藏窗口
- 高亮显示
- 热键触发器
- 悬停
- 悬停在图像上方
- 悬停在 OCR 文本上方
- 悬停文本
- 存在图像
- 在屏幕上指定
- 注入 .NET 代码
- 插入 Js 脚本
- 调用 ActiveX 方法
- 按键触发器
- 加载图像
- 最大化窗口
- Microsoft Azure 计算机视觉 OCR
- Microsoft OCR
- Microsoft Project Oxford Online OCR
- 最小化窗口
- 监控事件
- 鼠标触发器
- 移动窗口
- 导航至
- 存在 OCR 文本
- 在元素出现时
- 在元素消失时
- 在图像出现时
- 在图像消失时
- 打开应用程序
- 打开浏览器
- 刷新浏览器
- 重播用户事件
- 还原窗口
- 保存图像
- 选择项目
- 选择多个项目
- 发送热键
- 设置剪切区域
- 设置焦点
- 设置文本
- 设置为剪贴板
- 设置网页属性
- 显示窗口
- 启动进程
- 系统触发器
- 截取屏幕截图
- Tesseract OCR
- 存在文本
- 工具提示
- 键入
- 输入安全文本
- 使用前台
- 等待属性
- 等待元素消失
- 等待图像消失
- Computer Vision Local Server
- 移动自动化
- 终端

用户界面自动化活动
输出或屏幕抓取方法是指那些用于从指定的用户界面元素或文档(如 .pdf 文件)中提取数据的活动。
为了了解哪一个更适合自动化您的业务流程,我们来看看它们之间的区别。
能力方法 |
速度 |
准确度 |
后台执行 |
提取文本位置 |
提取隐藏文本 |
支持 Citrix |
---|---|---|---|---|---|---|
全文 |
10/10 |
100% |
是 |
否 |
是 |
否 |
原生 |
8/10 |
100% |
否 |
是 |
否 |
否 |
OCR |
3/10 |
98% |
否 |
是 |
否 |
是 |
默认方法是“全文”,它快速而准确,但与“原生”方法不同的是,它不能提取文本的屏幕坐标。
这两种方法都只适用于桌面应用程序,但“原生”方法只适用于为了使用图形设备接口 (GDI) 呈现文本而构建的应用程序。
OCR 不是 100% 准确,但可用于提取其他两种方法无法提取的文本,因为它适用于包括 Citrix 在内的所有应用程序Studio 默认情况下使用两个 OCR 引擎:Google Tesseract 和 Microsoft Modi。
可以为 OCR 引擎更改语言,您可以在此处了解如何安装 OCR 语言。
能力方法 |
多语言支持 |
首选的区域大小 |
支持色彩反转 |
设置期望的文本格式 |
过滤允许的字符 |
最好使用 Microsoft 字体 |
---|---|---|---|---|---|---|
Google Tesseract |
可以添加 |
小 |
是 |
是 |
是 |
否 |
MIcrosoft MODI |
默认情况下支持 |
大 |
否 |
否 |
否 |
是 |
要开始从各种来源提取文本,请单击“设计”功能区选项卡上“向导”组中的“屏幕抓取”按钮。
利用上述三种输出方法之一,屏幕抓取向导可以让您指向用户界面元素并从中提取文本。Studio 自动为您选择屏幕抓取方法,并将其显示在“屏幕抓取器向导”窗口的顶部。
要更改屏幕抓取方法,请从“选项”面板中选择另一种方法,然后单击“刷新”。
如果您对抓取结果感到满意,请单击 “复制到剪贴板 ”,然后单击“ 完成”。 后一个选项会将提取的文本复制到剪贴板,并且可以将其添加到“ 设计器 ”面板中的“生成数据表”活动中。 就像 桌面录制一样,屏幕抓取会生成一个容器(带有顶层窗口的选取器),其中包含活动以及每个活动的部分选取器。
在“选项”面板中的“屏幕抓取器向导”中,每种类型的屏幕抓取都具有不同的功能:
-
全文
- 忽略隐藏项 – 当选中此复选框时,将不会复制所选用户界面元素中的隐藏文本。
-
原生
- 不限定格式 - 选中此复选框时,复制的文本不会从文本中提取格式信息。否则,保留提取文本的相对位置。
- 获取词信息 - 当选中此复选框时,Studio 还会提取每个词的屏幕坐标。此外,还将显示“自定义分隔符”字段,使您能够指定用作分隔符的字符。如果该字段为空,则使用所有已知文本分隔符。
-
Google OCR
- “语言”– 默认情况下只有英语可用。
- “字符”– 用于选择要提取的字符类型。提供以下选项:“任何字符”、“仅数字”、“字母”、“大写”、“小写”、“电话号码”、“币种”、“日期”和“自定义”。如果选择“自定义”,则会显示另外两个字段(“允许”和“拒绝”),用于创建有关要抓取的字符类型和要避免的字符类型的自定义规则。
- 反相 – 如果选中该复选框,则在抓取之前反转用户界面元素的颜色。这在背景颜色比文本颜色更深的情况下有用。
- “比例”– 选定用户界面元素或图像的比例因子。数字越大,将图像放大得越大。这样可以更好地读取 OCR,建议小图像使用较大比例因子。
-
“获取词信息”– 获取每个抓取的词在屏幕上的位置。
-
UiPath 屏幕 OCR
- “端点”– 托管 OCR 模型的端点,可以公开托管或通过 AI Center 中的 ML 技能托管。
- “API 密钥”– 端点 API 密钥。
- “获取词信息”– 获取每个抓取的词在屏幕上的位置。
- “使用本地服务器”– 如果要在本地运行 OCR,请选择此选项(需要计算机视觉本地服务器包)
-
Microsoft OCR
重要提示:Microsoft OCR 抓取引擎不支持 .NET 5 工作流。
- “语言”– 用于更改抓取文本的语言。默认选择英语。
- “比例”– 选定用户界面元素或图像的比例因子。数字越大,将图像放大得越大。这样可以更好地读取 OCR,建议小图像使用较大比例因子。
- “获取词信息”- 获取每个抓取的词在屏幕上的位置。
除了从指示的用户界面元素中提取文本外,还可以提取多种类型属性的值、其确切的屏幕位置及其上级。
这种类型的信息可以通过在“活动”面板中的“用户界面自动化”>“元素”>“查找”和“用户界面自动化”>“元素”>“属性”下找到的专用活动来提取。
这些活动是:
-
获取上级 - 用于从指定的用户界面元素中检索上级。您可以指示在哪个级别的用户界面层次结构中查找上级,并将结果存储在用户界面元素变量中。
-
获取属性 – 检索指定用户界面元素属性的值。一旦您在屏幕上指示了用户界面元素,系统就会显示一个包含所有可用属性的下拉列表。
-
获取位置 – 检索指定用户界面元素的边框,并且只支持矩形变量。
UiPath Studio 还具有“ 相对抓取” 功能,这种抓取方法可识别要检索的文本相对于锚点的位置。 您可以 在此处找到更多相关信息。
还可以使用“屏幕抓取向导”从非结构化数据生成表,并将这些信息存储在数据表变量中。有关更多信息,请参阅从非结构化数据生成表。