- 概述
- 用户界面自动化
- 关于“用户界面自动化”活动包
- 通过用户界面自动化实现自动化的应用程序和技术
- 项目兼容性
- UI-ANA-016 - 拉取打开浏览器 URL
- UI-ANA-017 - 出错时继续 True
- UI-ANA-018 - 列出 OCR/图像活动
- UI-DBP-006 - 容器使用情况
- UI-DBP-013 - Excel 自动化误用
- UI-DBP-030 - 选取器中的禁止变量使用情况
- UI-DBP-031 - 活动验证
- UI-PRR-001 - 模拟单击
- UI-PRR-002 - 模拟键入
- UI-PRR-003 - 打开应用程序误用
- UI-PRR-004 - 硬编码延迟
- UI-REL-001 - 选取器中的大 IDX
- UI-SEC-004 - 选取器电子邮件数据
- UI-SEC-010 - 应用程序/Url 限制
- UI-USG-011 - 不允许的属性
- UX-SEC-010 - 应用程序/Url 限制
- UX-DBP-029 - 使用不安全的密码
- UI-PST-001 - 项目设置中的审核日志级别
- UiPath 浏览器迁移工具
- 剪切区域
- 计算机视觉录制器
- 活动索引
- 激活
- 锚点基准
- 附加浏览器
- 附加窗口
- 阻止用户输入
- 标注
- 选中
- 单击
- 单击图像
- 单击图像触发器
- 单击 OCR 文本
- 单击文本
- 单击触发器
- 关闭应用程序
- 关闭选项卡
- 关闭窗口
- 上下文感知锚点
- 复制选定文本
- 元素属性更改触发器
- 存在元素
- 元素作用域
- 元素状态更改触发器
- 导出用户界面树
- 提取结构化数据
- 查找子元素
- 查找元素
- 查找图像
- 查找图像匹配项
- 查找 OCR 文本位置
- 查找相对元素
- 查找文本位置
- 获取活动窗口
- 获取上级
- 获取属性
- 获取事件信息
- 从剪贴板获取
- 获取全文
- 获取 OCR 文本
- 获取密码
- 获取位置
- 获取源元素
- 获取文本
- 获取可见文本
- 返回
- 前往
- 转至主页
- Google Cloud Vision OCR
- 隐藏窗口
- 高亮显示
- 热键触发器
- 悬停
- 悬停在图像上方
- 悬停在 OCR 文本上方
- 悬停文本
- 存在图像
- 在屏幕上指定
- 注入 .NET 代码
- 插入 Js 脚本
- 调用 ActiveX 方法
- 按键触发器
- 加载图像
- 最大化窗口
- Microsoft Azure 计算机视觉 OCR
- Microsoft OCR
- Microsoft Project Oxford Online OCR
- 最小化窗口
- 监控事件
- 鼠标触发器
- 移动窗口
- 导航至
- 存在 OCR 文本
- 在元素出现时
- 在元素消失时
- 在图像出现时
- 在图像消失时
- 打开应用程序
- 打开浏览器
- 刷新浏览器
- 重播用户事件
- 还原窗口
- 保存图像
- 选择项目
- 选择多个项目
- 发送热键
- 设置剪切区域
- 设置焦点
- 设置文本
- 设置为剪贴板
- 设置网页属性
- 显示窗口
- 启动进程
- 系统触发器
- 截取屏幕截图
- Tesseract OCR
- 存在文本
- 工具提示
- 键入
- 输入安全文本
- 使用前台
- 等待属性
- 等待元素消失
- 等待图像消失
- Computer Vision Local Server
- 移动自动化
- 终端

用户界面自动化活动
UiPath.Semantic.Activities.NUITask
Screen Play 是 UiPath™ 的新一代自动化智能体,旨在为桌面带来智能体行为和认知功能。Screen Play 与应用程序的交互方式非常类似于人类,即界面导航、适应变化以及处理以前无法使用传统自动化方法完成的复杂任务。
如需了解更多信息,请参阅ScreenPlay。
此活动必须添加到“使用应用程序/浏览器”活动中。
- Task - Prompt describing the UI task to be performed, with the ability to:
- Use Variables
- Add image from screen (inline with the text)
- View last execution trace. For more details, see the Running and inspecting the execution results page.
-
Model - Indicates the underlying LLM used by ScreenPlay for task execution planning and reasoning. The following options are available:
UiPath(使用 Gemini 2.5 Flash)
- 基本模式
- 在浏览器中运行最佳
- 采用基于页面 DOM 的专有实施方案,利用 Gemini Flash 进行推理与图像理解
- 速度较快
- 标准模型 - 适用于复杂任务
- 在浏览器中运行最佳
- 采用基于页面 DOM 和图像理解的专有实施方案,并使用 GPT-4.1 进行推理
- 速度较慢
- 基础模式 - 速度更快、成本更低
- 在浏览器中运行最佳
- 采用基于页面 DOM 和图像理解的专有实施方案,并使用 GPT-4.1 mini 进行推理
- 速度较快
- 标准模型 - 适用于复杂任务
- 在浏览器中运行最佳
- 采用基于页面 DOM 和图像理解的专有实施方案,并使用 GPT-5 进行推理
- 慢
- 基础模式 - 速度更快、成本更低
- 在浏览器中运行最佳
- 采用基于页面 DOM 和图像理解的专有实施方案,并使用 GPT-5 mini 进行推理
- 速度较快
- 标准模型 - 适用于复杂任务
- 适用于任何类型的应用程序,包括基于图像的界面
- 使用 OpenAI运算符,一个基于图像的推理模型。可能是同类产品中表现最佳的
- 慢
- 标准模型 - 适用于复杂任务
- 适用于任何类型的应用程序,包括基于图像的界面
- 使用 Anthropic Computer Use,这是一种基于图像的推理模型
- 慢
- Rate this activity - Good or Poor
其他选项
选项
- Max number of steps - This is the maximum number of steps that ScreenPlay can take to achieve its goal. The property can be used as a basic guardrail to prevent infinite agentic loops.
- Type by clipboard - Indicates whether the clipboard is used to type the given text. The following options are available:
- 从不- 从不使用剪贴板
- 始终- 始终使用剪贴板
- 尽可能使用剪贴板 - 尽可能使用剪贴板。这取决于操作系统和要键入的文本(例如如果使用了任何特殊按键,则不会使用剪贴板)
-
Use DOM when available - Indicates whether DOM data will be used/sent to the LLM Model for applications where DOM can be extracted.
DOM 只能由 UiPath LAM 实现使用。
如果基于 DOM 的定位导致获取的元素坐标不准确,请禁用此功能。
Default value is True.
-
Disable variable security - Indicates whether the variable security should be disabled.
Variable security ensures that prompt instructions can not be passed via variable values.
The purpose of this feature is to prevent prompt injection attacks and is based on LLM, so if a "false positive" occurs, the user can disable it for each ScreenPlay activity. To conclude if it is a "false positive", the user can inspect the execution trace, system prompt, reasoning, and actions.
Enable this option only if you need to pass prompt instructions via variable values or if a "false positive" result occurred.
Default value is False.
- Input mode - Select which method should be used to generate keyboard and mouse input:
- Same as App/Browser - Uses the Input mode settings from the parent Use Application/Browser activity.
- 硬件事件- 充当真实用户,使用“硬件”输入(例如移动鼠标或敲击键盘)与应用程序交互。这些是直接发送到操作系统的硬件触发事件。虽然此方法可提供 100% 的行为模拟,但某些事件偶尔可能会丢失。作为开发者,您有责任确保所有事件都能可靠地到达目标应用程序。
- “ChromiumAPI” - 使用调试器 API 执行操作。仅适用于 Chromium 元素。一次性发送所有文本。即使目标应用程序不在焦点中,也适用。有关更多详细信息,请参阅Chromium API 。
- 模拟 - 使用辅助功能 API 进行模拟。 推荐用于浏览器、基于 Java 的应用程序、SAP。 通常比 硬件事件更可靠。 在单个 Actions中发送所有文本。 即使目标应用程序不在焦点中,也适用。 请测试您的目标应用程序用户界面元素是否支持此功能。
- Window messages - Simulates using Win32 messages. Recommended for desktop apps. Usually more reliable than Hardware Events. Sends all text in one go. Works even if target app is not in focus. Please test if your target application UI element supports this.
-
“出错时继续” - 指定在活动引发错误时是否应继续自动化操作。 此字段仅支持
Boolean值(True、 False)。 默认值为 False。 因此,如果该字段为空且活动引发错误,系统将停止执行项目。 如果该值设置为 True,则无论出现何种错误,系统都将继续执行项目。
计时
-
“在此之前延迟”- 上一个活动完成与此活动开始执行任何操作之间的延迟(以秒为单位)。默认值为 0.2 秒。在活动之间添加延迟可确保一个活动有足够的时间完成,然后再开始下一个活动。
-
“延迟 时间” - 此活动完成与下一个活动开始执行任何操作之间的延迟时间(以秒为单位)。 默认值为 0.3 秒。 在活动之间添加延迟可确保一个活动有足够的时间完成,然后再开始下一个活动。
-
“超时”- 指定最长等待时间(以秒为单位),如果超出该时间后活动并未执行,系统便会抛出错误。 默认值为 30 秒。
输出
- Result - The result of the task, if any. For now we only support
Stringoutput.