marketplace

latest

false

重要 :

请注意，此内容已使用机器翻译进行了本地化。新发布内容的本地化可能需要 1-2 周的时间才能完成。

UiPath Marketplace 用户指南

上次更新日期 2025年10月10日

Analyze Multipage Document

分析多页文档 活动使用 Amazon Textract StartDocumentAnalysis 和 GetDocumentAnalysis API 来分析存储在 S3 存储桶（Bucket、DocumentName和 Version）中的多页文档。如果文档包含表格，则可以选择指示第一行是否包含列标题 (DiscoverColumnHeaders) 和/或忽略空行 (IgnoreEmptyRows)。

分析文档后，该活动会在 PageDetailCollection 对象 (页面) 中返回文档属性，您可以在 Amazon Textract 活动包之外的其他活动中将其用作输入变量。

“ 分析多页文档” 活动本质上是将“ 启动文档分析” 、 “ 获取文档分析状态” 和 “ 获取文档分析” 活动组合到单个活动中。

重要提示：在此活动的先前版本中，(页数) 输出参数返回 PageDetail[] 对象。在 2.0 中，这已更改为 PageDetailCollection ，以允许我们为方法调用返回 RawJson 属性，而数组无法做到这一点。

工作方式

以下步骤和消息序列图是活动从设计时（即活动依赖项和输入/输出属性）到运行时如何工作的示例。

完成设置步骤。
将 Amazon 作用域活动添加到您的项目中。
在“ Amazon 作用域 ”活动中添加“分析单页文档”。
输入 S3 存储输入属性的值。
为“ 输出 ”属性创建并输入 PageDetailCollection 变量。
运行活动。
- 您的输入属性将发送到分析文档 API。
- API 会将 PageDetail 值返回到您的输出属性变量。

属性

将此活动添加到 UiPath Studio 中的项目时，会指定以下属性的值。

常见

显示名称

活动的显示名称。

属性	详细信息
类型	`String`
必填	是
默认值	Analyze Multipage Document
允许的值	输入 `String` 或 `String` 变量。
注意	不适用

输入

与获取文档分析状态需要外部延迟机制来轮询服务以了解状态更改，不同的是，分析多页文档包括以下可选输入属性，用于设置初始状态检查延迟 (InitialDelay) 和状态检查间隔 (StatusCheckInterval)。

InitialDelay

活动调用 Amazon Textract 获取文档分析 API 以检索作业状态值之前需要等待的时间。

属性	详细信息
类型	`Int32` (毫秒)
必填	否
默认值	15000 （未显示）
允许的值	输入 `Int32` 或 `Int32` 变量。
注意	输入以毫秒为单位的值（例如， 30000表示 30 秒）；您的值必须大于或等于15000 。分析大型文档时，建议您输入 Amazon Textract 服务完成分析所需的预计时间。例如，如果分析文档最多需要 2 分钟，则应输入 120000 作为值，并使用“状态检查间隔 ” 属性指定在作业未在 2 分钟内完成时检查更新状态的频率估计。

StatusCheckInterval

调用 Amazon Textract 获取文档分析 API 以检索作业状态值之间等待的时间量。

属性	详细信息
类型	`Int32` (毫秒)
必填	否
默认值	10000 （未显示）
允许的值	输入 `Int32` 或 `Int32` 变量。
注意	输入以毫秒为单位的值（例如， 15000 表示 30 秒）；您的值必须大于或等于 10000。此属性的目的是帮助管理您的活动对 Amazon Textract API 的调用次数。

选项

分析类型

指定要执行的分析类型。使用表格返回在输入文档中检测到的表格的相关信息，并使用表单返回检测到的表单数据。

属性	详细信息
类型	枚举
必填	编号
默认值	全部
允许的值	全部、表格、表单
注意	不适用

DiscoverColumnHeaders

指示文档中的表格是否包含列标题。

属性	详细信息
类型	复选框
必填	否
默认值	未选中
允许的值	已选择或未选择
注意	不适用

忽略空白行

指示在分析文档时是否应忽略文档表格中的空行。

属性	详细信息
类型	复选框
必填	否
默认值	未选中
允许的值	已选择或未选择
注意	不适用

S3 存储

存储桶

存储文档的 S3 存储桶的名称。

属性	详细信息
类型	`String`
必填	是
默认值	空白
允许的值	输入 `String` 或 `String` 变量。
注意	包含文档的 S3 存储桶的 AWS 区域必须与您在“ Amazon 作用域 ”活动中选择的区域匹配。要使 Amazon Textract 处理 S3 存储桶中的文件，用户必须具有访问 S3 存储桶的权限；有关更多信息，请参阅设置指南的创建 IAM 用户部分中的步骤 6 。

文档名称

要分析的指定 存储桶 中文件的名称（区分大小写）。

属性	详细信息
类型	`String`
必填	是
默认值	空白
允许的值	输入 `String` 或 `String` 变量。
注意	支持的文档格式：PNG、JPEG 和 PDF。

版本

如果存储桶启用了版本控制，则您可以指定对象版本。

属性	详细信息
类型	`String`
必填	否
默认值	空白
允许的值	输入 `String` 或 `String` 变量。
注意	不适用

其他

私有

如果已选择，变量和参数的值将不会在 Verbose 级进行记录。

属性	详细信息
类型	复选框
必填	否
默认值	未选中
允许的值	已选择或未选择
注意	不适用

输出

页面

从指定文档中提取的属性以数组形式返回。

属性	详细信息
类型	`PageDetailCollection`
必填	否（如果您计划在后续活动中使用输出数据，则建议使用此选项）
默认值	空白
允许的值	输入 `PageDetailCollection` 变量
注意	数组中的每个对象表示一个单独页面的结果。这与返回 `PageDetail[]` 对象的先前版本不同。有关“页面详细信息”对象及其属性的说明，请参见页面详细信息。