UiPath Documentation
marketplace
latest
false

Marketplace 用户指南

上次更新日期 2026年5月5日

分析多页文档

The Analyze Multipage Document activity uses the Amazon Textract StartDocumentAnalysis and GetDocumentAnalysis APIs to analyze a multi-page document stored in an S3 bucket (Bucket, DocumentName, and Version). If your document includes a table, you have the option to indicate if the first row contains column headers (DiscoverColumnHeaders) and/or ignore empty rows (IgnoreEmptyRows).

After analyzing the document, the activity returns the document properties in a PageDetailCollection object (Pages) that you can use as input variables in other activities outside of the Amazon Textract Activities Package.

The Analyze Multipage Document activity is essentially a combination of the Start Document Analysis, Get Document Analysis Status, and Get Document Analysis activities in a single activity.

重要提示:

In previous versions of this activity, the (Pages) output parameter returned a PageDetail[] object. In 2.0 this has been changed to a PageDetailCollection to allow us to return the RawJson property for the method call, which was not possible with an array.

工作方式

以下步骤和消息序列图示例说明了活动从设计时(即活动依赖项和输入/输出属性)到运行时的工作方式。

  1. 完成设置步骤。
  2. Add the Amazon Scope activity to your project.
  3. Add the Analyze Single Page Document inside the Amazon Scope activity.
  4. Enter values for the S3 Storage input properties.
  5. “输出”属性创建并输入PageDetailCollection变量。
  6. 运行活动。
    • Your input properties are sent to the AnalyzeDocument API.

    • API 会将 PageDetail 值返回到您的输出属性变量。

属性

将此活动添加到 UiPath Studio 中的项目时,会指定以下属性的值。

常见

显示名称

活动的显示名称。

属性详细信息
类型String
必填
默认值Analyze Multipage Document
允许的值输入 StringString 变量。
注意不适用

输入

Unlike the Get Document Analysis Status, which requires an external delay mechanism to poll the service for status changes, the Analyze Multipage Document includes the following, optional input properties to set an initial status check delay (InitialDelay) and status check interval (StatusCheckInterval).

InitialDelay

活动调用 Amazon Textract 获取文档分析 API 以检索作业状态值之前需要等待的时间。

属性详细信息
类型Int32 (毫秒)
必填
默认值15000 (not shown)
允许的值输入 Int32Int32 变量。
注意Enter your value in milliseconds (e.g., 30000 for 30 seconds); your value must be greater or equal to 15000. When analyzing a large document, it's recommended that you enter the estimated time it takes for the Amazon Textract service to complete its analysis. For example, if your document takes up to 2 minutes to analyze, you should enter 120000 as your value and use the StatusCheckInterval property to indicate how often you want to check for an updated status if the job doesn't complete within the 2-minute estimate.
StatusCheckInterval

调用 Amazon Textract 获取文档分析 API 以检索作业状态值之间等待的时间量。

属性详细信息
类型Int32 (毫秒)
必填
默认值10000 (not shown)
允许的值输入 Int32Int32 变量。
注意Enter your value in milliseconds (e.g., 15000 for 30 seconds); your value must be greater or equal to 10000. The objective of this property is to help manage the number of calls that your activity makes to the Amazon Textract API.

选项

分析类型

指定要执行的分析类型。 使用表格返回在输入文档中检测到的表格的相关信息,并使用表单返回检测到的表单数据。

属性详细信息
类型枚举
必填编号
默认值全部
允许的值全部、表格、表单
注意不适用
DiscoverColumnHeaders

指示文档中的表格是否包含列标题。

属性详细信息
类型复选框
必填
默认值未选中
允许的值已选择或未选择
注意不适用
忽略空白行

指示在分析文档时是否应忽略文档表格中的空行。

属性详细信息
类型复选框
必填
默认值未选中
允许的值已选择或未选择
注意不适用

S3 存储

存储桶

存储文档的 S3 存储桶的名称。

属性详细信息
类型String
必填
默认值空白
允许的值输入 StringString 变量。
注意The AWS Region for the S3 bucket that contains the document must match the Region that you selected in the Amazon Scope activity. For Amazon Textract to process a file in an S3 bucket, the user must have permission to access the S3 bucket; for more information, see step 6 in the Create IAM User section of the Setup guide.
文档名称

The case-sensitive name of the file in the specified Bucket that you want to analyze.

属性详细信息
类型String
必填
默认值空白
允许的值输入 StringString 变量。
注意支持的文档格式:PNG、JPEG 和 PDF。
版本

如果存储桶启用了版本控制,则您可以指定对象版本。

属性详细信息
类型String
必填
默认值空白
允许的值输入 StringString 变量。
注意不适用

其他

私有

如果已选择,变量和参数的值将不会在 Verbose 级进行记录。

属性详细信息
类型复选框
必填
默认值未选中
允许的值已选择或未选择
注意不适用

输出

页面

从指定文档中提取的属性以数组形式返回。

属性详细信息
类型PageDetailCollection
必填否(如果您计划在后续活动中使用输出数据,则建议使用此选项)
默认值空白
允许的值输入 PageDetailCollection 变量
注意Each object from the array represents the results for one individual page. This is a change from previous versions which returned a PageDetail[] object. See Page Detail for the description of the PageDetail object and its properties.

示例

下图显示了活动依赖关系和输入/输出属性值的示例。

有关分步说明和示例,请参阅快速入门指南。

  • 工作方式
  • 属性
  • 常见
  • 输入
  • 选项
  • S3 存储
  • 其他
  • 输出
  • 示例

此页面有帮助吗?

连接

需要帮助? 支持

想要了解详细内容? UiPath Academy

有问题? UiPath 论坛

保持更新