UiPath Marketplace
最新
False
横幅背景图像
UiPath Marketplace 用户指南
上次更新日期 2024年4月16日

Analyze Multipage Document

分析多页文档活动使用 Amazon Textract StartDocumentAnalysisGetDocumentAnalysis API 来分析存储在 S3 存储桶中的多页文档(存储文档名称 和版本)。 如果您的文档包含表格,您可以选择指明第一行是否包含列标题 ( “发现列标头”) 和/或“忽略空行”( “忽略空行”)。

分析文档后,该活动会在 PageDetailCollection 对象 (页面) 中返回文档属性,您可以在 Amazon Textract 活动包之外的其他活动中将其用作输入变量。

分析多页文档” 活动本质上是将“ 启动文档分析” 、 “ 获取文档分析状态” 和 “ 获取文档分析” 活动组合到单个活动中。

重要提示: 在此活动的先前版本中,(页数) 输出参数返回 PageDetail[] 对象。 在 2.0 中,这已更改为 PageDetailCollection ,以允许我们为方法调用返回 RawJson 属性,而数组无法做到这一点。

工作方式

以下步骤和消息序列图是活动从设计时(即活动依赖项和输入/输出属性)到运行时如何工作的示例。

  1. 完成 设置 步骤。
  2. Amazon 作用域 活动添加到您的项目中。
  3. 在“ Amazon 作用域 ”活动中添加“分析单页文档”。
  4. 输入 S3 存储 输入属性的值。
  5. 为“ 输出 ”属性创建并输入 PageDetailCollection 变量。
  6. 运行活动。

    • 您的输入属性将发送到分析文档API。
    • API 会将 PageDetail 值返回到您的输出属性变量。


属性

将此活动添加到 UiPath Studio 中的项目时,会指定以下属性的值。



常见

显示名称

活动的显示名称。

属性

详细信息

类型

String

必填

默认值

Analyze Multipage Document

允许的值

输入 StringString 变量。

注意

不适用

输入

获取文档分析状态需要外部延迟机制来轮询服务以了解状态更改,不同的是,分析多页文档包括以下可选输入属性,用于设置初始状态检查延迟 (InitialDelay) 和状态检查间隔 (StatusCheckInterval)。

InitialDelay

活动调用 Amazon Textract 获取文档分析 API 以检索作业状态值之前需要等待的时间。

属性

详细信息

类型

Int32 (毫秒)

必填

默认值

15000 (未显示)

允许的值

输入 Int32Int32 变量。

注意

输入以毫秒为单位的值(例如, 30000表示 30 秒);您的值必须大于或等于15000

分析大型文档时,建议您输入 Amazon Textract 服务完成分析所需的预计时间。 例如,如果分析文档最多需要 2 分钟,则应输入 120000 作为值,并使用“状态检查 间隔 ” 属性指定在作业未在 2 分钟内完成时检查更新状态的频率估计。

StatusCheckInterval

调用 Amazon Textract 获取文档分析 API 以检索作业状态值之间等待的时间量。

属性

详细信息

类型

Int32 (毫秒)

必填

默认值

10000 (未显示)

允许的值

输入 Int32Int32 变量。

注意

输入以毫秒为单位的值(例如, 15000 表示 30 秒);您的值必须大于或等于 10000

此属性的目的是帮助管理您的活动对 Amazon Textract API 的调用次数。

选项

分析类型

指定要执行的分析类型。 使用表格返回在输入文档中检测到的表格的相关信息,并使用表单返回检测到的表单数据。

属性

详细信息

类型

枚举

必填

编号

默认值

全部

允许的值

全部、表格、表单

注意

不适用

DiscoverColumnHeaders

指示文档中的表格是否包含列标题。

属性

详细信息

类型

复选框

必填

默认值

未选中

允许的值

已选择或未选择

注意

不适用

忽略空白行

指示在分析文档时是否应忽略文档表格中的空行。

属性

详细信息

类型

复选框

必填

默认值

未选中

允许的值

已选择或未选择

注意

不适用

S3 存储

存储桶

存储文档的 S3 存储桶的名称。

属性

详细信息

类型

String

必填

默认值

空白

允许的值

输入 StringString 变量。

注意

包含文档的 S3 存储桶的 AWS 区域必须与您在“ Amazon 作用域 ”活动中选择的区域匹配。

要使 Amazon Textract 处理 S3 存储桶中的文件,用户必须具有访问 S3 存储桶的权限;有关更多信息,请参阅 设置 指南的 创建 IAM 用户 部分中的 步骤 6

文档名称

要分析的指定 存储桶 中文件的名称(区分大小写)。

属性

详细信息

类型

String

必填

默认值

空白

允许的值

输入 StringString 变量。

注意

支持的文档格式:PNG、JPEG 和 PDF。

版本

如果存储桶启用了版本控制,则您可以指定对象版本。

属性

详细信息

类型

String

必填

默认值

空白

允许的值

输入 StringString 变量。

注意

不适用

其他

私有

如果已选择,变量和参数的值将不会在 Verbose 级进行记录。

属性

详细信息

类型

复选框

必填

默认值

未选中

允许的值

已选择或未选择

注意

不适用

输出

页面

从指定文档中提取的属性以数组形式返回。

属性

详细信息

类型

PageDetailCollection

必填

否(如果您计划在后续活动中使用输出数据,则建议使用此选项)

默认值

空白

允许的值

输入 PageDetailCollection 变量

注意

数组中的每个对象表示一个单独页面的结果。 这与返回 PageDetail[] 对象的先前版本不同。

有关“页面详细信息”对象及其属性的说明,请参见 页面详细信息

示例

下图显示了活动依赖关系和输入/输出属性值的示例。

有关分步说明和示例,请参阅 快速入门 指南。





  • 工作方式
  • 属性
  • 常见
  • 输入
  • 选项
  • S3 存储
  • 其他
  • 输出
  • 示例

此页面是否有帮助?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath 白色徽标
信任与安全
© 2005-2024 UiPath. All rights reserved.