- 概述
- Adobe Sign
- Alteryx
- Amazon Comprehend
- Amazon Connect
- Amazon Rekognition
- 亚马逊文本提取
- Box
- 认知
- DocuSign
- Google Vision
- Jira
- Marketo
- Microsoft Dynamics
- Microsoft Dynamics (Finance and Operations)
- Microsoft Translator
- Microsoft Vision
- Oracle 集成云
- Oracle NetSuite
- Salesforce
- SAP BAPI
- ServiceNow
- Slack
- Smartsheet
- SuccessFactors
- Tableau
- Twilio
- Workato
- Workday
Analyze Multipage Document
分析多页文档 活动使用 Amazon Textract StartDocumentAnalysis 和 GetDocumentAnalysis API 来分析存储在 S3 存储桶(Bucket、DocumentName和 Version)中的多页文档。 如果文档包含表格,则可以选择指示第一行是否包含列标题 (DiscoverColumnHeaders) 和/或忽略空行 (IgnoreEmptyRows)。
PageDetailCollection
对象 (页面) 中返回文档属性,您可以在 Amazon Textract 活动包之外的其他活动中将其用作输入变量。
“ 分析多页文档” 活动本质上是将“ 启动文档分析” 、 “ 获取文档分析状态” 和 “ 获取文档分析” 活动组合到单个活动中。
PageDetail[]
对象。 在 2.0 中,这已更改为 PageDetailCollection
,以允许我们为方法调用返回 RawJson 属性,而数组无法做到这一点。
以下步骤和消息序列图是活动从设计时(即活动依赖项和输入/输出属性)到运行时如何工作的示例。
- 完成 设置 步骤。
- 将 Amazon 作用域 活动添加到您的项目中。
- 在“ Amazon 作用域 ”活动中添加“分析单页文档”。
- 输入 S3 存储 输入属性的值。
- 为“ 输出 ”属性创建并输入
PageDetailCollection
变量。 -
运行活动。
- 您的输入属性将发送到分析 文档 API。
-
API 会将
PageDetail
值返回到您的输出属性变量。
将此活动添加到 UiPath Studio 中的项目时,会指定以下属性的值。
显示名称
活动的显示名称。
属性 |
详细信息 |
---|---|
类型 |
|
必填 |
是 |
默认值 |
Analyze Multipage Document |
允许的值 |
输入
String 或 String 变量。
|
注意 |
不适用 |
与 获取文档分析状态需要外部延迟机制来轮询服务以了解状态更改,不同的是,分析多页文档包括以下可选输入属性,用于设置初始状态检查延迟 (InitialDelay) 和状态检查间隔 (StatusCheckInterval)。
InitialDelay
活动调用 Amazon Textract 获取文档分析 API 以检索作业状态值之前需要等待的时间。
属性 |
详细信息 |
---|---|
类型 |
Int32 (毫秒)
|
必填 |
否 |
默认值 |
15000 (未显示) |
允许的值 |
输入
Int32 或 Int32 变量。
|
注意 |
输入以毫秒为单位的值(例如, 30000表示 30 秒);您的值必须大于或等于15000 。 分析大型文档时,建议您输入 Amazon Textract 服务完成分析所需的预计时间。 例如,如果分析文档最多需要 2 分钟,则应输入 120000 作为值,并使用“状态检查 间隔 ” 属性指定在作业未在 2 分钟内完成时检查更新状态的频率估计。 |
StatusCheckInterval
调用 Amazon Textract 获取文档分析 API 以检索作业状态值之间等待的时间量。
属性 |
详细信息 |
---|---|
类型 |
Int32 (毫秒)
|
必填 |
否 |
默认值 |
10000 (未显示) |
允许的值 |
输入
Int32 或 Int32 变量。
|
注意 |
输入以毫秒为单位的值(例如, 15000 表示 30 秒);您的值必须大于或等于 10000。 此属性的目的是帮助管理您的活动对 Amazon Textract API 的调用次数。 |
分析类型
指定要执行的分析类型。 使用表格返回在输入文档中检测到的表格的相关信息,并使用表单返回检测到的表单数据。
属性 |
详细信息 |
---|---|
类型 |
枚举 |
必填 |
编号 |
默认值 |
全部 |
允许的值 |
全部、表格、表单 |
注意 |
不适用 |
DiscoverColumnHeaders
指示文档中的表格是否包含列标题。
属性 |
详细信息 |
---|---|
类型 |
复选框 |
必填 |
否 |
默认值 |
未选中 |
允许的值 |
已选择或未选择 |
注意 |
不适用 |
忽略空白行
指示在分析文档时是否应忽略文档表格中的空行。
属性 |
详细信息 |
---|---|
类型 |
复选框 |
必填 |
否 |
默认值 |
未选中 |
允许的值 |
已选择或未选择 |
注意 |
不适用 |
存储桶
存储文档的 S3 存储桶的名称。
属性 |
详细信息 |
---|---|
类型 |
|
必填 |
是 |
默认值 |
空白 |
允许的值 |
输入
String 或 String 变量。
|
注意 |
包含文档的 S3 存储桶的 AWS 区域必须与您在“ Amazon 作用域 ”活动中选择的区域匹配。 要使 Amazon Textract 处理 S3 存储桶中的文件,用户必须具有访问 S3 存储桶的权限;有关更多信息,请参阅 设置 指南的 创建 IAM 用户 部分中的 步骤 6 。 |
文档名称
要分析的指定 存储桶 中文件的名称(区分大小写)。
属性 |
详细信息 |
---|---|
类型 |
|
必填 |
是 |
默认值 |
空白 |
允许的值 |
输入
String 或 String 变量。
|
注意 |
支持的文档格式:PNG、JPEG 和 PDF。 |
版本
如果存储桶启用了版本控制,则您可以指定对象版本。
属性 |
详细信息 |
---|---|
类型 |
|
必填 |
否 |
默认值 |
空白 |
允许的值 |
输入
String 或 String 变量。
|
注意 |
不适用 |
页面
从指定文档中提取的属性以数组形式返回。
属性 |
详细信息 |
---|---|
类型 |
|
必填 |
否(如果您计划在后续活动中使用输出数据,则建议使用此选项) |
默认值 |
空白 |
允许的值 |
输入
PageDetailCollection 变量
|
注意 |
数组中的每个对象表示一个单独页面的结果。 这与返回
PageDetail[] 对象的先前版本不同。
有关“页面详细信息”对象及其属性的说明,请参见 页面详细信息 。 |