activities
latest
false
重要 :
请注意此内容已使用机器翻译进行了部分本地化。 Integration Service 中提供的连接器包采用的是机器翻译的译文。
Integration Service 活动
Last updated 2024年10月21日

最佳实践

本节包含有关如何有效使用上下文基础的信息。

入门指南

要开始使用上下文基础,请先执行以下步骤:

  1. 确保您使用 Studio Web 或 Studio Desktop 2024.4 或更高版本。
  2. 在 Automation Cloud 的 Integration Service 中,建立与UiPath GenAI Activities连接器的连接。

上下文基础如何与 GenAI Activities 中的数据交互

要使用上下文基础,您需要现成的数据集(例如,一组文档)。 然后,上下文基础可以分三个阶段与您的数据进行交互:

  1. 上下文基础建立数据源。
    • 使用自动化,或者将文件直接上传到共享 Orchestrator 文件夹中的 Orchestrator 存储桶中。 Orchestrator 文件夹必须共享,因为上下文基础是租户范围内的内容。
    • 您必须具有该文件夹的“编辑” 权限,以确保可以从存储桶中上传或删除文档。 不需要其他权限。
  2. 将数据源中的数据提取到上下文基础中。
  3. 使用您的数据进行查询和地面提示。
    • 使用内容生成查询文档,并使用信息来增强或审核提示。

管理提取管道

AI Trust Layer 中的上下文基础

UiPath ™ Automation Cloud TM Admin 中,作为 AI Trust Layer 管理员体验的一部分,您可以使用UiPath GenAI功能管理和监管用作上下文的数据。

您可以创建和管理可跨特定租户使用的上下文基础索引。 创建后,您可以使用 GenAI 查询其他产品和功能的索引,例如 GenAI Activities 和Autopilot for Everyone 。

请参阅 Automation Cloud 管理员用户指南中的管理 GenAI 功能的上下文数据,了解如何创建和管理索引。

为 GenAI 活动建立索引并提取

索引和提取(公开预览版)活动提供了一种异步机制,用于提取 Orchestrator 存储桶中上传并存储的文档。

在“索引和提取”(公开预览版)活动中的“其他属性” 下,“数据类型” 下拉列表字段可用于指定要提取的文件类型:

  • PDF - 提取 PDF 文件(默认选择)。
  • CSV - 提取 CSV 文件。
  • JSON - 提取 JSON 文件。

如果您将更多文件添加到 Orchestrator 存储桶,则需要重新运行此活动,以确保索引保持最新。

文件通配符模式” 字段针对您设置的文件类型而设计。 “数据类型”:

  • 如果 Orchestrator 存储桶中有一种数据类型(例如 所有 PDF),则可以从“数据类型”下拉列表中选择“PDF”,并将“文件全局模式”的默认值保留为*.
  • 如果您的 Orchestrator 存储桶中有多种文件类型,则需要在“数据类型” 下拉列表中和“文件全局模式” 中指定要提取的数据类型。 这些模式与“数据类型”相同,我们指定其中的差异以帮助明确提取请求:
    • 适用于 PDF 的*.pdf
    • *.csv (适用于 CSV)。
    • *.json (表示 JSON)。
例如:如果您将 PDF 上传到 Orchestrator 存储桶,则必须运行“索引”和“提取”(公开预览) ,其中索引、数据类型设置为PDF ,并且文件通配符模式设置为*. 。 接下来,将 CSV 文件上传到同一个 Orchestrator 存储桶。 您需要再次运行“索引”和“提取”(公开预览) ,选择相同的索引,但将 “数据类型”字段设置为CSV ,将“文件全局模式”设置为 *.CSV

从数据源中删除文档时,请遵循类似的模式:通过索引和提取(公开预览)重新提取时,您需要指定数据类型文件全局,以确保提取可识别从而从索引中删除该文档类型。

注意:与其他数据类型相比,提取和重新提取 CSV 文件所需的时间可能会稍长。

创建索引后,活动和其他 UiPath 产品可以使用该索引来查询对您的用例很重要的文档。

提取时间

提取是一个异步过程。 执行活动后,并不意味着可立即查询数据。 提取有效负载越小,处理速度就越快。 因此,我们建议您分批上传文档并定期运行此活动。 此过程的持续时间取决于数据量和提交提取请求的其他用户的数量。

发送提取请求后,假设每个文档小于或等于 1MB,我们通常建议您等待:

  • 10 分钟内:录制不超过 10 个文档;
  • 30 分钟内:支持不超过 50 个文档;
  • 最多 2 小时:适用于 50 个或更多文档。
注意:这些不是 SLA 或 SLO。 性能取决于文档的性质、大小和并发请求量。

每次从数据源添加或删除数据时,请运行索引和提取 (公开预览版)活动。 这可确保与数据源以及用于搜索和 RAG 的嵌入保持一致。

在提取完成之前,索引名称可能不会出现在“内容生成”活动中。 如果在内容生成活动中找不到索引名称,请执行以下操作:

运行“ 索引和提取(公开预览) ”活动后,如果您使用的是现有索引,请选择“ 索引” 字段旁边的“ 强制刷新 ”按钮菜单:

docs image

常见错误和解决模式

  • 如果提取作业未完成,您可能会收到错误(“未找到结果”)。
  • 如果提取作业失败,您可能会收到错误(“找不到架构”)。 在这种情况下,请等待几分钟,重新尝试查询,然后重新尝试提取。
  • 您可能会收到错误(“数据源同步已在进行中”),这表示针对该索引的提取作业当前正在进行中。 等待几分钟,然后重新尝试提取。

您可以运行索引和提取(公开预览版)活动:

  • 手动 (强烈建议)。
  • 基于事件:设置自动化,以便在每次将新文档添加到存储桶或从存储桶中删除新文档时运行提取管道。 如果您定期在存储桶中添加或删除文档,请执行此操作。
  • 基于时间:设置自动化以定期运行提取管道。 如果您经常预计会出现大量文档流入/流入,请执行此操作。 要创建使用这些活动的任何触发器,您应该将先前的提取语句视为异步过程。

删除索引

如果要删除索引和嵌入,从而将其作为可以从其他 UiPath GenAI 活动体验查询的数据源删除,请使用“删除索引(公开预览) ”活动。 这不会删除数据源中的文档或数据(例如 Orchestrator 存储桶)。

提示:对于索引和提取(公开预览)以及删除索引(公开预览)活动,我们建议使用单独的 Studio 项目,与内容生成(查询/RAG)活动分开运行。 这样,就可以进行异步提取/删除过程。

具有上下文基础的查询和 RAG

内容生成”活动提供两个用于处理文档的选项:“文件资源” 和“现有索引”。

文件资源

文件资源” 选项允许您使用先前活动中的文件变量(例如,从 Google 云端硬盘下载的文档),并让上下文基础执行实时 (JIT) 样式的 RAG。 这意味着它将文档提取到索引中,对其进行搜索,增强提示,然后删除索引,因此这些数据不是持久的。

备注:
  • 文件资源” 选项目前仅支持 PDF 格式。
  • 保持这些文档较小(不超过 50 页)。 Integration Service 活动设置一个超时窗口,上述所有处理操作均会在该窗口内进行。

  • 如果您有包含扫描图像的 PDF,我们建议您在下载文件以从这些图像中提取文本后,在“提取数据”活动中使用 Document Understanding OCR 选项(因为“上下文基础”尚不支持图像)。 将该extracted_data输出传递到提示,并将该文件资源指向您下载的文件。

现有索引

现有索引” 选项允许您使用通过“索引和提取”活动创建的索引。 您可以在从数据源提取文档的持久性索引中查询查询。 您可以根据需要多次重复使用此索引,直到将其删除。

我们建议在工作流序列中的“ 内容生成 ”之后使用“ 日志消息” 活动,以输入“ 排名最前的文本” 变量,并在工作流执行后查看 LLM 生成响应。

内容生成”活动也有一个名为“引文字符串(公开预览) ”的输出变量。 将其用作日志消息活动的输入,查看用于影响生成输出的语义搜索结果。 此情况仅适用于 PDF 和 JSON 数据类型。

此页面有帮助吗?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath Logo White
信任与安全
© 2005-2024 UiPath。保留所有权利。