- 概述
- Act! 365
- ActiveCampaign
- Adobe Acrobat Sign
- Adobe PDF 服务
- Amazon Bedrock
- Amazon Connect
- Amazon Polly
- 亚马逊 SES
- Amazon Transcribe
- Anthropic Claude
- Asana
- AWeber
- Azure AI 文档智能
- Azure Maps
- BambooHR
- Box
- Brevo
- Calendly
- Campaign Monitor
- Cisco Webex Teams
- Citrix ShareFile
- 清除位
- Confluence Cloud
- Constant Contact
- Coupa
- Customer.io
- Datadog
- Deputy
- Discord - 预览
- DocuSign
- 水滴
- Dropbox
- Dropbox Business
- Egnyte
- Epic FHIR R4 - 预览
- Eventbrite
- 汇率
- Expensify
- Facebook
- Freshbooks
- Freshdesk
- Freshservice
- 获取响应
- GitHub
- Google Maps
- Google 语音转文本
- Google 文本转语音
- Google Vertex
- Google Vision - 预览
- GoToWebinar
- Greenhouse
- Hootsuite
- HTTP Webhook
- HubSpot CRM
- HubSpot Marketing
- iContact
- Insightly CRM
- Intercom
- Jira
- Keap
- Klaviyo
- LinkedIn
- Mailchimp
- Mailjet
- MailerLite
- Mailgun
- Marketo
- Microsoft Azure OpenAI
- Microsoft Dynamics CRM
- Microsoft Sentiment
- Microsoft Teams
- Microsoft Translator
- Microsoft Vision
- Miro
- 奥克塔
- OpenAI
- Oracle Eloqua
- Oracle NetSuite
- PagerDuty
- Paypal
- PDFMonkey
- Pinecone
- Pipedrive
- QuickBooks Online
- Quip
- Salesforce
- Salesforce Marketing Cloud
- SAP BAPI - 预览
- SAP Cloud for Customer
- SAP Concur
- SendGrid
- ServiceNow
- Shopify
- Slack
- SmartRecruiters
- Smartsheet
- Snowflake
- Stripe
- Sugar Enterprise
- Sugar Professional
- Sugar Sell
- Sugar Serve
- 探戈卡
- Todoist
- Trello
- Twilio
- UiPath 生成式 AI 活动
- IBM WatsonX
- WhatsApp Business
- WOO COMMERCE
- 可行
- Workday
- Workday REST - 预览
- X(以前称为 Twitter)
- Xero
- Youtube
- Zendesk
- Zoho Campaigns
- Zoho Desk
- Zoho Mail
- 缩放
- Zoom 信息
最佳实践
本节包含有关如何有效使用上下文基础的信息。
要开始使用上下文基础,请先执行以下步骤:
- 确保您使用 Studio Web 或 Studio Desktop 2024.4 或更高版本。
- 在 Automation Cloud 的 Integration Service 中,建立与UiPath GenAI Activities连接器的连接。
要使用上下文基础,您需要现成的数据集(例如,一组文档)。 然后,上下文基础可以分三个阶段与您的数据进行交互:
- 为上下文基础建立数据源。
- 使用自动化,或者将文件直接上传到共享 Orchestrator 文件夹中的 Orchestrator 存储桶中。 Orchestrator 文件夹必须共享,因为上下文基础是租户范围内的内容。
- 您必须具有该文件夹的“编辑” 权限,以确保可以从存储桶中上传或删除文档。 不需要其他权限。
- 将数据源中的数据提取到上下文基础中。
- 使用索引和提取(公开预览)和删除索引(公开预览)活动来管理数据的生命周期。
- 使用您的数据进行查询和地面提示。
- 使用内容生成查询文档,并使用信息来增强或审核提示。
在UiPath ™ Automation Cloud TM Admin 中,作为 AI Trust Layer 管理员体验的一部分,您可以使用UiPath GenAI功能管理和监管用作上下文的数据。
您可以创建和管理可跨特定租户使用的上下文基础索引。 创建后,您可以使用 GenAI 查询其他产品和功能的索引,例如 GenAI Activities 和Autopilot for Everyone 。
请参阅 Automation Cloud 管理员用户指南中的管理 GenAI 功能的上下文数据,了解如何创建和管理索引。
索引和提取(公开预览版)活动提供了一种异步机制,用于提取 Orchestrator 存储桶中上传并存储的文档。
在“索引和提取”(公开预览版)活动中的“其他属性” 下,“数据类型” 下拉列表字段可用于指定要提取的文件类型:
- PDF - 提取 PDF 文件(默认选择)。
- CSV - 提取 CSV 文件。
- JSON - 提取 JSON 文件。
如果您将更多文件添加到 Orchestrator 存储桶,则需要重新运行此活动,以确保索引保持最新。
“文件通配符模式” 字段针对您设置的文件类型而设计。 “数据类型”:
- 如果 Orchestrator 存储桶中有一种数据类型(例如 所有 PDF),则可以从“数据类型”下拉列表中选择“PDF”,并将“文件全局模式”的默认值保留为
*.
。
- 如果您的 Orchestrator 存储桶中有多种文件类型,则需要在“数据类型” 下拉列表中和“文件全局模式” 中指定要提取的数据类型。 这些模式与“数据类型”相同,我们指定其中的差异以帮助明确提取请求:
-
适用于 PDF 的
*.pdf
。 -
*.csv
(适用于 CSV)。 -
*.json
(表示 JSON)。
-
PDF
,并且文件通配符模式设置为*.
。 接下来,将 CSV 文件上传到同一个 Orchestrator 存储桶。 您需要再次运行“索引”和“提取”(公开预览) ,选择相同的索引,但将 “数据类型”字段设置为CSV
,将“文件全局模式”设置为 *.CSV
。
从数据源中删除文档时,请遵循类似的模式:通过索引和提取(公开预览)重新提取时,您需要指定数据类型和文件全局,以确保提取可识别从而从索引中删除该文档类型。
创建索引后,活动和其他 UiPath 产品可以使用该索引来查询对您的用例很重要的文档。
提取时间
提取是一个异步过程。 执行活动后,并不意味着可立即查询数据。 提取有效负载越小,处理速度就越快。 因此,我们建议您分批上传文档并定期运行此活动。 此过程的持续时间取决于数据量和提交提取请求的其他用户的数量。
发送提取请求后,假设每个文档小于或等于 1MB,我们通常建议您等待:
- 10 分钟内:录制不超过 10 个文档;
- 30 分钟内:支持不超过 50 个文档;
- 最多 2 小时:适用于 50 个或更多文档。
每次从数据源添加或删除数据时,请运行索引和提取 (公开预览版)活动。 这可确保与数据源以及用于搜索和 RAG 的嵌入保持一致。
在提取完成之前,索引名称可能不会出现在“内容生成”活动中。 如果在内容生成活动中找不到索引名称,请执行以下操作:
常见错误和解决模式
- 如果提取作业未完成,您可能会收到错误(“未找到结果”)。
- 如果提取作业失败,您可能会收到错误(“找不到架构”)。 在这种情况下,请等待几分钟,重新尝试查询,然后重新尝试提取。
- 您可能会收到错误(“数据源同步已在进行中”),这表示针对该索引的提取作业当前正在进行中。 等待几分钟,然后重新尝试提取。
您可以运行索引和提取(公开预览版)活动:
- 手动 (强烈建议)。
- 基于事件:设置自动化,以便在每次将新文档添加到存储桶或从存储桶中删除新文档时运行提取管道。 如果您定期在存储桶中添加或删除文档,请执行此操作。
- 基于时间:设置自动化以定期运行提取管道。 如果您经常预计会出现大量文档流入/流入,请执行此操作。 要创建使用这些活动的任何触发器,您应该将先前的提取语句视为异步过程。
如果要删除索引和嵌入,从而将其作为可以从其他 UiPath GenAI 活动体验查询的数据源删除,请使用“删除索引(公开预览) ”活动。 这不会删除数据源中的文档或数据(例如 Orchestrator 存储桶)。
“内容生成”活动提供两个用于处理文档的选项:“文件资源” 和“现有索引”。
“文件资源” 选项允许您使用先前活动中的文件变量(例如,从 Google 云端硬盘下载的文档),并让上下文基础执行实时 (JIT) 样式的 RAG。 这意味着它将文档提取到索引中,对其进行搜索,增强提示,然后删除索引,因此这些数据不是持久的。
- “文件资源” 选项目前仅支持 PDF 格式。
-
保持这些文档较小(不超过 50 页)。 Integration Service 活动设置一个超时窗口,上述所有处理操作均会在该窗口内进行。
-
如果您有包含扫描图像的 PDF,我们建议您在下载文件以从这些图像中提取文本后,在“提取数据”活动中使用 Document Understanding OCR 选项(因为“上下文基础”尚不支持图像)。 将该
extracted_data
输出传递到提示,并将该文件资源指向您下载的文件。
“现有索引” 选项允许您使用通过“索引和提取”活动创建的索引。 您可以在从数据源提取文档的持久性索引中查询查询。 您可以根据需要多次重复使用此索引,直到将其删除。
我们建议在工作流序列中的“ 内容生成 ”之后使用“ 日志消息” 活动,以输入“ 排名最前的文本” 变量,并在工作流执行后查看 LLM 生成响应。
“内容生成”活动也有一个名为“引文字符串(公开预览) ”的输出变量。 将其用作日志消息活动的输入,查看用于影响生成输出的语义搜索结果。 此情况仅适用于 PDF 和 JSON 数据类型。