活动
最新
False
横幅背景图像
Document Understanding 活动
上次更新日期 2024 年 4 月 10 日

生成式提取程序 - 良好做法

注意:为了提高稳定性,请将提示的数量限制为每次调用不超过 30 个。

使用精确的语言

假设您正在向四五个不同的人询问您想在生成式提示中提出的问题。 如果您可以想象这些人会给出略有不同的答案,则说明您的用语过于歧义,您需要重新措辞以使其更加精确。

指定输出格式

为了使您的问题更具体,请要求提取程序以标准化格式返回答案。这可以减少歧义,提高回复准确性并简化下游处理。

例如,如果您要求生成式提示获取一个日期,请指定您希望如何返回日期: return date in yyyy-mm-dd format 。 如果您只需要年份,请指定: return the year, as a four digit number
您也可以将此方法用于数字。例如,您可以指定:return numbers which appear in parentheses as negativereturn number in ##,###.## format 来标准化小数分隔符和千位分隔符,以便更轻松地进行下游处理。

提供预期选项

格式化的一种特殊情况是答案是一组已知的可能答案之一。

例如,在申请表上,您可能会问: What is the applicant’s marital status? Possible answers: Married, Unmarried, Separated, Divorced, Widowed, Other.

这不仅简化了下游处理,还提高了回复的准确性。

分步操作

为了最大限度地提高准确性,请将复杂的问题分解为简单的步骤。您不应询问 What is the termination date of this contract?,而应询问 First find termination section of contract, then determine termination date, then return date in yyyy-mm-dd format.
有很多方法可以用于分解问题。您甚至可以将请求编写为小型计算机 程序:
Execute the following program:

1: Find termination section or clause

2: Find termination date

3: Return termination date in yyyy-mm-dd format

4: StopExecute the following program:

1: Find termination section or clause

2: Find termination date

3: Return termination date in yyyy-mm-dd format

4: Stop

定义所需的编程样式(甚至可能使用 JSON 或 XML 语法)会强制生成式模型使用其编程技能,从而提高遵循说明的准确性。

避免算术或逻辑问题

不要要求提取程序执行求和、乘法、减法、比较或任何其他算术运算,因为它会犯基本错误,并且处理速度非常慢且成本高昂。而简单的机器人工作流永远不会出错,并且速度更快,成本更低。

出于上述相同原因,请勿要求其执行复杂的“if-then-else”类型逻辑。机器人工作流将更加准确和高效地处理此类运算。

表格

从表格中提取数据是生成提取程序的一项挑战。 生成式 AI 技术可作用于线性文本字符串,无法理解图像中的视觉二维信息。 它无法提取分类管理器中定义的表格字段,但可以从文档中提取文本和表格。

要以最佳方式从表格中提取数据,您可以选择至少两种方法:
  • 要求生成式提取程序单独返回列,然后在工作流中自行组合行。 您可能会问: Please return the Unit Prices on this invoice, as a list from top to bottom, as a list in the format [<UnitPrice1>, <UnitPrice2>,…]
  • 要求它以 JSON 对象形式单独返回每一行。 您可能会问: Please return the line items of this invoice as an JSON array of JSON objects, each object in format: {"description”: <description>, “quantity”:<quantity>, “unit_price”:<unit price>, “amount”:<amount>}

可信度

生成式 AI 模型不就预测提供置信度级别。但是,以检测错误为目标时,置信度级别只是实现该目标的一种可能方法,并不是最佳方法。检测错误的一种更好、更可靠的方法是以多种不同的方式提出同一个问题。问题陈述的差异越大越好。如果所有答案都趋于一致,则出错的可能性非常低。如果答案不一致,则出错的可能性很高。

为了获得最佳结果,我们建议以不同的方式结合上述建议询问同一个问题 5 次。如果所有 5 个回复都相同,则可能不需要人工审核。如果有一个答案不同,则其他 4 个答案正确的可能性仍然很高。但是,如果 2 个或多个答案不同,则需要在 Action Center 中进行人工审核。

此页面是否有帮助?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath 白色徽标
信任与安全
© 2005-2024 UiPath. All rights reserved.