文档数据的提取是文档理解的重要组成部分。在本节中,我们将讨论如何将OCR与RPA集成,反之亦然。首先,我们都知道文档在模板、样式、格式和语言方面有不同的类型。因此,我们不能依靠简单的OCR技术从这些文档中提取数据。为了解决这个问题,我们将在OCR中使用基于规则的方法和基于模型的方法来处理来自不同文档结构的数据。现在,我们将看到OCR公司如何根据文档的类型将RPA集成到他们现有的系统中。
结构化文件:
在这种类型的文档中,布局和模板通常是固定的,并且几乎是一致的。例如,考虑一个使用政府颁发的ID(如护照或驾驶执照)进行KYC的组织。所有这些文档将是相同的,并有相同的字段ID号码,姓名,年龄,和很少其他在相同的位置。但只有细节不同。可能很少有约束,如表溢出或未归档的数据。
通常,推荐的方法使用模板或基于规则的引擎来提取结构化文档的信息。这些可以包括正则表达式或简单的位置映射和OCR。因此,为了集成软件机器人来实现信息提取的自动化,我们可以使用预先存在的模板,也可以为我们的结构化数据创建规则。使用基于规则的方法有一个缺点,因为它依赖于固定的部分,即使是表单结构的微小变化也会导致规则崩溃。
半结构化文件:
这些文件有相同的信息,但排列在不同的位置。例如,考虑包含8-12个相同字段的发票。在一些发票中,商家地址可以位于顶部,而在另一些发票中,则可以在底部找到。通常,这些基于规则的方法不能提供高精度的信息,因此我们将机器学习和深度学习模型引入到图像中,以便使用OCR进行信息提取。或者,在某些情况下,我们可以使用涉及规则和ML模型的混合模型。一些流行的预训练模型是FastRCNN、注意OCR、用于文档信息提取的图卷积。然而,这些模型也有一些缺点;因此,我们使用诸如准确性或置信度评分等指标来衡量算法的性能。因为模型是在学习模式,而不是按照具体的规则操作,所以它可能在修正后一开始就会犯错误。然而,解决这些缺点的方法–ML模型处理的样本越多,它学习的模式就越多,以确保准确性。
非结构化文件:
RPA目前无法直接管理非结构化数据,因此需要机器人首先使用OCR提取和创建结构化数据。与结构化和半结构化文档不同,非结构化数据没有几个键值对.例如,在一些发票中,我们看到一个商人的地址没有任何键名;同样,我们对日期、发票ID等其他字段也是如此。为了准确地处理这些数据,机器人需要学习如何将书面文本转换为可操作的数据,如电子邮件、电话号码、地址等。然后,该模型将了解到,7位数或10位数的数字模式应该被提取为电话号码和包含五位数代码和不同名词的巨大文本。为了使这些模型更加准确,我们还可以使用自然语言处理(NLP)的技术,例如命名实体识别和单词嵌入。
总的来说,要理解文档,首先须了解数据,然后用RPA实现OCR。接下来,我们可以通过将规则和机器学习算法集成起来,记录过程中发生的过程,而不是一步一步地绘制出一个过程,而不是一步一步地给机器人“做我要做的事情”。软件机器人跟踪您在屏幕上的单击和操作,然后将它们转换为可编辑的工作流。如果你完全在当地的项目中工作,你就需要知道这一点。