德国弗劳恩霍夫应用研究促进协会北京代表处
农业数据质量评估
如今,几乎无法想象没有传感器的农业,无论是帮助农民优化田间作业、监测牲畜的简单GSP设备,还是允许对动物进行高级监测(如动物福利检测)或农场机械的更复杂设备。特别是,在精准农业(或智能农业)领域,智能传感器生成(地理参考)数据,从而可以通过人工智能为农民提供优化、决策支持或预测。例如,可以优化施肥、播种或收割等田间作业。智能农业的一个众所周知的挑战是在不损失数据质量的情况下降低传感器的能耗。另一个问题是连接的传感器的延迟,当生成的数据用于进一步分析时,这可能会导致问题。
大量数据由专业软件生成和分析,或以原始形式提供给农民。然而,这种分析的结果必须谨慎使用——事实上,“垃圾输入,垃圾输出”这句格言经常被忽视。错误的单元、错误的传感器校准或错误的地理参考的使用是“简单”错误,如果检测得太晚,可能会影响分析结果,并可能导致严重后果。
一般而言,数据质量评估需要克服以下障碍:

  • 应该使用什么标准或规范?
  • 可以测量或分析什么?哪些问题应该被发现和强调,哪些问题不重要或可以忽略?
  • 检测到问题后会发生什么?如何与谁沟通和显示检测到的问题?
很难对数据质量及其在农业领域——尤其是在智能农业领域——的影响做出明确定义。因此,我们的目标是通过与不同的合作伙伴和领域专家密切合作来回答上述三个问题。在欧洲地平线2020项目DEMETER中,我们深入研究了数据质量问题,并开发了一种工具来检测结构化和半结构化文件中的潜在数据质量问题。

1. 数据质量问题


一般来说,必须保证传感器数据的质量,以获得适当的决策支持系统,帮助农民改善业务。我们关注数据本身,例如数据质量问题,如损坏、丢失、无效、难以置信、嘈杂、不一致或不可靠的数据。此外,可能会出现其他错误,如异常值、异常或由数据不更新或传感器卡在零位引起的问题。在田间作业过程中,可能会出现各种问题,不仅是技术问题:可能是传感器缺陷、缺少GPS连接,有时是农民犯的错误,因为某些值(例如化学品的品牌名称)必须手动添加到适当的系统中。这种错误必须自动检测,以便能够决定数据是否适合用于进一步分析,或者是否应该首先处理。否则,决策支持系统中的错误数据可能导致误导性结果。
 
在文献中,有几种方法可以对数据质量问题进行分类。错误可能具有不同的性质,因此它们不一定是关键的或者是真正的问题。例如,针对缺失的值:当没有施肥或机器在田间边界之外时(例如,当驾驶员转弯时),机器将记录GPS坐标,但施肥传感器将返回默认值。因此,出现许多零值甚至许多缺失值并不奇怪。另一个问题是,是否原因是运营需要(用于优化),或者是否必须遵守某些法规(用于行政管理的证据)。在后一种情况下,运行的机器必须符合规定,记录的完整性起着更重要的作用。下图显示了一个文件的典型示例,该文件包含与缺失值相关的记录。



图1:杀菌剂应用的展示图像。我们的数据质量评估工具检测到有GPS点记录的两个区域(红色和青色)。
只有农民才能判断数据是丢失了(传感器故障,红色)还是该区域为拖拉机无法访问的池塘(青色)。


 
2. 数据质量评估要求

在研究期间,我们的DEMETER项目团队与农业领域的技术提供商进行了专家访谈。在下文中,我们发布了一份重要观点的摘录:
  • 评估结果应以机器可读格式提供,例如JSON或CSV,以实现自动化处理。如果是word文件将很难处理,尽管用户可能更容易理解。
  • 每个数据质量测量功能的评分方式:100%代表最好,0%代表最差。这些函数通常是比率,即被认为有效的测量点的相对比例。许多测量值都是布尔值,也可以用true=100%和false=0%表示(例如,验证文件的实际crs地理参考标准是否符合预期标准)。注意,0%的结果并不一定是坏的,正如90%的结果可能是非常关键的。例如,如果GPS点位于田地边界之外,但施用的氮值为空(0.0),这不会产生什么恶果,因为实际上没有施肥。
  • 数据质量评估工具应可配置,以满足用户的个人需求。在大多数情况下,用户希望能够调整有效范围或所需数据分辨率等值。
  • 对于数值,必须提供即时统计数据概述(例如平均值、中值、分位数等)。通常仅通过查看相应的平均值就可以检测到损坏的数据。此外,非常高的标准偏差通常表示异常。
  • 可视化(例如直方图或轨迹)是必须有的。从工程角度来看,绝对有必要了解数据质量差的原因。可视化有助于深入了解数据质量差的原因。

3. 用于数据质量评估的IESE解决方案

根据访谈结果,我们在弗劳恩霍夫IESE部署了一个数据质量评估工具。该工具让用户更好地了解他们的数据状况,帮助他们识别和量化潜在的数据问题。


图2:我们开发的数据质量评估工具主要部分的技术概述。
 
IESE质量评估工具是用Python开发的。在输入方面关于评估数据质量的数据,它可以处理CSV格式和形状文件的数据。用户可以通过在JSON文件中指定几个参数来配置该工具。此配置可以在任何文本编辑器中修改,最终用户不需要任何特定的编程知识。我们的数据质量评估工具是一个RESTAPI,它以机器可读的JSON格式返回结果。到目前为止,已经实施了17项指标来评估结构化数据的质量。对于每个度量,确定问题值出现的百分比。此外,还可以生成可疑数据的详细列表。我们在开源Apache 2许可证下发布了该工具。它已经固定化,可以在本地运行,也可以远程访问。该工具帮助用户了解潜在的数据问题,并使他们能够发起改进,例如,关于数据收集或后续数据分析。这可以使从业者开发更有价值的智能农业服务。