大量数据由专业软件生成和分析,或以原始形式提供给农民。然而,这种分析的结果必须谨慎使用——事实上,“垃圾输入,垃圾输出”这句格言经常被忽视。错误的单元、错误的传感器校准或错误的地理参考的使用是“简单”错误,如果检测得太晚,可能会影响分析结果,并可能导致严重后果。
一般而言,数据质量评估需要克服以下障碍:
- 应该使用什么标准或规范?
- 可以测量或分析什么?哪些问题应该被发现和强调,哪些问题不重要或可以忽略?
- 检测到问题后会发生什么?如何与谁沟通和显示检测到的问题?
1. 数据质量问题
一般来说,必须保证传感器数据的质量,以获得适当的决策支持系统,帮助农民改善业务。我们关注数据本身,例如数据质量问题,如损坏、丢失、无效、难以置信、嘈杂、不一致或不可靠的数据。此外,可能会出现其他错误,如异常值、异常或由数据不更新或传感器卡在零位引起的问题。在田间作业过程中,可能会出现各种问题,不仅是技术问题:可能是传感器缺陷、缺少GPS连接,有时是农民犯的错误,因为某些值(例如化学品的品牌名称)必须手动添加到适当的系统中。这种错误必须自动检测,以便能够决定数据是否适合用于进一步分析,或者是否应该首先处理。否则,决策支持系统中的错误数据可能导致误导性结果。
在文献中,有几种方法可以对数据质量问题进行分类。错误可能具有不同的性质,因此它们不一定是关键的或者是真正的问题。例如,针对缺失的值:当没有施肥或机器在田间边界之外时(例如,当驾驶员转弯时),机器将记录GPS坐标,但施肥传感器将返回默认值。因此,出现许多零值甚至许多缺失值并不奇怪。另一个问题是,是否原因是运营需要(用于优化),或者是否必须遵守某些法规(用于行政管理的证据)。在后一种情况下,运行的机器必须符合规定,记录的完整性起着更重要的作用。下图显示了一个文件的典型示例,该文件包含与缺失值相关的记录。

图1:杀菌剂应用的展示图像。我们的数据质量评估工具检测到有GPS点记录的两个区域(红色和青色)。
只有农民才能判断数据是丢失了(传感器故障,红色)还是该区域为拖拉机无法访问的池塘(青色)。
2. 数据质量评估要求
在研究期间,我们的DEMETER项目团队与农业领域的技术提供商进行了专家访谈。在下文中,我们发布了一份重要观点的摘录:
- 评估结果应以机器可读格式提供,例如JSON或CSV,以实现自动化处理。如果是word文件将很难处理,尽管用户可能更容易理解。
- 每个数据质量测量功能的评分方式:100%代表最好,0%代表最差。这些函数通常是比率,即被认为有效的测量点的相对比例。许多测量值都是布尔值,也可以用true=100%和false=0%表示(例如,验证文件的实际crs地理参考标准是否符合预期标准)。注意,0%的结果并不一定是坏的,正如90%的结果可能是非常关键的。例如,如果GPS点位于田地边界之外,但施用的氮值为空(0.0),这不会产生什么恶果,因为实际上没有施肥。
- 数据质量评估工具应可配置,以满足用户的个人需求。在大多数情况下,用户希望能够调整有效范围或所需数据分辨率等值。
- 对于数值,必须提供即时统计数据概述(例如平均值、中值、分位数等)。通常仅通过查看相应的平均值就可以检测到损坏的数据。此外,非常高的标准偏差通常表示异常。
- 可视化(例如直方图或轨迹)是必须有的。从工程角度来看,绝对有必要了解数据质量差的原因。可视化有助于深入了解数据质量差的原因。
3. 用于数据质量评估的IESE解决方案
根据访谈结果,我们在弗劳恩霍夫IESE部署了一个数据质量评估工具。该工具让用户更好地了解他们的数据状况,帮助他们识别和量化潜在的数据问题。

图2:我们开发的数据质量评估工具主要部分的技术概述。
IESE质量评估工具是用Python开发的。在输入方面关于评估数据质量的数据,它可以处理CSV格式和形状文件的数据。用户可以通过在JSON文件中指定几个参数来配置该工具。此配置可以在任何文本编辑器中修改,最终用户不需要任何特定的编程知识。我们的数据质量评估工具是一个RESTAPI,它以机器可读的JSON格式返回结果。到目前为止,已经实施了17项指标来评估结构化数据的质量。对于每个度量,确定问题值出现的百分比。此外,还可以生成可疑数据的详细列表。我们在开源Apache 2许可证下发布了该工具。它已经固定化,可以在本地运行,也可以远程访问。该工具帮助用户了解潜在的数据问题,并使他们能够发起改进,例如,关于数据收集或后续数据分析。这可以使从业者开发更有价值的智能农业服务。