污水处理的大数据,在小编看来,至今依然是个曲高寡和的小众细分领域。想组织一个水处理的仪表自动化的国际大会也不是一件容易的事情,因为很难吸引到学术界以外的“真操实干”的既参与运营又涉足数据分析的人来参加。
今年的ICA大会2017的组织者就决定尝试通过参与者的组织类型和应用领域来设定讨论话题。不过小编没有参加这场会议,所以不知道效果如何。但因为在Twitter上偶遇这次会议的最佳poster得奖者的信息,所以小编在本周的“学术星期四”专栏与读者分享一下这篇报告的统计结果。
ICA2017 | 图源:www.ica2017.org
奥尼卡水处理创新部落
污水厂监测方法回顾
本届ICA大会在加拿大的魁北克市举行,话说2021年的大会将移师北京,搞污水数据分析的盆友们有4年时间好好准备了。
魁北克市 | 图源:canada-visa-eta.com
小编想要分享的这篇报告的题目叫“Turning passive data into knowledge - a review of wastewater treatment monitoring techniques”——将被动数据转化成知识,关于污水处理监测技术的综述。署名作者包括了西班牙、美国、瑞士和瑞典四国国家的研究员和学者,其中包括了行内大数据专家,我们奥氏部落之前也介绍过的瑞典隆德大学的荣誉教授Gustaf Olsson。这篇文章的第一作者是来自西班牙西班牙加泰罗尼亚水研究所的博士后研究员Lluis Corominas,也是这次大会的最佳墙报获得者。
Lluis Corominas
根据ResearchGate的统计,他参与的项目基本都跟污水处理的数据分析相关,包括了建模范例、污水处理数据收集的数据质量、污水处理与LCA生命周期分析等。
事不宜迟,我们马上来看看Corominas博士这篇综述文章都有什么高见。
研究动机
污水厂的自动化与控制有赖于仪表传感器产生的信号。要实现污水处理厂更高效的运行,需要有人对这些原始数据进行得当的处理和分析。遗憾的是“说时容易做时难”,实际要对这些数据进行分析需要花费大量的金钱和时间的前期投入的,很多潜在的宝贵信息都还处于有待发掘的状态。如何才能改变这个局面呢?这应该正是Corominas博士写这篇综述的初衷所在——希望通过这篇综述来帮助污水厂管理者和软件程序开发员识别成熟和经过验证的技术,并应用到污水处理的实际生产。
延伸阅读:
是公园还是污水厂?全国首个具有“海绵城市”功能的污水处理厂是这样的
揭秘|没有噪音 没有异味 这座“隐身”的污水处理厂如何实现了环境友好?
选择的方法
作者把污水处理的数据分析分为四个等级:
- 低级数据核对 (用于数据噪声、延迟和通讯故障的处理,识别缺失和异常数据,基于工艺知识和经验对数据的一致性和合理性进行检查)
- 基础信息提取 (剔除较大的测量偏差,包括过失偏差和随机偏差,做数据校正)
- 高级信息提取 (对收集数据集的主要变量来源作可视化处理,识别运行正常和异常的时间段,对无法在线测量的变量进行预测,通过可视化图评估工艺状态)
- 人为解释信息提取和知识管理(为运行人员日常遇到的问题提供支持,将已有经验结构化、基于案例和趋势的论证)
统计的计算机算法包括:
控制图
物料平衡
回归模型(包括多线性和偏最小二乘法PLS)
自组织映射神经网络(SOM)
主成分分析(PCA)
独立成分分析(ICA)
人工神经网络 (ANNs)
聚类分析、模糊分析
支持向量机(SVMs)
识别数据系列中的定性特征的算法
除此以外,环境决策支持系统(EDSS) 和知识管理 (ontologies) 也包括在内,但关于机器学习的算法不在考虑范围内。作者另外给推荐大家阅读以下文章做拓展阅读:
Do machine learning methods used in data mining enhance the potential of decision support systems? A review for the urban water sector
将数据挖掘的机器学习和我们城市水务部门的决策分析拉到一起来讲的文章目前还为数不多,所以还是值得借鉴阅读的。
评估统计
他们对所有跟上述四种数据处理类型最为相关的方法/工具进行统计。具体手段是用SCOPUS的数据库进行技术名称以及相关变量的关键词搜索,每个搜索都加上关键词“污水处理”。搜索范围是2015年以前发表的论文报告。
他们一共得到了340篇papers的搜索结果。这些文章里大部分都讨论了人工神经网络 (20%), 主成分分析 (13%) 和 模糊分析 (12%).
延伸阅读:
是公园还是污水厂?全国首个具有“海绵城市”功能的污水处理厂是这样的
揭秘|没有噪音 没有异味 这座“隐身”的污水处理厂如何实现了环境友好?
结果
领先群体
他们的统计数据显示,欧洲是这个领域的领跑者。来自欧洲的机构和学者在这些文章的出现率达61%,然后是亚洲-大洋洲(34%),北美是12%,南美和非洲地区仅占不到4%。
就每个单项算法而言,欧洲的贡献率都是最大的。亚洲-大洋洲主要贡献于 ANN (38 篇)、模糊分析 (17篇)和 PCA (20篇)。其中有37篇文章是不同地区的跨区合作成果,占总数的12%左右。
图1.每项技术每年的引用数
引用趋势
上图展示的是这些文章里每个算法/工具每年的引用次数总和。大家能从图中看到其中一些方法和工具的引用情况在过去几年里呈现出稳定增加的趋势。其中ANN 和 PCA 的增幅最大(2010年后的引用数都超过200),然后是模糊分析、聚类分析、独立成分分析ICA和偏最小二乘法回归分析 PLS(2010年后的引用数在10左右)。
作者认为,污水处理厂应用这些技术来改善工艺表现可能是这些数据增长的幕后推动力。控制图和物料平衡分析的每年引用数较少(<50次),作者认为这是因为这方面的公开数据本身就比较有限。
知识管理方法论的论文(决策树、规则归纳、ontologies)获得引用最少(<20次),而且在统计年限里没有增长迹象。作者推测可能是因为这方面的算法的应用范围就很窄很有针对性,或者他们的潜力还没有得到挖掘。
Papers在科学家眼中的受欢迎度
哪个算法应用率最高呢?他们用引用总数和papers数的比值做统计,结果发现独立成分分析ICA的引用率是最高的(63), 然后是 SVM (51)、PCA 和CBR (38)。大部分其他算法的数值都在20到40之间,除了控制图和物料平衡分析低于20。作者认为这跟算法的“新旧”程度有关。
延伸阅读:
是公园还是污水厂?全国首个具有“海绵城市”功能的污水处理厂是这样的
揭秘|没有噪音 没有异味 这座“隐身”的污水处理厂如何实现了环境友好?
实践应用情况
遗憾的是,统计结果显示这些算法大多还是学术界的人在钻研,只有9%的文章清楚提及到把这些算法用于工程实践(例如实时控制器)。但依然很难确认究竟哪些方法用到了实践中,因此这些数据往往没纳入科学文献数据库,这需要针对每个商业产品进行定位搜索。 作者最后对人为解释信息提取这类数据处理的限制因素进行了推断,包括了:
i) 缺少验证方法
ii) 缺少操作准则
iii) 统计分析和工程应用的代沟
iv) 教育课程滞后
v) 缺少合适知识总结和管理
结论
西班牙博士Corominas先生的这篇综述告诉了我们,目前欧洲在污水处理的大数据分析方面,就单单从研究数量而言,是领先全球的,遗憾的是他没有对这些papers的质做一个衡量分析。同样,虽然他总结了人工神经网络、主成分分析、模糊分析是目前热门的计算机算法,但却没有对背后的原因作更进一步的推断解释。
作者也承认,他们希望他们这个非常初步性的评估能作为一个讨论的起点,让更多水处理行业的朋友关注这个细分领域的发展,投入到其中的培训和学习中来。这一点小编也是非常赞成的,小编期望有更多的污水厂安装实时监测系统,并把这些宝贵的被动数据变成可靠及时的信息来源,为提高污水厂运行管理效率做出贡献。
ICA 2017大会的讨论内容
参考资料
1.https://www.researchgate.net/publication/314281533
延伸阅读:
是公园还是污水厂?全国首个具有“海绵城市”功能的污水处理厂是这样的
揭秘|没有噪音 没有异味 这座“隐身”的污水处理厂如何实现了环境友好?
原标题:西班牙博士用大数据分析告诉你:污水厂大数据时代还没起步呢!