
注:标题、作者、姓名、单位、摘要、关键词、正文以及大、小标题部分一定要按格式修改,前四项缺一不可!本word最后有范文,可以按范文格式修改!
页面设置:页眉:居中、宋体、小五,见范文
页边距:上、下:2.54厘米(默认值),左:3厘米(默认值),右:3厘米,全文行距:1.25,版心210*285
全文的数字和英文字母均应为Times New Roman字体
题目(居中,黑体、二号)
作者名字(居中,楷体or楷体_GB2312,四号,作者名字分开用“,”两个字的作者中间不留空格,带上角标的作者切记标好)
作者单位(居中,楷体_GB2312,五号,1.2.3.切记不要用自动编号)
空一行
摘 要(黑体,五号):具体内容(楷体or楷体_GB2312,五号,两端对齐)
关键词(黑体,五号);具体内容(楷体or楷体_GB2312,五号,词之间用分号,两端对齐)
空一行
正文(宋体、五号)
1 一级标题:顶格,小四,楷体or楷体_GB2312,加黑
1.1 二级标题:顶格,五号,宋体加黑
1.1.1 三级标题:顶格、五号,宋体
全文图、表居中,表选所有框线;
图题、表题:居中、小五、黑体
空一行
参考文献:(←这四个字,顶格,小四,楷体or楷体_GB2312,加黑)
[1](中文宋体,英文 Times New Roman,小五,英文的参考文献留着,中文参考文献对应的英文部分删掉。)
空一行
作者信息(宋体、小五):作者信息不留照片和联系方式,写清姓名、年龄、公司、职位、职称、工作成就成果就好。
基金项目(黑体、小五):具体内容
最后全文选中,英文字体部分全文重新选Times New Roman,段落选多倍行距1.25,除标题每正文自然段需要首行缩进2字符
↓范文如下,格式可以直接格式刷照搬
智慧供水管网节水数据清洗挖掘方法研究
王小斌
(延安水务环保集团自来水有限公司,延安水务环保集团检测技术服务有限公司,延安,716000)
摘 要:本论文旨在研究智慧供水管网节水数据清洗和挖掘的方法。首先,探讨了智慧供水管网数据收集的方法和重要性,包括用水量、压力、数字孪生等信息。其次,使用MATLAB中函数工具对原始数据进行数据清洗和预处理,包括去除异常值、填补缺失值等,以确保数据的准确性和完整性。再次,采用数据挖掘技术对清洗后的数据进行分析和挖掘,编写MATLAB聚类分析、回归分析、神经网络等程序对智慧管网节水数据进行挖掘,为智慧管网节水数据挖掘提供参考。最后展望了政府、供水、用水户对智慧供水管网节水数据挖掘的潜在价值和数据挖掘的意义。
关键词:智慧管网;节水;数据清洗;数据挖掘
智慧供水管网是指利用先进的传感器、物联网技术、大数据分析和人工智能等技术手段,对供水管网进行实时监测、智能管理和优化运营的系统。它通过采集供水管网各个节点的数据,包括水质、水压、流量等信息,并将这些数据传输到中心控制系统进行分析和处理。通过对数据的分析和预测,智慧供水管网可以实现对供水系统的智能化监控、故障预警和远程控制,提高供水系统的运行效率、水资源利用效率和服务质量。供水管网智慧化是未来各种技术交叉嫁接的过程,最本质的是安全供水,创新点在于智慧化。智慧化怎么走还没确定的答案,有一点是肯定的,那就是利用现代科技成果使城市供水更安全更可靠更便捷。智慧管网如何智慧化,数据是关键。因此基于这个逻辑,对智慧供水管网数据进行梳理,研究管网数据清洗挖掘的方法,以Y城市为例从智慧管网数据收集,数据清洗,数据价值挖掘的角度探索智慧供水管网数据的隐藏价值,为更好更安全的供水提供参考。
1智慧管网节水数据收集
通过现场测量、设计文件、地理信息系统(GIS)等手段收集与管网相关的数据,包括管道几何信息(管径、长度、连接关系等)、管道材质、节点位置、边界条件(入口流量、出口压力等)等。
1.1数据采集点的设置
数据采集是智慧供水管网的基础,设置合理的数据采集点是数据采集的关键。数据采集点位有以下三种方法:(1)网络模型分析法。通过使用水力模型软件,对管网进行模拟和分析,可以帮助确定最佳的监测点位置。模型分析可以评估管网的流量和压力分布情况,识别潜在的问题区域,并确定最需要监测的位置。二(2)网络分区划分法。将管网划分为不同的区域或分区,根据每个区域的特点和需求,设置相应的监测点。分区可以根据地理位置、管径、用途等因素进行划分,以便更好地监测和管理管网的流量和压力。(3)监测点密度法。根据管网的规模和复杂程度,确定监测点的密度。在管网较大或复杂的情况下,可能需要增加监测点的密度,以更全面地了解管网的流量和压力情况。而在管网较小或简单的情况下,可以适度减少监测点的密度,以降低成本和维护工作量。
1.2数据收集的基础保障
要保证管网数据可靠准确,需要做好三方面工作。首先,选择适合的监测设备和可靠的网络数据传输设备,如流量计、压力传感器、水质传感器,自动化的数据采集系统等。准确将监测点的数据传输到中央数据库或监测中心,进行实时监测和分析。其次,对传感器定期维护和校准,维护包括设备清洁、故障排除和更换等,而校准则是通过与标准设备进行比对,确保监测设备的准确度和一致性。最后,建立数据收集处理管理机构,保证所有收集的智慧管网数据收集规则和机制,并且探索数据的潜在价值。
2数据清洗
智慧管网数据清洗是一项最基础的工作,我们使用数据清洗技术对原始数据进行预处理,包括去除异常值、填补缺失值等,以确保数据的准确性和完整性。
2.1数据清洗方法
数据清洗是指对原始数据进行处理,以去除错误、不一致或无效的数据,使其适合进一步分析和建模。使用MATLAB中各种函数和工具箱可以进行数据清洗,相关清洗步骤有以下几种:(1)缺失值处理:使用MATLAB的函数(如isnan、ismissing)来检测和处理缺失值。你可以选择删除包含缺失值的行或列,或者使用插值方法填充缺失值。
(2)异常值处理:使用统计方法(如均值、中位数和标准差)来检测和处理异常值。你可以选择删除异常值或使用插值方法进行替换。
(3)数据类型转换:使用MATLAB的函数(如str2double、str2num)将字符串类型的数据转换为数值类型。你还可以使用datetime函数将日期和时间数据转换为MATLAB的日期时间格式。
(4)数据重复处理:使用MATLAB的函数(如unique)来查找和删除重复的数据。
(5)数据格式化:使用MATLAB的函数(如sprintf)来格式化数据的显示方式,以便更好地呈现和理解数据。
(6)数据筛选和排序:使用MATLAB的逻辑运算符和函数(如find、sort)来筛选和排序数据,以便选择感兴趣的数据子集。
(7)数据合并和拆分:使用MATLAB的函数(如vertcat、horzcat)将多个数据集合并为一个,或者使用splitapply函数将数据拆分为多个子集进行处理。
2.2数据清洗程序
以下是对Y某区域压力数据进行数据局清洗的MATLAB程序操作示例:
filename = 'C:\p_data.txt'; % 文件路径和名称
data = importdata(filename);
disp('文件数据:');
disp(data);文件数据:
0.5038 0.6334 0.2241 0.5362 0.4819 0.3192 0.4066
0.4843 0.8078 0.7269 0.3150 3.7535 0.5225 0.4437
0.5215 0.4295 0.4376 0.5990 0.5909 0.5917 0.5171
0.3293 0.5217 0.6130 0.4989 0.5535 0.0001 0.4197
0.4794 0.3713 0.5388 0.3353 0.3431 0.3691 0.1556
0.5938 0.4825 0.3745 0.5870 0.2788 0.4398 0.4259
0.4819 0.4813 0.3635 0.4470 0.4335 0.5128 0.5593
0.5609 0.3636 0.4577 0.3286 0.3386 0.4493 0.6033
0.3730 0.4871 0.4274 0.5617 0.3411 0.4533 0.5053
0.5601 0.6044 0.4586 0.3008 0.3758 0.3438 0.6850
0.3884 0.5248 0.4308 0.5389 0.3735 0.3098 0.3078
0.4988 0.4323 0.4304 0.5919 0.4792 0.4698 0.6088
0.3696 0.5197 0.5335 0.4256 0.4716 0.3334 0.3352
0.4605 0.5222 0.7085 0.3833 0.4687 0.4418 0.2567
0.4061 0.2705
missing_values = isnan(data); % 检测缺失值
data_filled = fillmissing(data, 'linear');% 使用插值方法来填充缺失值
outliers = isoutlier(data); % 判断异常值
data(outliers) = []; % 删除异常值
boxplot(data); % 绘制箱线图
z_scores = zscore(data); % 计算Z-score
图1异常值未删除z-score 图2异常值删除后z-score
3智慧管网节水数据挖掘
智慧管网结束数据量较大数据清洗完成后,就需要用MATLAB数据挖掘工具和函数,完成数据挖掘任务。
3.1数据挖掘方法
数据挖掘的方法有很多,常用的主要有以下五种:
(1)聚类分析:聚类分析用于将数据分成不同的组或簇,使得同一组内的数据相似度较高。MATLAB中的kmeans函数可以用于K-means聚类算法,clusterdata函数可以用于层次聚类算法。
(2)分类分析:分类分析用于根据已有的标记数据,建立一个分类模型,然后用该模型对新的数据进行分类。MATLAB中的fitcecoc函数可以用于多类别分类,fitcsvm函数可以用于支持向量机分类。
(3)关联规则挖掘:关联规则挖掘用于发现数据集中的频繁项集和关联规则。MATLAB中的apriori函数可以用于频繁项集挖掘,associationRules函数可以用于关联规则挖掘。
(4)回归分析:回归分析用于建立一个数学模型,描述自变量和因变量之间的关系,并用该模型对新的自变量进行预测。MATLAB中的fitlm函数可以用于线性回归分析,fitrtree函数可以用于决策树回归分析。
(5)神经网络分析:神经网络在数据挖掘中可以用于分类、回归、聚类等任务。常见的神经网络结构包括多层感知器(MLP)、卷积神经网络(CNN)、循环神经网络(RNN)等。
3.2数据挖掘程序
Y市智慧管网压力数据多是不同区域管网结构不同管网压力需求不同因此可以采用聚类分析方法进行分析,MATLAB中聚类分析的示例程序如下:
rng(1); % 设置随机种子,保证结果可复现
X = [randn(100,2)+1; randn(100,2)-1];% 使用k-means算法进行聚类分析
k = 2; % 簇的个数
[idx, C] = kmeans(X, k);% 绘制聚类结果
figure;
gscatter(X(:,1), X(:,2), idx, 'rg');
hold on;
plot(C(:,1), C(:,2), 'kx', 'MarkerSize', 10, 'LineWidth', 2);
legend('Cluster 1', 'Cluster 2', 'Centroids');
title('k-means Clustering');
图3.聚类分析散点图 图4回归分析散点图
智慧管网节水数据挖掘最重要的工具之一就是回归分析,通过回归分析建立数学模型找到管网节水数据的规律,预测管网节水策略。回归分析是一种统计分析方法,用于研究自变量(或预测变量)与因变量之间的关系。它可以帮助我们理解和预测因变量如何随着自变量的变化而变化。在回归分析中,自变量通常是已知的,而因变量是我们希望预测或解释的变量。回归分析的目标是建立一个数学模型,该模型可以描述自变量与因变量之间的关系,并用于预测因变量的值。常见的回归分析方法包括线性回归、多项式回归、岭回归、Lasso回归等。其中,线性回归是最常用的回归分析方法之一。以下是MATLAB线性回归的程序算法示例:
rng(1); % 设置随机种子,保证结果可复现
X = randn(100,1);
y = 2*X + randn(100,1);% 使用线性回归分析
mdl = fitlm(X, y);% 绘制数据散点图和回归线
figure;
scatter(X, y);
hold on;
plot(X, predict(mdl, X), 'r', 'LineWidth', 2);
xlabel('X');
ylabel('y');
legend('Data', 'Linear Regression');
title('Linear Regression Analysis');% 获取回归方程的系数和截距
coeff = mdl.Coefficients.Estimate;
intercept = coeff(1);
slope = coeff(2);% 计算线性相关系数
R = corrcoef(X, y);
linear_r = R(1, 2);% 在图像上显示回归方程和线性相关系数
eqn = ['y = ' num2str(slope) ' * X + ' num2str(intercept)];
r_text = ['Linear R = ' num2str(linear_r)];
text(min(X), max(y), eqn, 'HorizontalAlignment', 'left', 'VerticalAlignment', 'top');
text(min(X), max(y)-0.1, r_text, 'HorizontalAlignment', 'left', 'VerticalAlignment', 'top');
3.3人工神经网络挖掘方法
神经网络(Neural Network)是一种模拟人脑神经系统工作原理的数学模型,用于解决复杂的模式识别和预测问题。它由多个神经元(或称为节点)组成,这些神经元通过连接权重相互连接,形成一个网络结构。神经网络通常包含输入层、隐藏层和输出层。输入层接收输入数据,隐藏层对输入数据进行处理和转换,输出层产生最终的预测结果。每个神经元接收来自上一层神经元的输入,并通过激活函数对输入进行加权求和和非线性变换,然后将结果传递给下一层神经元。神经网络的训练过程就是通过调整连接权重,使得网络能够对输入数据进行准确的预测。常见的神经网络模型包括前馈神经网络(Feedforward Neural Network)、循环神经网络(Recurrent Neural Network)、卷积神经网络(Convolutional Neural Network)等。以下代码是一个使用MATLAB神经网络工具箱创建一个前馈神经网络,具有两个隐藏层,分别有10个和5个神经元进行管网压力预测的示例程序。
% 假设有以下输入特征和对应的输出压力数据
inputs = [0.5; 0.8; 0.6];
outputs = [10; 15; 12];
% 创建并配置神经网络模型
net = feedforwardnet([10, 5]); % 创建一个前馈神经网络,具有两个隐藏层,分别有10个和5个神经元net = configure(net, inputs, outputs); % 配置网络的输入和输出大小
% 设置训练参数
net.trainParam.epochs = 100; % 设置训练的迭代次数
net.trainParam.lr = 0.01; % 设置学习率
net.trainParam.goal = 0.01; % 设置训练目标,即误差的阈值
% 训练神经网络模型
net = train(net, inputs, outputs);
% 使用训练好的模型进行预测
predicted_outputs = net(inputs);
% 显示预测结果
disp('预测结果:');
disp(predicted_outputs);
图5神经网络结构图 图6神经网络训练图
4 智慧管网节水数据潜在价值挖掘结论及展望
智慧管网节水数据对政府、供水单位、物业、用户等供用水相关方均有其潜在价值,对政府来说水量的减少和水质污染导致水资源严重紧缺,常常是限制城市发展的瓶颈,政府常常通过调水工程和蓄水工程来缓解城市供水难题,通过挖掘智慧管网数据和调蓄水量数据潜在关系为城市供水规划提供参考。对供水单位来说是连接水源地和水龙头的关键,掌握着大量的智慧管网资产和数据,但是如何挖掘智慧管网节水数据还有很长一段路要走,一个是自己使用数据的节水价值有待开发,另一个是可以给用户提供节水服务的潜在价值。通常供水单位通过对多年供水数据信息进行数学建模,可以较为准确预测水源的供水量和用户的需水量,从而保障城市供水安全。通过生产损耗水科学循环再利用提高生产节水价值。通过城区用水户分区计量挖掘智慧管网节水数据为用户提供潜在价值,比如独居老人居家水量信息推送儿女报平安服务,提供更优质的供水潜在价值。通过城区供水压力,分区设置压力报警阈值,及时调整加压泵站压力启动泄压阀防止爆管发生实现节水信息的潜在价值。建立城区供水数字孪生模型,科学规划,科学调度,减少水锤等供水灾害的发生,达到节水潜在价值的实现。对于大用户来说供水企业提供夜间最小流量诊断服务,为大用户提供不同区域的用水最小流量,减少跑冒滴漏,节约水资源,减少漏水引起的财产损失,实现节水潜在价值。
参考文献:
[1]廖芹. 数据挖掘与数学建模[M].北京:国防工业出版社,2010:49-50.
[2]郭炜星. 数据挖掘分类算法研究[D].浙江大学,2008:34-35.
[3]Han JW. Micheline K. Data mining-concepts and techniques [M]. 北京:高等教育出版社,2001:56-57.
[4]张雅君, 刘全胜. 需水量预测方法的评析与择优[J].中国给水排水,2001,(07):27-29.
[5]Allaher DR. Boland J. LePlastrier BJ. Methods for Forecastin Urban Demands[M].Australian:Australian water resources council,1981:279(5359):2063-2064.
[6]傅金祥,马兴冠.水资源需求预测及存在的主要问题探讨[J].中国给水排水,2002,(10):27-29.
[7]Pan Nin Tan. Michael Steinbach, Vipin Kumar. Introduction to Data Mining [M]. 北京:人民邮电出版社,2004:102-105.
[8]刘同明.数据挖掘技术及其应用[M].长沙:国防工业出版社,2001. 1-12.
[9]Huan Z. Extensions to the Koreans alorithm for clustering Laure data sets with categorical values [J]. Data Minim and Knowledge Discover, 1998(2).20-56