Python插值算法
Ken_zju 人气:0数模比赛中,常常需要对数据进行处理和分析,但有时候数据不多,就需要一些方法“模拟产生”一些靠谱的值来满足需求,这就是插值的作用。本文不再具体介绍每个插值算法的内在原理,将直接通过调包实现。
下面,先上三件套,看一下原始数据的大致情况:
import numpy as np import pandas as pd import matplotlib.pyplot as plt data = pd.read_excel('data.xlsx')
拉格朗日插值算法
原始数据我们采用sin(x)的形式,看一下原始数据点:
import scipy from scipy.interpolate import lagrange x = np.linspace(0,10,6) #0~10等差插入11个数,需要预测的值 y = np.sin(x) x_new = np.linspace(0,10,200) #用于绘制图形 y_new = np.sin(x_new) plt.plot(x,y,'ro') plt.plot(x_new,y_new,'b')
f1 = lagrange(x,y) plt.plot(x,y,'ro') plt.plot(x_new,y_new,'b') plt.plot(x_new,f1(x_new),'g')
看一下拟合效果:
分段线性插值
f4 = scipy.interpolate.interp1d(x,y,kind='linear') plt.plot(x,y,'ro') plt.plot(x_new,y_new,'b') plt.plot(x_new,f4(x_new),'g')
分段二次(三次)插值
f5 = scipy.interpolate.interp1d(x,y,kind='quadratic') #三次就是cubic plt.plot(x,y,'ro') plt.plot(x_new,y_new,'b') plt.plot(x_new,f5(x_new),'g')
牛顿插值法:暂未找到相应的库
分段三次埃尔米特插值
f5 = scipy.interpolate.interp1d(x,y,kind='quadratic') #三次就是cubic plt.plot(x,y,'ro') plt.plot(x_new,y_new,'b') plt.plot(x_new,f5(x_new),'g')
三次样条插值
f3 = scipy.interpolate.CubicSpline(x,y) plt.plot(x,y,'ro') plt.plot(x_new,y_new,'b') plt.plot(x_new,f3(x_new),'g')
接下来,让我们看看一个具体实例的比较:
y = np.array(data)[:,1] x = np.linspace(2009,2018,10) x_new = np.array([2019,2020,2021]) f2 = scipy.interpolate.PchipInterpolator(x,y) f3 = scipy.interpolate.CubicSpline(x,y) #coding:utf-8 plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签 plt.rcParams['axes.unicode_minus']=False #用来正常显示负号 plt.plot(x,y,color='black',marker='o',label='样本点') plt.plot(x_new,f2(x_new),'b-',marker='x',label='分段三次埃米尔特') plt.plot(x_new,f3(x_new),'r-',marker='x',label='三次样条插值') plt.xticks(range(2009,2022,1)) #调整x轴间距 plt.legend() plt.show()
Tips:①最常用的就是埃尔米特三次插值、三次样条插值
②拉格朗日插值虽然在训练集上表现良好,但是在测试集上着实难堪,尤其拟合高阶函数时,千万不要轻易用此预测
加载全部内容