搜档网
当前位置:搜档网 › 地理加权回归模型介绍

地理加权回归模型介绍

地理加权回归模型介绍
地理加权回归模型介绍

第三章地理加权回归模型介绍

3.1 基本模型

在地学空间分析中,n组观测数据通常是在n个不同地理位置上获取的样本数据,全局空间回归模型就是假定回归参数与样本数据的地理位置无关,或者说在整个空间研究区域内保持稳定一致,那么在n个不同地理位置上获取的样本数据,就等同于在同一地理位置上获取的n个样本数据,其回归模型与最小二乘法回归模型相同,采用最小二乘估计得到的回归参数户既是该点的最优无偏估计,也是研究区域内所有点上的最优无偏估计。而在实际问题研究中我们经常发现回归参数在不同地理位置上往往表现为不同,也就是说回归参数随地理位置变化,这时如果仍然采用全局空间回归模型,得到的回归参数估计将是回归参数在整个研究区域内的平均值,不能反映回归参数的真实空间特征。为了解决这一问题,国外有些学者提出了空间变参数回归模型(Spatially Varying-Coeffi Cient Regression Model)(Fosterand Gorr,1986; Gorrand Olligschlaeger,1994),将数据的空间结构嵌入回归模型中,使回归参数变成观测点地理位置的函数。Fortheringham等(Brunsdonetal,1996;Fortheringham et al,1997;Brunsdon et al,1998)在空间变系数回归模型基础上利用局部光滑思想,提出了地理加权回归模型(Geographieally Weighted Regression Model-GWR)。

地理加权回归模型(GWR)是对普通线性回归模型(OLR)的扩展,将样点数据

的地理位置嵌入到回归参数之中,即:

式中:(u i,v i)为第i个样点的坐标(如经纬度);βk(u i,v i)是第i个样点的

第k个回归参数;εi是第i个样点的随机误差。为了表述方便,我们将上式简写为:

若β1k=β2k=?=βnk,则地理加权回归模型(GWR)就退变为普通线性回归模型(OLR)。

Fotheringham et al依据“接近位置i的观察数据比那些离i位置远一些的数据对的

估计有更多的影响”(Fotheringham et al,1996)的思想,利用加权最小二乘法来估计参数,得

其中:

β是β的估计值,n是空间样点数,k是自变量的个数,W in是对位置i刻画模型时赋予数据点n的权重。

由于地理加权回归模型中的回归参数在每个数据采样点上都是不同的,因此其未知参数的个数为n×(P + l),远远大于观测个数n,这样就不能直接利用参数回归估计方法估计其中的未知参数,而一些非参数光滑方法为拟合该模型提供了一个可行的思路。Foste & Gorr(1986)和Gorr & Olligsehiaeger(1994)利用广义阻尼负反馈(generalized damped negative feedback)方法估计未知参数在各地理位置的值,这种估计方法只是在很直观的意义上考虑数据的空间结构,加之估计方法较为复杂,很难对估计量作深入的统计推断方面的研究。Brunsdon等(1996)在局部多项式光滑思想上提出了偏差和方差折衷(Bias-Variance Trade-off)的解题思路:假设回归参数为一连续表面,位置相邻的回归参数非常相似,在估计采样点i的回归参数时,以采样点i及其邻域采样点上的观测值构成局域子样,建立全局线性回归模型,然后采用最小二乘方法得到回归参数估计βik(k=0,1,2,…,p)。对于另一个采样点,i+1采用另一个相应的局域子样来估计,以此类推。由于在回归分析过程中,以其它采样点上的观测值来估计i点上的回归参数,因此得到的i点上的参数估计不可避免存在偏差,即参数估计为有偏估计。显然,参与回归估计的子样规模越大,参数估计的偏差就越大,参与回归估计的子样规模越小,参数估计的偏差就越小。从降低偏差这一角度考虑因尽量减少子样规模,但子样规模的减少必然导致回归参数估计值的方差增加,精度降低。

3.2 空间权函数的选择

空间权重矩阵是地理加权回归模型(GWR)的核心(Brunsdonetal, 2000),空间权函数的选取对地理加权回归模型(GWR)的参数估计影响很大。

(1)距离阈值法

距离阈值法是最简单的空间权函数,它的关键是选取合适的距离阈值D,然后将数据点j与回归点i之间的距离d ij与其进行比较,若大于该阈值则权重为0,否则为1,即

这种权重函数的实质就是一个移动窗口,计算虽然简单,但其缺点为函数不连续,因此在地理加权回归模型的参数估计中不宜采用。

(2)距离反比法

Tobler(1970)地理学第一定律认为空间相近的地物比相远的地物具有更强的相关性,因此在估计回归点i的参数时,应对回归点的邻域给予更多的关注。根据这种思路,人们自然想到用距离来衡量这种空间关系:

这里a为合适的常数,当a取值为1或2时,对应的是距离倒数和距离倒数的平方。这种方法简洁明了,但对于回归点本身也是样本数据点的情况,就会出现回归点观测值权重无穷大的情况,若要从样本数据中剔除却又会大大降低参数估计精度,所以距离反比法在地理加权回归模型参数估计中也不宜直接采用,需要对其进行修正。

(3)高斯(Gauss)函数法

高斯(Gauss)函数法就是表示w ij与d ij之间的连续单调递减函数,可以克服上述空间权函数不连续的缺点。其函数形式如下:

图3.1 Gauss空间权函数

式中是描述权重与距离之间函数关系的非负衰减参数,称之为带宽(Bandwidth)。带宽越大,权重随距离增加衰减的越慢,带宽越小,权重随距离增加衰减的越快。

(3) bi-square 函数法

在实际中,往往会将对回归参数估计几乎没有影响的数据点截掉,不予计算,并以有限高斯函数来代替高斯函数,最常采用的便是bi-square函数(Bmndonetal,1997;Fotheringham et al, 1998):

图3.2 bi-square空间权函数

从上式可以看出,bi-square函数法可以看成是距离阈值法和高斯(Gauss)函数法的结合。带宽范围内的回归点,可以通过有限高斯函数来计算数据点的权重,而带宽之外的数据点权重为0。

本文分别选用高斯(Gauss)函数和bi-square函数两类空间权函数方法进行地理加权回归模型(GWR)的分析。

3.3 带宽的确定与优化

地理加权回归分析对高斯(Gauss)权函数和bi-square权函数的选择并不是很敏感,但对特定权函数的带宽却很敏感。因此,带宽的确定是地理加权回归分析巾的关键。

图3.3 不同权函数与带宽选择对参数估计的影响

在实际应用中我们发现,地理加权回归分析对Gauss 权函数和bi-Squar 权函数的选择并不是很敏感,但对特定权函数的带宽却很敏感(如图3.3),带宽过大回归参数估计的偏差过大,带宽过小又会导致回归参数估计的方差过大。最小二乘平方和是最常采用的优化原则之一,但对于地理加权回归分析中的带宽选择却失去了作用,这是

因为对 y i ?y i b n i =1

2=min 而言,带宽b 越小,参与回归分析的数据点的权重越小,预测值y i b 越接近实际观测值y i ,从而 y i ?y

i b n i =12

≈0,也就是说最优带是只包含一个样本点的狭小区域。

(1)交叉验证方法

基于此,Cleveland (1979)、Bowman (1984)建议采用用于局域回归分析的交叉验证方法(cross-validation , CV ),该方法的公式表达为:

其中,y ≠i b 是的拟和值,在刻画过程中省略了点i 的观测值得。这样当b 变得很小时,模型仅仅刻画点i 附近样点而没有包括i 本身。

在实际应用中为了减少计算量,Loader 于1999年提出了一种近似交叉验证统计量的方法,称为广义交叉验证方法(generalized cross validation ,GCV ):

由帽子矩阵S 的构成可知,当带宽很小时,地理加权回归分析的有效参数个数趋近样本数量n ,上式中的分母趋于零,这样即便预测值y i b 趋向y i ,GCV 也不会等于0。

(2) AIC 准则

Akaike 通过对极大似然原理的估计参数方法加以修正,提出了一种较为一般的模型选择准则,称为Akaike 信息量准则(Akaike Information Criterion ,AIC )。AIC 定义为(Akaike ,1974):

其中,θ

L 为θ的极大似然估计,Q 为未知参数的个数。 AIC 准则应用比较广泛,Hurvich et al 将AIC 准则扩展到非参数回归分析中的光滑参数选择(Hurvich et al , 1998),Brunsdon 和 Fotheringham 则在 Hurvich 等研究基础上将其进一步用于地理加权回归分析中的权函数带宽选择(Brunsdon et al ,2002; Fotheringham et al , 2002),其公式为:

其中,下标C表示“修正后的” AIC估计值,n是样点的大小,σ是误差项估计的标准离差,tr(S)是GWR的S矩阵的迹,它是带宽的函数。AIC有利于评价GWR

模型是否比OLS模型更好地模拟数据。

其简单形式表示为:

(3)贝叶斯信息准则

1978年SehwartZ提出了贝叶斯信息准则(Bayesian Information Criterion,BIC),该准则可以使自回归模型的阶数适中,故常被用来确定回归模型中的最优阶数,2002

年Nakaya将其用于地理加权回归分析中的权函数带宽选择。BIC准则与AIC准则非常相似,只是惩罚因子不同,其公式为

式中θL为θ的极大似然估计,q为未知参数的个数,n为样本个数,使BIC最小的

模型为“最优”模型。式中可以看出,BIC准则对于具有相同未知参数个数的模型,

样本数越多,惩罚度越大,对于具有相同样本的情况,则趋于选择具有更少参数的模

型为最优。与AIC不同的是,BIC准则要求模型为Bayesian模型,即每个候选模型都

必须具有相同的先验概率,而实际上模型参数的先验分布通常是不知道的,另外如何

将BIC准则扩展到可变带宽的非参数模型,用有效参数个数来代替全局参数个数还不

是很清楚。

使用地理加权回归模型探索空间异质性的R包

使用地理用加权模型探索空间异质性的R包地理加权模型(GW model)包括的功能有:地理加权汇总统计(GW summary statistics),地理加权主成分分析(GW principal comp- onents analysis,即GW PCA),地理加权回归(GW regression),地理加权判别分析(GW discriminant analysis),其中一些功能有基本和稳健形式之分。 The GWmodel package comes with five example data sets, these are: (i) Georgia, (ii)LondonHP, (iii) USelect, (iv) DubVoter, and (v) EWHP. 运用GW model的一个重要元素就是空间加权函数,空间加权函数量化(或套)观察到的变量之间的空间关系或空间相关性。空间目标及其位置临近关系的确定。 六个核函数的介绍: Global Model(均值核函数): Gaussian(高斯核函数): Exponential: Box-car(盒状核函数):

Bi-square(二次核函数): Tri-cude(立方体和函数): 一、GW汇总统计(DubVoter) GW汇总统计(GW summary statistics)包括基本的GW 汇总统计和稳健的GW 汇总统计. 基本的GW 汇总统计包括GW 均值, GW 标准差, GW measure of skew和GW 皮尔逊相关系数. 稳健的GW 汇总统计包括GW 中位数, GW 四分位间距和GW quantile imbalance(GW不平衡分位数) GW 标准差反映一个数据的离散程度。 GW四分位数间距可反映变异程度的大小。

最新地理加权回归(-GWR)

空间计量经济学打破大多数经典统计和计量分析中相互独立的基本假设,主要解决如何在横截面数据和面板数据的回归模型中处理空间相互作用(空间自相关)和空间结构(空间不均匀性)分析的问题。空间计量经济理论认为一个地区空间单元上的某种经济地理现象或某一属性值与邻近地区空间单元上同一现象或属性值是相关的。也就是说,各区域之间的数据存在与时间序列相关相对应的空间相关。 空间计量模型所研究的空间效应包括空间自相关和空间差异性。空间相关性在空间回归模型中体现在误差项和因变量的滞后项,因此,空间计量的两个模型分别是空间自回归模型(Spatial Auto Regressive Model , SAR) 与空间误差模型(Spatial Error Model , SEM),空间自回归模型研究各变量在一个地区是否有扩散效应,空间误差模型考察邻接地区关于因变量的误差冲击对本地区观察值的影响。其表达式分别为: 其中,Y 为因变量;W 为n n ?阶的空间权重矩阵,权数系数可以根据实际情况决定,一般用邻接矩阵;Wy 为空间滞后因变量,反映了空间距离对区域行为的作用;ρ为空间自回归系数,反映相邻区域的观测值Wy 对本地区观察值y 的影响方向和程度;X 为k n ?的外生解释变量向量(包括常数项),β为变量系数,反映了自变量X 对因变量Y 的影响;ε为误差成分;λ为1?n 的因变量向量的空间误差系数,衡量了相邻地区的观察值Y 对本地区观察值Y 的影响方向和程度;γ为正态分布的随机误差向量。上述两种模型的估计如果仍采用OLS ,往往导致各种结果和推论不够完整、科学。本文采用极大似然法估计参数。常用检验准则有拟合优度R 2 和对数似然值LogL 。拟合优度和对数似然值越大,模型拟合效果越好, 对数似然值最大的模型最好。 ( 一) 空间权重矩阵的选取 空间权重矩阵 w 表征了空间单位之间的相互信赖性与关联程度。实证研究中,通常采用相邻规则与距离规则来定义空间加权矩阵。为了研究需要,本文从地理位置特征与社会经济特征两个不同角度分别建立包括相邻规则与距离规则的空间加权矩阵,以便更准确地把握房价的区域相关关系。 1. 地理位置特征加权矩阵。 本文采用两种常用的地理位置特征矩阵体现房价的空间相关关系:第一种是空间相邻加权矩阵 W1,其中的元素 wi ,j= 1表示两个地区拥有共同的边界,wi ,j= 0 表示两个地区没有共同的边界,然后对矩阵进行标准化处理。为了避免“单

地理加权回归模型介绍

第三章地理加权回归模型介绍 基本模型 在地学空间分析中,n组观测数据通常是在n个不同地理位置上获取的样本数据,全局空间回归模型就是假定回归参数与样本数据的地理位置无关,或者说在整个空间研究区域内保持稳定一致,那么在n个不同地理位置上获取的样本数据,就等同于在同一地理位置上获取的n个样本数据,其回归模型与最小二乘法回归模型相同,采用最小二乘估计得到的回归参数户既是该点的最优无偏估计,也是研究区域内所有点上的最优无偏估计。而在实际问题研究中我们经常发现回归参数在不同地理位置上往往表现为不同,也就是说回归参数随地理位置变化,这时如果仍然采用全局空间回归模型,得到的回归参数估计将是回归参数在整个研究区域内的平均值,不能反映回归参数的真实空间特征。为了解决这一问题,国外有些学者提出了空间变参数回归模型(Spatially Varying-Coeffi Cient Regression Model)(Fosterand Gorr,1986;Gorrand Olligschlaeger,1994),将数据的空间结构嵌入回归模型中,使回归参数变成观测点地理位置的函数。Fortheringham等(Brunsdonetal,1996;Fortheringham et al,1997;Brunsdon et al,1998)在空间变系数回归模型基础上利用局部光滑思想,提出了地理加权回归模型(Geographieally Weighted Regression Model-GWR)。 地理加权回归模型(GWR)是对普通线性回归模型(OLR)的扩展,将样点数据的 地理位置嵌入到回归参数之中,即: 式中:(u i ,v i )为第i个样点的坐标(如经纬度);β k (u i ,v i )是第i个样点 的第k个回归参数;ε i 是第i个样点的随机误差。为了表述方便,我们将上式简写为: 若β1β=β2β=?=βββ,则地理加权回归模型(GWR)就退变为普通线性回 归模型(OLR)。 Fotheringham et al依据“接近位置i的观察数据比那些离i位置远一些的数据 对的估计有更多的影响”(Fotheringham et al,1996)的思想,利用加权最小二乘 法来估计参数,得

地理加权回归模型介绍

第三章地理加权回归模型介绍 3.1 基本模型 在地学空间分析中,n组观测数据通常是在n个不同地理位置上获取的样本数据,全局空间回归模型就是假定回归参数与样本数据的地理位置无关,或者说在整个空间研究区域内保持稳定一致,那么在n个不同地理位置上获取的样本数据,就等同于在同一地理位置上获取的n个样本数据,其回归模型与最小二乘法回归模型相同,采用最小二乘估计得到的回归参数户既是该点的最优无偏估计,也是研究区域内所有点上的最优无偏估计。而在实际问题研究中我们经常发现回归参数在不同地理位置上往往表现为不同,也就是说回归参数随地理位置变化,这时如果仍然采用全局空间回归模型,得到的回归参数估计将是回归参数在整个研究区域内的平均值,不能反映回归参数的真实空间特征。为了解决这一问题,国外有些学者提出了空间变参数回归模型(Spatially Varying-Coeffi Cient Regression Model)(Fosterand Gorr,1986; Gorrand Olligschlaeger,1994),将数据的空间结构嵌入回归模型中,使回归参数变成观测点地理位置的函数。Fortheringham等(Brunsdonetal,1996;Fortheringham et al,1997;Brunsdon et al,1998)在空间变系数回归模型基础上利用局部光滑思想,提出了地理加权回归模型(Geographieally Weighted Regression Model-GWR)。 地理加权回归模型(GWR)是对普通线性回归模型(OLR)的扩展,将样点数据 的地理位置嵌入到回归参数之中,即: 式中:(u i,v i)为第i个样点的坐标(如经纬度);βk(u i,v i)是第i个样点的 第k个回归参数;εi是第i个样点的随机误差。为了表述方便,我们将上式简写为: 若β1k=β2k=?=βnk,则地理加权回归模型(GWR)就退变为普通线性回归模型(OLR)。 Fotheringham et al依据“接近位置i的观察数据比那些离i位置远一些的数据对的 估计有更多的影响”(Fotheringham et al,1996)的思想,利用加权最小二乘法来估计参数,得 其中:

地理加权回归模型介绍

地理加权回归模型介绍 Company Document number:WTUT-WT88Y-W8BBGB-BWYTT-19998

第三章地理加权回归模型介绍 基本模型 在地学空间分析中,n组观测数据通常是在n个不同地理位置上获取的样本数据,全局空间回归模型就是假定回归参数与样本数据的地理位置无关,或者说在整个空间研究区域内保持稳定一致,那么在n个不同地理位置上获取的样本数据,就等同于在同一地理位置上获取的n个样本数据,其回归模型与最小二乘法回归模型相同,采用最小二乘估计得到的回归参数户既是该点的最优无偏估计,也是研究区域内所有点上的最优无偏估计。而在实际问题研究中我们经常发现回归参数在不同地理位置上往往表现为不同,也就是说回归参数随地理位置变化,这时如果仍然采用全局空间回归模型,得到的回归参数估计将是回归参数在整个研究区域内的平均值,不能反映回归参数的真实空间特征。为了解决这一问题,国外有些学者提出了空间变参数回归模型(Spatially Varying-Coeffi Cient Regression Model)(Fosterand Gorr,1986;Gorrand Olligschlaeger,1994),将数据的空间结构嵌入回归模型中,使回归参数变成观测点地理位置的函数。Fortheringham等(Brunsdonetal,1996;Fortheringham et al,1997;Brunsdon et al,1998)在空间变系数回归模型基础上利用局部光滑思想,提出了地理加权回归模型(Geographieally Weighted Regression Model-GWR)。 地理加权回归模型(GWR)是对普通线性回归模型(OLR)的扩展,将样点数据的地理位置嵌入到回归参数之中,即: 式中:(u i,v i)为第i个样点的坐标(如经纬度);βk(u i,v i)是第i个样点的第k个回归参数;εi是第i个样点的随机误差。为了表述方便,我们将上式简写为:若β1k=β2k=?=βnk,则地理加权回归模型(GWR)就退变为普通线性回归模型(OLR)。 Fotheringham et al依据“接近位置i的观察数据比那些离i位置远一些的数据对的估计有更多的影响”(Fotheringham et al,1996)的思想,利用加权最小二乘法来估计参数,得 其中: β?是β的估计值,n是空间样点数,k是自变量的个数,W in是对位置i刻画模型时赋予数据点n的权重。 由于地理加权回归模型中的回归参数在每个数据采样点上都是不同的,因此其未知参数的个数为n×(P + l),远远大于观测个数n,这样就不能直接利用参数回归估计方法估计其中的未知参数,而一些非参数光滑方法为拟合该模型提供了一个可行的思路。Foste & Gorr(1986)和Gorr & Olligsehiaeger(1994)利用广义阻尼负反馈(generalized damped negative feedback)方法估计未知参数在各地理位置的值,这种估

使用地理加权回归模型探索空间异质性的R包汇编

使用地理加权回归模型探索空间异质性的 R包

使用地理用加权模型探索空间异质性的R包 地理加权模型(GW model)包括的功能有:地理加权汇总统计(GW summary statistics),地理加权主成分分析(GW principal comp- onents analysis,即GW PCA),地理加权回归(GW regression),地理加权判别分析(GW discriminant analysis),其中一些功能有基本和稳健形式之分。 The GWmodel package comes with five example data sets, these are: (i) Georgia, (ii)LondonHP, (iii) USelect, (iv) DubVoter, and (v) EWHP. 运用GW model的一个重要元素就是空间加权函数,空间加权函数量化(或套)观察到的变量之间的空间关系或空间相关性。空间目标及其位置临近关系的确定。 六个核函数的介绍: Global Model(均值核函数): Gaussian(高斯核函数): Exponential: Box-car(盒状核函数): Bi-square(二次核函数):

Tri-cude(立方体和函数): 一、GW汇总统计(DubVoter) GW汇总统计(GW summary statistics)包括基本的 GW 汇总统计和稳健的 GW 汇总统计. 基本的 GW 汇总统计包括GW 均值, GW 标准差, GW measure of skew和GW 皮尔逊相关系数. 稳健的 GW 汇总统计包括GW 中位数, GW 四分位间距和GW quantile imbalance(GW不平衡分位数) GW 标准差反映一个数据的离散程度。 GW四分位数间距可反映变异程度的大小。 由这两幅图可以看出在中部和西部四分位数间距和标准差值比较大,第一幅图比第二幅图更显著一些。

地理加权步骤

1. 数据准备 明确因变量和解释变量指标(有机碳密度是因变量,温度、降水量、粘粒含量是解释变量指标),准备好每个样点的因变量及解释变量指标数据,必须是数值。 2. 回归分析 将准备好的数据导入spss(一般可以直接在spss里面打开)做逐步回归,选择进入的指标作为解释变量,温度、降水量、粘粒含量三个指标全部进入。 图1 3. 地理加权回归 将带有因变量和解释变量数据的点shp文件导入ArcGIS。打开工具箱-空间统计工具- 空间关系建模-地理加权回归(图2)。 (1)输入要素添加shp文件; (2)因变量选择作为因变量的字段; (3)解释变量选择作为解释变量的字段; (4)选择一个放置“加权点”的位置并命名,生成的加权点包含点数据的回归系数、预测值和残差等; (5)核类型、带宽方式等如果无特殊要求,默认即可; (6)打开附加参数选项,在系数栅格工作空间中创建一个新的数据库并命名(图3),用以存储解释变量的系数栅格以及截距栅格; (7)像元大小选择合适的栅格大小(旱作区选择2000感觉还可以,可自行调试); (8)打开环境设置选项(图4),在范围处理中选择底图图层(否则默认范围为点shp,一般比研究范围要小一些)。

图2 图3 图4 操作完成后运行一段时间,时间大小与ArcGIS版本有关,运行完毕得到解释变量的系数栅格以及截距栅格(图5)。

图5 4. 裁剪 打开工具箱-数据管理工具-栅格-栅格处理-裁剪(图6)。 (1)输入需要裁剪的栅格; (2)输入底图文件(这个图就是我们最后想要得到的范围); (3)勾选“使用输入要素裁剪几何”,一定要勾选; (4)在输出栅格数据集处选择存储裁剪文件的位置并命名; (5)其他全部默认,点击确定。 图6 得到解释变量和截距的系数栅格图,分析其与有机碳密度的相关关系。

地理加权回归---理论整理

1.名词解释: 空间效应是空间计量经济学的基本特征,它是反映着空间因素的影响。空间效应可分为空间相关性和空间异质性。 (1)空间自相关性 自相关的这个“自”,表示你进行相关性观察统计量,是来源于不同对象的同一个属性,比如两学生(不同对象),同时对他们的数学成绩(统一属性)进行统计,如果他们同桌(空间邻接),而且A考得好B就考得好,A考不好B也考不好(高端相关),那么基本上就可以判定他们他们的空间自相关性很强——有考试串通作弊的行为。 (2)空间异质性(spatial heterogeneity):是指因为空间位置的不同而引发的获取到不同的数据(因为观察位置不同,而引发的不同特征)。空间异质性与空间自相关的表示方法还是有所不同的,它无法用一个具体的指数或指标来描述。更好的形容他的话,它是一种性质、一种现象,或者说是一种在我们的分析过程中需要充分考虑的因素,以及一种解释某些异常变化的原因。一般来说,空间异质性,会用来解释,在不同的区域,某些类别数值相互之间的关系产生变化的原因,揭示这个变化的规律或者原因产生积极的作用。 (3)空间差异(spatial disparity)是指不同地域范畴因为(社会、经济等)发展水平及其结构不同,而产生的差异 (4)空间非平稳性是空间异质性的一种表现形式,不能等同。因为地理位置的变化,而引起的变量间关系或结构的变化称之为“空间非平稳性”。 (5)在空间统计中,零假设指的是空间位置在一定区域里呈现完全随机(均匀)分布。

2.地理加权回归的由来 伪吃货眼里的中国地图吃货眼里的地 图 以上两图就是用全局眼光和局部眼光两个角度对中国美食的定义。一直以来,我们都在赞美全局思维,批判局部思维,比如“盲人摸象”等。但是在分析的时候,很多时候,全局的思路反而会带来各种问题,比如:寒冷的冬季,全国天气预报温馨提示:全国平均温度18℃,18℃对于人体来说应该是比较适宜、舒服的温度,但是,你在此时身在东北,这里的气温明明已经达到了零下十几度。我们不能说天气预报不准确,因为综合考虑以海南为代表的南方气温以及以哈尔滨为代表的北方气温,得到这个数字是完全正确的。所以,这种全局的思考模式在实际生活中是很难得到应用的。 从概念上来说,进行分析的时候,全局模式(global model)在分析之前,就假定了变量的关系具有同质性(homogeneity),从而掩盖了变量间关系的局部特征,所得到的结果是研究区域内的某种“平均”。 但是就像上面所举的“全国各地区气温存在差异”的例子,这种因为地理位置的变化,而引起的变量间关系或结构的变化称之为“空间非平稳性”。

地理加权回归模型介绍

地理加权回归模型介绍 Prepared on 24 November 2020

第三章地理加权回归模型介绍 基本模型 在地学空间分析中,n组观测数据通常是在n个不同地理位置上获取的样本数据,全局空间回归模型就是假定回归参数与样本数据的地理位置无关,或者说在整个空间研究区域内保持稳定一致,那么在n个不同地理位置上获取的样本数据,就等同于在同一地理位置上获取的n个样本数据,其回归模型与最小二乘法回归模型相同,采用最小二乘估计得到的回归参数户既是该点的最优无偏估计,也是研究区域内所有点上的最优无偏估计。而在实际问题研究中我们经常发现回归参数在不同地理位置上往往表现为不同,也就是说回归参数随地理位置变化,这时如果仍然采用全局空间回归模型,得到的回归参数估计将是回归参数在整个研究区域内的平均值,不能反映回归参数的真实空间特征。为了解决这一问题,国外有些学者提出了空间变参数回归模型(Spatially Varying-Coeffi Cient Regression Model)(Fosterand Gorr,1986;Gorrand Olligschlaeger,1994),将数据的空间结构嵌入回归模型中,使回归参数变成观测点地理位置的函数。Fortheringham等(Brunsdonetal,1996;Fortheringham et al,1997;Brunsdon et al,1998)在空间变系数回归模型基础上利用局部光滑思想,提出了地理加权回归模型(Geographieally Weighted Regression Model-GWR)。 地理加权回归模型(GWR)是对普通线性回归模型(OLR)的扩展,将样点数据的地理位置嵌入到回归参数之中,即: 式中:(u i,v i)为第i个样点的坐标(如经纬度);βk(u i,v i)是第i个样点的第k个回归参数;εi是第i个样点的随机误差。为了表述方便,我们将上式简写为:若β1k=β2k=?=βnk,则地理加权回归模型(GWR)就退变为普通线性回归模型(OLR)。 Fotheringham et al依据“接近位置i的观察数据比那些离i位置远一些的数据对的估计有更多的影响”(Fotheringham et al,1996)的思想,利用加权最小二乘法来估计参数,得 其中: β?是β的估计值,n是空间样点数,k是自变量的个数,W in是对位置i刻画模型时赋予数据点n的权重。 由于地理加权回归模型中的回归参数在每个数据采样点上都是不同的,因此其未知参数的个数为n×(P + l),远远大于观测个数n,这样就不能直接利用参数回归估计方法估计其中的未知参数,而一些非参数光滑方法为拟合该模型提供了一个可行的思路。Foste & Gorr(1986)和Gorr & Olligsehiaeger(1994)利用广义阻尼负反馈(generalized damped negative feedback)方法估计未知参数在各地理位置的值,这种估

地理加权回归模型介绍

地理加权回归模型介绍 LG GROUP system office room 【LGA16H-LGYY-LGUA8Q8-LGA162】

第三章地理加权回归模型介绍 基本模型 在地学空间分析中,n组观测数据通常是在n个不同地理位置上获取的样本数据,全局空间回归模型就是假定回归参数与样本数据的地理位置无关,或者说在整个空间研究区域内保持稳定一致,那么在n个不同地理位置上获取的样本数据,就等同于在同一地理位置上获取的n个样本数据,其回归模型与最小二乘法回归模型相同,采用最小二乘估计得到的回归参数户既是该点的最优无偏估计,也是研究区域内所有点上的最优无偏估计。而在实际问题研究中我们经常发现回归参数在不同地理位置上往往表现为不同,也就是说回归参数随地理位置变化,这时如果仍然采用全局空间回归模型,得到的回归参数估计将是回归参数在整个研究区域内的平均值,不能反映回归参数的真实空间特征。为了解决这一问题,国外有些学者提出了空间变参数回归模型(Spatially Varying-Coeffi Cient Regression Model)(Fosterand Gorr,1986; Gorrand Olligschlaeger,1994),将数据的空间结构嵌入回归模型中,使回归参数变成观测点地理位置的函数。Fortheringham等(Brunsdonetal,1996;Fortheringham et al,1997;Brunsdon et al,1998)在空间变系数回归模型基础上利用局部光滑思想,提出了地理加权回归模型(Geographieally Weighted Regression Model-GWR)。 地理加权回归模型(GWR)是对普通线性回归模型(OLR)的扩展,将样点数据的地理位置嵌入到回归参数之中,即: 式中:(u i ,v i )为第i个样点的坐标(如经纬度);β k (u i ,v i )是第i个样点的 第k个回归参数;ε i 是第i个样点的随机误差。为了表述方便,我们将上式简写为:若β1β=β2β=?=βββ,则地理加权回归模型(GWR)就退变为普通线性回归模型(OLR)。 Fotheringham et al依据“接近位置i的观察数据比那些离i位置远一些的数据对的估计有更多的影响”(Fotheringham et al,1996)的思想,利用加权最小二乘法来估计参数,得 其中: β?是β的估计值,n是空间样点数,k是自变量的个数,W in 是对位置i刻画模型时赋予数据点n的权重。 由于地理加权回归模型中的回归参数在每个数据采样点上都是不同的,因此其未知参数的个数为n×(P + l),远远大于观测个数n,这样就不能直接利用参数回归估计方法估计其中的未知参数,而一些非参数光滑方法为拟合该模型提供了一个可行的思路。Foste & Gorr(1986)和Gorr & Olligsehiaeger(1994)利用广义阻尼负反馈(generalized damped negative feedback)方法估计未知参数在各地理位置的值,这种

使用地理加权回归模型探索空间异质性的R包

使用地理用加权模型探索空间异质性的R 包 地理加权模型(GW model )包括的功能有:地理加权汇总统计(GW summary statistics ),地理加权主成分分析(GW principal comp- onents analysis,即GW PCA ),地理加权回归(GW regression ),地理加权判别分析(GW discriminant analysis ),其中一些功能有基本和稳健形式之分。 The GWmodelpackage comes with five example data sets, these are: (i) Georgia, (ii)LondonHP, (iii) USelect, (iv) DubVoter, and (v) EWHP. 运用GW model 的一个重要元素就是空间加权函数,空间加权函数量化(或套)观察到的变量之间的空间关系或空间相关性。空间目标及其位置临近关系的确定。 六个核函数的介绍: Global Model(均值核函数): w ij =1 Gaussian(高斯核函数):w ij =exp ?(?12(d ij b )2) Exponential:w ij =exp ?(? d ij b ) Box-car(盒状核函数):w ij = 1 if d ij

地理加权步骤

地理加权步骤 -CAL-FENGHAI-(2020YEAR-YICAI)_JINGBIAN

1. 数据准备 明确因变量和解释变量指标 (有机碳密度是因变量,温度、降水量、粘粒含量是解释变量指标),准备好每个样点的因变量及解释变量指标数据,必须是数值。 2. 回归分析 将准备好的数据导入spss(一般可以直接在spss里面打开)做逐步回归,选择进入的指标作为解释变量,温度、降水量、粘粒含量三个指标全部进入。 图1 3. 地理加权回归 将带有因变量和解释变量数据的点shp文件导入ArcGIS。打开工具箱-空间统计工具-空间关系建模-地理加权回归(图2)。 (1)输入要素添加shp文件; (2)因变量选择作为因变量的字段; (3)解释变量选择作为解释变量的字段; (4)选择一个放置“加权点”的位置并命名,生成的加权点包含点数据的回归系数、预测值和残差等; (5)核类型、带宽方式等如果无特殊要求,默认即可; (6)打开附加参数选项,在系数栅格工作空间中创建一个新的数据库并命名(图3),用以存储解释变量的系数栅格以及截距栅格; (7)像元大小选择合适的栅格大小(旱作区选择2000感觉还可以,可自行调试); (8)打开环境设置选项(图4),在范围处理中选择底图图层(否则默认范围为点shp,一般比研究范围要小一些)。

图2 图3 图4 操作完成后运行一段时间,时间大小与ArcGIS版本有关,运行完毕得到解释变量的系数栅格以及截距栅格(图5)。 图5 4. 裁剪 打开工具箱-数据管理工具-栅格-栅格处理-裁剪(图6)。 (1)输入需要裁剪的栅格; (2)输入底图文件(这个图就是我们最后想要得到的范围); (3)勾选“使用输入要素裁剪几何”,一定要勾选; (4)在输出栅格数据集处选择存储裁剪文件的位置并命名; (5)其他全部默认,点击确定。

地理加权步骤

地理加权步週OYEAR-YICAIEJINGBIAN

1.数据准备 明确因变量和解释变量指标(有机碳密度是因变量,温度、降水量、粘粒含量是解释变量指标),准备好每个样点的因变量及解释变量指标数据,必须是数值。 2.回归分析 将准备好的数据导入SPSS (—般可以直接在SPSS里面打开)做逐步回归,选择进入的指标作为解释变量,温度、降水量、粘粒含量三个指标全部进入。 t Sig. G标淮谏差试用版 1 (常列 a z ave 1 121 148 072 .015.444 16.458 9.904 .000 .000 2 (常呈) 平均气温1.706 132 .129 015 008 .397 -.239 13.249 8.97B -541 B .000 000 000 3 a^_ave 平 沟气温 'm 1 506 125 ?057 001 149 015 009 000 .375 -.307 .131 10.124 8.391 ? 6.034 2.621 000 000 009图1 3?地理加权回归 将带有因变量和解释变量数据的点Shp文件导入ArcGIS o打开工具箱■空间统计工具■空间关系建模■地理加权回归(图2)。 (1)输入要素添加shp文件; (2)因变量选择作为因变量的字段; (3)解释变量选择作为解释变量的字段; (4)选择一个放置“加权点”的位置并命名,生成的加权点包含点数据的回归系数、预测值和残差等; (5)核类型、带宽方式等如果无特殊要求,默认即可; (6)打开附加参数选项,在系数栅格工作空间中创建一个新的数据库并命名(图3),用以存储解释变量的系数栅格以及截距栅格; (7)像元大小选择合适的栅格大小(旱作区选择2000感觉还可以,可自行调试); (8)打开环境设置选项(图4),在范围处理中选择底图图层(否则默认 范围为点shp, 一般比研究范围要小一些)。

地理加权回归-空间分析

地理加权回归-空间分析 1.1 地理加权回归 空间回归模型中的回归系数β不随空间位置而变化,因此空间回归模型是全局模型。但是由于空间异质性和空间非平稳性,不同空间子区域中自变量和因变量的关系很可能不同,因此就需要处理空间异质性的局部空间回归方法,因此就有了地理加权回归模型(Geographically Weighted Regression, GWR )的提出。地理加权回归同时考虑了空间的相关性与异质性。 地理加权回归模型一般形式如下: ()()()()01122,,,,i i i i i i i i i p i i ip i y u v u v x u v x u v x ββββε=+++?++ 1,2i n =?,,;1,2,j p =?, 其中,i y 与12,,,i i ip x x x ?是因变量y 与自变量12,,,i i ip x x x ?在(,)i i u v 处的观测值,(,)i i u v 为第i 个采样点的坐标,(),k i i u v β是第i 个采样点上的第k 个回归参数,点i 被称为回归点。()2ε~0,i N σ,当i j ≠时,(),0i j Cov εε=。简便记为: 01p i i ik ik i k y x ββε==++∑ 1,2,,i n =? 地理加权回归会得出n 个回归方程,对应每个回归点i ,都会有一个回归方程。若12k k nk βββ==?=,则地理加权回归模型退化为普通线性回归模型。 模型回归参数需要通过局部加权最小二乘进行估计。假设在位置(,)i i u v 的权 重为(,)j i i w u v ,(1 ,2,,j n =),那么位置(,)i i u v 的参数估计为使()()()211221(,)n i j i i i i i i i i i p i i i p j w u v y u v x u v x u v x βββ=??-+-+-?-+??∑达到 最小的β值。 上式中的ij w 为权函数,反映其他观测点的样本对回归点的影响。权函数值 越大,影响越大。该值通常由对应两点之间的距离决定。常用的权函数有:

相关主题