关于波士顿住房数据的统计建模分析文献综述

 2022-11-14 05:11
{title}{title}

文 献 综 述

一丶研究背景

Harrison and Rubinfeld (1978)年研究了波士顿房价数据,一共有506 个家庭住房数据,包含了14 个变量,涉及到位置信息和居住人群等变量信息。至今,关于波士顿房价数据的研究已经有了很多,许多学者应用了多种线性,参数,非参数和半参数模型对波士顿房价进行回归分析,从波士顿房价数据中挖掘出越来越多的隐含信息。在各种不同的模型中,如可加模型,变系数模型,半参数变系数模型,非参数模型和空间模型等等,到底哪一种统计模型更适合此数据集,哪一种模型更有效并更精确地解释波士顿房价数据,关于分析此类数据模型选择的问题在众多研究中很少考虑。模型选择方法有很多,常见的有交叉验证法,自助法和基于AIC准则和BIC准则的方法。但是,在众多关于模型选择的研究中关于此类数据的分析和如何找到最适合此类数据的统计模型考虑的很少。

二丶研究现状

Harrison and Rubinfeld(1978)最早采用hedonic定价法将所有自变量及其变换形式对应变量做标准线性回归,研究波士顿房价是否受环境污染(空气质量)的影响,结果显示有些参数估计并不显著。Belsley,Kuh and Welsch(1980)通过多种变换对波士顿房价的Hedonic模型进行稳健性估计,解决了Hedonic模型误差项分布呈厚尾型而不是Gaussian分布估计方法的缺陷。Qingguo Tang(2013)采用变系数部分线性回归模型,提出了一种估计未知参数和系数函数(coefficient functions)的方法来定量分析房价与影响价格因素之间的关系。此方法的结果与Harrison and Rubinfeld得到的结果一致,给出了一种新的方法分析波士顿房价数据,也可以用分析其他地区的住宅价格和影响该地区住房价格因素之间的关系。但是并没有与其他模型进行比较以显示其是更适合此类数据的统计模型。在已经提出的许多空间住房定价模型中,房价变动的潜在边际效应尚不清楚。Prodosh Simlai(2013)调查了空间计量经济学环境下的房价波动,提出了一个扩展的房地产市场空间回归模型,包含了条件异方差和空间自相关的影响。利用空间条件异方差(SARCH)模型分析了波士顿房价数据。SARCH模型捕捉了波士顿房价的条件空间变异性,可以解释房价的变动模

异方差模型(SARCH)能够捕捉波士顿房价数据的条件空间变异性和解释房价的变动模式,同时可以解决残差自相关和非正态性等常见问题。这对于未来在高阶空间矩和由外部变量与干扰之间相互作用引起的异方差也有重要意义。Jia Sheng and Dongdong pan (2016)提出了增强回归树的方法来分析此数据。增强回归树是近年来机器学习领域备受关注和推崇的一种非参数建模分析方法,具有建模效率高,模型易解读等优势。增强回归树的基本思想是对不断调整的训练数据重复应用回归树算法,得到一列回归树进行加权平均得到一个最终回归树。增强法通过对回归树加权平均,显著降低了树的方差,从而大幅度提高了预测的准确性。

在模型选择方面,从重复抽样与预测稳定性角度上,Bradley Efron(1979) 提出了自助法(bootstrap)在统计中得到大量应用。Ron Kohavi(1995)提出了交叉验证法(CV)并用交叉验证法和自助法进行模型选择和准确性评估。交叉验证法是最自然的重复抽样法,但其是一种密集计算型方法,需要计算多次估计,因此做一次模型选择可能需要花费不少时间。在使用交叉验证法(CV)来选择高维问题中的正则化参数时,应用稀疏建模方法LASSO时,交叉验证法会导致高维模型不稳定,因此不能得到合适的解释。而Bin Yu(2015)提出了一个基于显得估计稳定(ES)度量和交叉验证法(CV)的无模型标准ESCV,ESCV是比CV选择小的局部ES最优模型,符合数据并且也具有估计稳定性。Bin Yu证明了ESCV能够有效的代替CV,在通过将这两种方法应用到实际数据集进行比较发现,对于实际中常见的预测指标,ESCV常常能大幅度降低误报率,而牺牲真正的阳性率。对于参数估计,ESCV常常优于CV并且在预测方面与CV具有相似的作用。

从似然与模型复杂度角度,常见模型选择标准Akaike信息标准(AIC)和贝叶斯信息标准(BIC)。Adrian E. Raftery(1995)在社会学的研究中解释了如何用贝叶斯模型选择来解释模型的不确定性以及选择一个单一的“最佳”模型,推导了可用于社会学研究中使用的特定模型的BIC近似和等效表达式。KP Burnham and DR Anderson(2002)和 Kenneth P. burnham(2004)都强调从多个模型(多模型推理)进行形式推理有关的概念。认为数据分析应该在多模型推断的背景下考虑。从一个以上的模型当中按照科学背景(多重工作假设)和统计背景(强有力的推理,同时做出最小的假设)产生估计最好的模型的形式。Ming Yuan and Yi Lin(2006)研究了在回归中选择分组变量进行精确预测的问题,提出了有效的算法来扩展这些因子选择方法。Kenneth P. burnham(2004)认为数据分析应该在多模型推断的背景下考虑。从一个以上的模型当中按照科学背景(多重工作假设)和统计背景(强有力的推理,同时做出最小的假设)产生估计最好的模型的形式。Jianqing FAN and Runze Li(2010)提出了非凹惩罚似然方法来处理高维统计建模过程中许多方法计算可能很复杂并且常常忽略变量选择过程中的随机错误的问题,所提出的方法同时选择变量和估计系数,此方法模拟显示其与其他变量选择技术相比有优势。

综上所述的文献国内外关于波士顿房价数据的研究在如何确定适合此类数据集最佳模型上考虑很少。模型选择方法和标准也有很多,而在众多模型选择的研究中很少考虑关于分析此类数据的模型选择问题。

三丶参考文献

[1] Glaeser E L, Schuetz J, Ward B. Regulation and the Rise of Housing Prices in Greater Boston A study based on new data from 187 communities in eastern Massachusetts[J]. Genome Biology, 2006, 8(10):1-10.

[2] Simlai P. Estimation of variance of housing prices using spatial conditional heteroskedasticity (SARCH) model with an application to Boston housing price data[J]. Quarterly Review of Economics amp; Finance, 2014, 54(1):17-30.

[3] 佳 盛. Factor Analysis of Housing Price Based on Boosting Regression Tree—Taking Boston as an Example[J]. 2016, 05(3):299-304.

[4] Kurniawan R. Data Preprocessing: Case Study On Housing Values In Suburbs Of Boston[J]. 2013.

[5] spikeslab. Boston Housing Interaction Data[J].

[6] Tang Q. Analysis for the Factors Impacting on Housing Price[J]. International Journal of Advances in Management Science, 2013, 2(4):180-182.

[7] Schafer R. Racial discrimination in the Boston housing market[J]. Journal of Urban Economics, 1979, 6(2):176-196.

[8] Burnham K P, Anderson D R. Model Selection and Multimodel Inference[J]. Journal of Wildlife Management, 2002, 67(3):175-196.

[9] Burnham K P, Anderson D R. Model Selection and Inference. A Practical Information-Theoric Approach[J]. Journal of Wildlife Management, 2002, 67(3):175-196.

[10] Kohavi R. A study of cross-validation and bootstrap for accuracy estimation and model selection[C]// International Joint Conference on Artificial Intelligence. Morgan Kaufmann Publishers Inc. 1995:1137-1143.

[11] Johnson J B, Omland K S. Model selection in ecology and evolution[J]. Trends in Ecology amp; Evolution, 2004, 19(2):101-8.

[12] Yuan M, Lin Y. Model Selection and Estimation in Regression with Grouped Variables[J]. Journal of the Royal Statistical Society, 2006, 68(1):49-67.

[13] Burnham K P, Anderson D R. Multimodel Inference Understanding AIC and BIC in Model Selection[J]. Sociological Methods amp; Research, 2004, 33(33):261-304.

[14] Raftery A E. Bayesian Model Selection in Social Research[J]. Sociological Methodology, 1995, 25(25):111-163.

[15].Burnham K P. Understanding AIC and BIC in model selection[J]. 2004, 33(2).

[16]Fan J,Li R.Variable selection via nonconcave penalized likelihood and its oracle properties.J.Amer.Statist. Assoc. 2001; 96:1348–1360. .

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。