泊松回归模型的统计分析及其诊断。文献综述

 2022-11-10 11:11
{title}{title}

文献综述

摘要:泊松回归模型是当今统计学的研究热点,在非寿险行业有着较为广泛的应用,如今人们的可支配资金增加,人们将眼光放到股票,保险等相关理财产品的身上,而泊松模型可用于非寿线如汽车保险,医疗保险等相关保险的研究与应用,本文对泊松模型进行相关的简单介绍,以及它在相关领域的部分应用与研究。

关键词:广义线性模型,泊松回归模型,汽车保险定价

  1. 广义线性模型(GLM)理论简介

在经典线性模型中,假设响应变量的均值等于解释变量的线性组合, 且响应变量服从正态分布GLM最大的特点是扩充了分布的类型,且假设响应变量的均值经过某连接函数变换后,等于解释变量的线性组合。可将GLM概括为下式:

其中,...,是待估计的参数,{,i=1,...,n}相互独立且服从指数型分布(EDF)。

常见的分布, 如正态分布、伽玛分布、逆高斯分布、泊松分布、二项分布等均是指数型分布。根据这些常见分布, 可以通过两种基本方式构造不同的指数型分布, 即对原随机变量乘以一个常数alpha;或使用Esscher变换、kass,Goovaert等人详细地分析过这两种方法Jorgensen更加细致地讨论了指数型分布的有关性质

保险数据总是表现出长尾性和高峰性, 因此经典线性模型并不能有效地拟合保险数据。而GLM提供的某些分布类型能更好地适应保险数据。如果不再采用更为复杂的模型,GLM 就是一个合理的选择。相比传统的定价方法.GLM 可以提供一个完整的统计分析框架, 此时传统的假设检验、置信区间等都可以解决。更为重要的是,GLM 能够同时考虑更多的定价因素,解决传统定价方法可能忽视变量间相互作用的弊端。

  1. 泊松回归模型

假设有n类保单,随机变量Yi为第i类保单的索赔次数,服从参数的泊松分布,概率函数为

泊松分布的均值和方差相等,都等于索赔概率,即,在式(1)中,假设第i份保单的期望索赔概率可以表示为

其中是px1向量,表示第i类保单在其p个费率因子上的取值,常见的费率因子和包括驾驶人年龄,性别,婚姻状况,驾驶车型,车辆行驶区域等,beta;为px1维参数向量,即

将(2)带入(1)后取对数即可得到泊松回归的对数似然函数为

上式对参数求偏导并令其等于零可以得到下述方程组

求解上述方程组即可得到参数的估计值

通常情况下人们决定非寿险这类产品的分类费率的厘,会经常采用到单项分析法,最小偏差发以及多元线性回归等相关方法,这些方法在人们长时间的采用下,在非寿险产品定价方法的里面占到了相关的部分,但是人们也意识到这些,这些方法在保险数据的特殊性下,有着相当的缺陷

1 传统定价方法的局限性

  1. 单项分析法

单项分析法根据字面意思我们都能猜到他是根据每一个费率因子分别对保险产品的价格的影响来定价的,所以它没有考虑到每个费率因子之间的关系,容易造成我们对保险定价的错误定价

  1. 最小偏差法

最小偏差法是在19世纪60年代发展起来的一种分类费率厘定方法,该方法通过一个方程组建立损失数据和各个费率因子之间的关系,并通过迭代法求解未知参数的最优解。与单项分析法相比,最小偏差法有了很大进步,但最优解一旦确定以后,最小偏差法并不能提供一种统计方法对特定费率因子的显著性进行检验,也不能确定参数估计的置信区间。因此,最小偏差法的主要缺陷是缺乏一个完整的统计分析框架对建模结果进行评价

3.多元线性回归模型在非寿险分类费率的厘定中有很广泛的应用,但其严格的假调条件在非寿险中通常难以得到满足;

首先,要求因变量服从正态分布在很多情况下是不现实的,譬如索赔频率和续保率等通常不会服从正态分布。

其次,非寿险的因变量(如索赔频率和次均赔款等)通常是非负的,而正态分布的假设显然不能满足这一要求。

第三,如果因变量是严格非负的,那么从直观上看,当因变量的均值趋于零时,其方差也应该趋于零,即因变量的方差应该是其均值的函数。但在多元线性回归模型中,假设因变量的方差是固定的常数,与均值没有任何关系。

第四,在多元线性回归模型中,假设费率因子通过加法关系对因变量产生影响,但在很多

情况下,费率因子之间可能是一种乘法关系,而非加法关系。

汽车保险中的应用

在进行广义线性模型分析之前,我们首先用传统的多元线性回归模型对索赔频率和次均赔款数据进行了拟合,自变量是年行驶里程数、车型、行驶地区和无赔款折扣等级。结果表明,对索赔频率和次均赔款的拟合结果出现了负值,这显然是不合常理的。如果采用典型的广义线性模型,假设索赔频率服从泊松分布,选择对数联结函数,用保单年数加权;假设次均赔款服从伽玛分布,选择对数联结函数,并用索赔次数加权,则调用SAS/GENMOD对索赔频率,次均赔款和纯保费的拟合如果在拟合索赔频率时,使用正态分布假设和对数联结函数,在拟合次均赔款时,使用逆高斯假设和对数联结函数,则模型的整体拟合效果可以得到优化。

应用广义线性模型需要充足的经验数据。一般而言,对于个人保险业务, 10万以上的风险单位数才算是充足的。此外,最好有两到三年的经验数据,而不是一年的数据,因为基于一年的数据建模容易受到异常事件的影响。把不同地区的数结合在一起建模也会改进模型的稳定性。但是,当一个地区的数据相当充足时,应该为该地区独立建模。如果数据的获取没有问题,对不同类型的损失经验数据应该分别建模。譬如,对汽车第三者责任保险数据和失窃数据分别建模,可以更加清晰地判定各种保险事故的真正影响因素。在许多实际问题中,最后可能需要建立一个综合性模型,但在前期的分析中分别建模也是非常必要的。

参考文献

[1].陈希儒,王松桂:近代回归分析。安徽教育出版社,1987。

[2].张尧庭,陈汉峰,贝叶斯统计推断,科学出版社,1991。

[3].茆诗松,贝叶斯统计,中国统计出版社,北京。

[4].方开泰,全辉,陈庆云:实用回归分析。科学出版社,1988。

[5].方开泰,许建伦:统计分布。科学出版社,1988。

[6].吴喜之,现代贝叶斯统计学,中国统计出版社,北京。1999

[7].倪国熙:常用的矩阵理论和方法。上海科技出版社,1986。

[8].王松桂:线性模型的理论及其应用。安徽教育出版社,1987。

[9].王松桂:回归诊断发展综述。《应用概率统计》4,310—321,1988。

[10].韦博成:近代非线性回归分析。东南大学出版社,1989。

[11].张连增,吕定海 广义线性模型在非寿险费率分析中的应用 数理统计与管理 2013 VOL32 NO.5

[12].孟生旺 广义线性模型在汽车保险定价中的应用数理统计与管理 2007 Vol.26. No.1

[13]. Weisburg,S:《Applied linear regression》 New York Wiley.

[14]. 徐昕,袁卫,孟生旺.负二项回归模型的推广及其在分类费率厘定中的应用[J].数理统计与管理,2010,29(4);656-661.

[15]. 钟顿,孟生旺.基于伽玛与对数正态分布假设下的广义线性模型的比较和应用[ [J].数理统计与管理,2010,29(3);430-436.

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。