影响指数基金规模的因素分析

下载App看作者更多精选好文

报告摘要:

• 影响指数产品规模的因子及分类
对指数产品规模可能产生影响的因子可分为三类:不变因子,长期因 子,短期因子。不变因子代表基金产品的固有属性,不会随着


 
2、  离群样本的处理
在收集数据的过程中,常会存在离群的样本,所谓离群指的是该样本的取值与 大多数样本的取值偏差较大,容易对统计结果造成偏差,所以需要在建模之前识别 出离群样本,并把它们删除。由于研究的是影响基金规模的因素,这里主要考虑因 变量的离群情况。通过统计,规模大于75亿的基金共有9只,而且它们的规模比其他 指数基金至少多了一个数量级。进一步考察这9只超大规模的基金,如表7所示,可 以发现,它们对应的一些因子的取值有很大的相似性,比如它们都是ETF,都包含 了联接基金,产品成立时间都较长等。如果把这些基金样本纳入我们的模型中,很 可能会过分放大了一些因子的影响,反而掩盖了另一些因子的重要性,影响分析过 程的准确度和稳定性,所以我们把这9个离群样本从原数据中删除。
 

3、数据标准化
由于不同因子的计量单位不同,它们的取值会有很大的差异,从而会对模型的 求解带来不稳定性,所以预处理的最后一步还需要分别对每一个数值型的因子进行 标准化处理。标准化的计算方法如下:其中Si为标准化后的取值,X;为因子原始取值。
 
  • 模型建立
 
1、线性回归模型
考虑到模型的解释性以及求解的简便性我们的归因分析方法选用了线性模型, 包括逐步回归模型以及最小角回归模型,两者都基于线性回归模型。首先我们给出 线性回归模型的定义:
 

 
 
由于在估计中涉及到矩阵求逆的问题,当样本量相对于因子数量较少或者是因子之间存在共线性现象时,矩阵可能会不可逆或者求逆的结果不稳定,这时线性回归方法将不再适用。逐步回归模型以及最小角回归模型作为线性回归模型的推广,可以解决上面提到的共线性问题,同时也能从相关性的角度对因子进行排序,结合这两者的特点从而选出重要的因子。
 
2、逐步回归模型
逐步回归模型是从一个空模型开始,每一步选择一个因子添加到原有模型中, 然后拟合一个线性回归模型。这里涉及到两个关键的问题:第一,每一步中要如何 选择添加进去的因子;第二,什么时候停止往模型添加因子。第一个问题与因子的 重要性顺序有关,越早添加进去的因子重要性越高。第二个问题与筛选因子有关, 最终所有被添加到模型的因子即为我们需要的重要因子。为了解决这两个问题,需 要定义一个用于度量模型的优劣程度的评价指标,那么添加因子的原则就是要使得 模型在这个指标下获得最大幅度的改进,当没有因子能使模型获得改进时,则停止 添加因子。
 
 
其中RSS为拟合的残差平方和,k为模型中的因子数量,n为样本量。两个指标的耳又 值越小,代表模型越好。可以看到,对于同一个模型,当样本量n足够大的时候,BIC 的取值会比AIC的取值大,而且一般来说用BIC作为评价指标往往会选择更简单的模 型(即选出的因子数量很少),这不利于我们发现更多潜在的影响因子。所以我们 在建模过程中将会使用AIC作为模型评价指标。那么逐步回归的过程如下:
 
(1 )从一个空模型开始(即模型不包含任何因子);
(2)   在未添加进模型的因子中搜索,找到一个能使AIC取值下降最多的因子,然后 把它添加进模型;
(3)   重复这个过程,直到找不到任何能使AIC下降的因子,算法结束,得到最终的模型。
 
我们可以从一个更直观的角度来解释这个模型。首先,第一个被选择的因子是 识别风险,发现价值与因变量相关性最高的因子,相关性高表示该因子对因变量的解释能力强。然后把 因变量以及其它因子都分别对该因子做简单线性回归,得到各自的残差,并把它们 当作新的因变量以及新的因子。取残差的目的是去掉第一个因子所包含的信息,独 立考虑其它因子对因变量的解释能力。接下来,第二个选择的因子是与新的因变量 相关性最高的因子,然后同样做简单线性回归,更新得到下一步的因变量与因子。 一直重复这个过程,直到剩余的因子对因变量的解释能力变得很弱,则停止筛选过 程,得到最终模型。可以看到,逐步回归模型选择因子的基准其实是相关性,按照 对因变量解释能力的强弱逐步选出重要的因子。
下载App看作者更多精选好文

相关推荐