上面六个因子为代表基金恒定属性的不变因子。第二类影响规模的因子是长期 因子。长期因子的变化是随着时间的推移逐渐累积的,对基金规模的影响体现为长 期效应,这类因子共五个:产品成立时间,基金经理从业年限,基金公司布局指数 产品时间,基金公司指数产品数量,基金公司非指数权益规模(体现公司平台)。
首先影响规模的是指数基金成立时间。对一个成长性良好的产品,其规模整体 上应该随着时间的推移而变大,所以产品成立时间很可能会对基金的规模产生正向 影响。我们观察到目前规模排在前五位的指数基金,成立时间都在5年以上,规模排 在全市场第一位的华夏上证50ETF更是已经成立超过13年。
基金经理的从业时间较长,会形成一定的客户积累,管理规模也可能更大。我 们对样本中指数基金的情况进行了统计,从图8的回归结果可以看出,这两者之间确 实存在一定的正相关关系。当然,基金经理从业年限也可能和指数产品成立时间这 个因子存在较强相关性,在后面的多元回归中我们会进一步处理因子共线性的问题。
一个基金公司越早开始布局指数基金,指数产品的数量越多,在市场先发和客 户积累方面都具有更大优势,对应的产品规模往往会越大。这种正相关关系也反映 在图9的回归结果当中。
基金公司剔除指数后的权益规模,从侧面反应公司总体权益规模与客户体量, 可能与指数规模具有很强的正相关关系,是公司平台大小的一种体现。
上述长期因子和不变因子共同对基金长期规模的累积产生影响。而短期因子每 期变化较大,不具备累积效应,它们对基金规模的短期的变化具有较大影响。短期 因子包括产品业绩、当期销售费用。
产品业绩表现是一类常用的短期因子,我们本希望分别关注产品短期业绩和长 期业绩的情况,但由于成立满三年的产品对于后续回归模型来说数量太少,因此这 里只考虑样本最近1年的收益率、最大回撤以及信息比率3个因子。
另一个短期因子是销售能力,对于基金公司销售能力最直接的指标是在基金公 司年报与半年报中披露的客户维护费和销售服务费(合计基金营销费用),它直接 反映了基金公司的营销力度,也从侧面反映出公司可能在指数产品营销方面的投入。
至此,我们首先简单分析了可能对指数基金规模具有重要影响的一些因素。表6 总结了上述15个候选因子的定义以及它们的取值类型。
三、指数产品长期规模归因分析:从截面数据维度
- 数据收集
在前述样本中,满足条件的共204只被动产品,有些包含联接基金,有的包含C 类基金,我们对这些实际上是同类产品的规模数据进行了合并处理,最终把所有提 取的数据汇总到一起,得到了一张204*12的数据表,204为样本量,12为因子自变 量(11个)加上因变量(基金规模)。这里因子数据和规模数据全部取2018年6月 30日基金公司半年报发布时的截面数据。
- 数据预处理
因子的数据类型有实数型、整数型和分类型三种,对于实数型和整数型数据, 把它们并成为数值型数据,其特点是它们所取的数值有确切的含义,而且同一个因 子的不同数值间是可比较的。而对于分类型数据,数据记录的形式可能是数值或者 字符串,不同的记号只是为了区分不同的类别,不同类别之间是不存在大小关系的。 然而数学模型只能处理数值型的数据所以在建模之前需要对分类型数据进行编码。 经典的编码方式为One-Hot编码,也称为哑变量转换,具体方法如下:对于一个有N 钟不同取值的分类型因子,我们用N个取值为0或1的衍生因子来取代原始因子,N个 衍生因子中只有一个取值为1,其余取值为0,所以N个衍生因子整体的取值一共有N 种不同情况,分别代表N个类别。以指数类型为例,取值一共有Smart Beta,行业指 数和宽基指数三类,所以编码的时候就产生三个衍生因子,(0,0,1)表示Smart Beta, (0,1,0)表示行业指数,(1,0,0)表示宽基指数。需要注意一个问题,对于任意一个原 始因子,其对应的全部衍生因子取值的和为1,说明衍生因子之间存在线性依赖关系, 也就是共线性现象,所以我们还需要在编码完成之后,随机选择一个衍生变量做删 除处理同样以指数类型为例,我们删除第一个衍生变量,即用(0,1)表示Smart Beta (1,0)表示行业指数,(0,0)表示宽基指数。通过编码的操作,我们就把数据全部转换 成了数值类型。