基于贝叶斯框架的协方差矩阵估计模型研究
Research on Covariance Matrix Estimation Model Based on a Bayesian Framework
摘要: 为了更好地估计股票收益协方差矩阵,提出了一种新的基于贝叶斯框架的协方差矩阵估计模型。该模型将Black-Litterman思想推广到协方差矩阵的估计中,通过挖掘金融文本信息构建投资者情绪指标,运用随机森林回归方法生成投资者主观观点矩阵。在传统协方差矩阵估计模型中加入投资者观点的先验信息,结合市场历史经验数据给出协方差矩阵的先验分布。利用贝叶斯方法得到协方差矩阵的最大后验形式,同时考虑协方差矩阵实值矩阵中存在的非负结构,提出了一种联合考虑投资者信息与非负结构的协方差矩阵估计的最大后验模型。运用投影梯度法求解该模型,并通过对比实验,从模拟数据与实际市场数据两部分验证了算法的有效性和模型的优越性。
Abstract: To enhance the estimation of the covariance matrix for stock returns, a new estimation model based on a Bayesian framework is presented. This model extends the idea of the Black-Litterman approach to estimate the covariance matrix. It builds investor sentiment indicators by mining financial text information and forms an investor subjective view matrix using the random forest regression method. The prior information of investors’ views is incorporated into the traditional covariance matrix estimation model, and the prior distribution of the covariance matrix is obtained by combining historical market data. The Bayesian method is utilized to obtain themaximum posterior form of the covariance matrix, while also considering the non-negative structure inherent in the real-valued matrix of the covariance matrix. The projected gradient method is employed to solve the model, and the effectiveness of the algorithm and the superiority of the model are verified on simulated data and real market data.
文章引用:余晨. 基于贝叶斯框架的协方差矩阵估计模型研究[J]. 运筹与模糊学, 2024, 14(2): 1276-1295. https://doi.org/10.12677/orf.2024.142225

1. 引言

1.1. 背景介绍

自21世纪以来,我国资本市场飞速发展,可供投资的品种也日益增多,A股市场的上市公司从2010年初不到2000家增长到了现在的4000多家。随着数据可获得性的提高,金融数据的维度呈爆炸式增长。在金融领域中,投资组合配置的选择是投资者考虑最多的一点,也是投资者追求收益最大化、风险最小的主要体现。信息爆炸时代的到来让金融资产数据更易获得,所以投资者可以考虑投资更多的金融资产,以分散风险。协方差矩阵在投资组合和风险管理中扮演着重要角色,如何有效估计高维金融数据的协方差阵已是统计领域中重要的研究课题。假设考虑市场上的n项资产,这些资产的收益为随机向量

r = ( r 1 , r 2 , , r m ) T ,其均值为 μ ,协方差矩阵为 Σ 。常用的协方差矩阵估计方法是便是采用样本协方差矩阵(SCM)作为协方差矩阵的估计量,即用 S = 1 m i = 1 m ( r i μ ) ( r i μ ) T 估计 Σ 。事实上,假设数据样本服从多元正态分布,则样本协方差矩阵是其最大似然估计(MLE)问题的最优解,即:

min Σ 0 log det ( Σ ) + tr ( Σ 1 S ) . (1.1)

然而,Ledoit [1] 发现样本协方差矩阵通常会产生较大的估计误差,特别是当样本数量(m)与变量数量(n)相差不大时。例如,金融市场上可能存在数千种资产,而每年只能记录252个历史每日价格。随着大数据时代的来临,现代金融市场不断完善,投资机构已着手高维资产配置从而实现风险分散。

1.2. 相关工作

改善协方差矩阵估计性能通常通过将先验信息纳入估计过程来实现。协方差矩阵估计的先验信息可以有多种形式,Khamaru和Mazumder [2] 引入低秩因子分析结构,其中观测到的数据被假定为由有限数量的公共因子线性驱动 [3] [4] 。Meucci [5] 提出一种全观点模型,利用贝叶斯方法,通过结合先验分布和最大似然分布得到的后验分布来确定参数的点估计。在许多实际情况下,投资者对投资组合的协方差往往有强烈的主观意见,他们想用这些意见信息来确定他们的最优投资组合。根据这个想法Black和Litterman [6] 于90年代初在高盛工作时开发了Black-Litterman资产配置模型(以下简称BL模型)来通过结合投资者观点预测期望收益。BL模型是一种完全不同的结合投资者意见和市场信息的方法,它将均值–方差模型和贝叶斯理论结合起来,首先对预期资产收益的向量进行了分布假设,然后将投资者对于风险资产的主观观点与先验的市场均衡收益相结合,并结合了主观观点的信心水平,通过贝叶斯方法得到预期收益的估计,最后将这个预期收益替代均值–方差模型中的期望收益率,求解优化问题得到最终的风险资产权重。在此之后Scowcroft [7] 使用先验收益率和观点收益率的点估计,引入随机参数τ。Idzorek [8] 将置信程度的概念引入BL模型,提出了一种不同于He与Litterman [9] 的主观观点收益率协方差矩阵的估计方法,即使用主观置信水平估计,适用于非量化投资者。Meucci [10] 对模型作了进一步拓展,将多种联结函数与BL模型结合,使得资产收益率先验分布的假设更加广泛,能够更加契合资本市场在不同条件下的真实情况。Harris [11] 等推广了BL模型,引入一种动态的方法,将时间变化纳入资产配置过程的收益率条件分布。BL模型已经被广泛使用了几十年,但研究始终围绕对收益均值的估计展开,受BL模型的启发Andrei和Hsu [12] 年在论文中进一步对协方差矩阵添加了典型的逆Wishart先验,另外Leonard和Hsu [13] 也提出了在协方差矩阵的对数上添加一个先验的思想。本文在这些研究的基础上考虑在协方差矩阵的估计中加入综合市场信息与投资者观点的先验信息。

但如何准确度量投资者观点始终是国内外众多学者关心的问题。国内外研究者基于投资者情绪的概念逐步在实证研究中构建投资者情绪的度量指标,较早的方法是基于主观调查的直接度量和基于客观金融市场的间接度量,密歇根大学消费者信心指数ICS就是典型的调查法。Baker和Wurgler [14] 采用主成分因子分析法合成一个单一的总体情绪变量。此外采用一个或多个代理变量作为衡量情绪的指标,构建单一性指标或综合性指标是较为常用的度量投资者观点的方法。学者们根据所研究内容的不同,选取不同的符合情绪指数的源指标(Kurov [15] ;Baker [16] ;向诚、陆静 [17] ),常见的客观度量指标有交易量(Gervais [18] )、股利溢价(Baker和Wurgler [19] )、散户投资者交易数据(Kumar和Lee [20] )、首次公开募股回报率和交易量(Ljungqvist [21] )等。在信息时代,大部分投资者们都在网络上开展金融交易,从互联网中获取自己感兴趣的财经新闻、公司披露信息等资讯,在网络公共平台中讨论自己感兴趣的话题,因此金融文本信息也是重要的投资者情绪指标。Garcia [22] 从纽约时报中提取出正向词和负向词词典,研究了新闻媒体中蕴含的情绪对资产价格的影响。Mahmoudi [23] 等利用深度学习技术处理StockTwits上的文本数据,证明了深度学习技术能显著地改善投资者情绪分类表现。Nguyen [24] 等利用提取得到的社交媒体情绪信息构建了一个基于支持向量机预测股价走势的模型。这些投资者观点度量技术都应用于预测收益向量,本文在此基础上推广到协方差矩阵的预测中,考虑将主观投资者观点指标与客观投资者观点指标相结合,运用随机森林回归模型来预测协方差矩阵并以此作为投资者主观预期观点加入到协方差矩阵的估计模型中。

协方差矩阵除了包含先验信息外,在实际数据中它也通常表现出非负结构,这意味着这些股票收益之间是正相关的,原因是在金融市场中,资产的收益通常遵循共同的趋势。Palomar在文献 [25] 中给出了资产收益非负相关的经验证据。这种非负形式与另一种特殊的2阶全正多元结构(MTP2)有关,MTP2近年来在统计学中被广泛研究,具有这种性质的分布具有许多计算优势 [26] 。Bertsimas [27] 在一般的图形模型和条件独立的背景下研究了MTP2性质,证明了MTP2分布具有理想的马尔可夫性质。Lauritzen,Uhler和Zwiernik [28] 证明带有多元全正二阶高斯分布约束的极大似然估计问题存在最优解,并提出了计算此问题的坐标下降算法,该算法具有全局收敛性质。因此本文在提出协方差矩阵的估计模型时结合了对其结构上的非负假定。

1.3. 贡献及文章结构

本文将传统协方差矩阵估计模型与BL模型思想相结合,将BL模型的思想应用到协方差矩阵的估计中来,尝试使用文本爬取技术挖掘金融贴吧中的股票交易本文信息,将其量化为投资者主观观点指标,并结合收盘价、涨跌幅、成交量、成交额、换手率、市盈率与市净率七个投资者客观情绪指标来构建投资者情绪度量特征指标,运用随机森林回归模型生成BL模型中的投资者对协方差矩阵主观预期观点,综合投资者观点与市场历史经验信息得到协方差矩阵的先验分布信息,利用贝叶斯方法将分布模型转化为协方差矩阵的最大后验估计模型,结合非负结构假定建立新的协方差矩阵的估计模型,运用投影梯度法求解该模型,并在模拟数据与市场实际数据两方面都进行了测试,测试结果表明该模型在估计协方差矩阵方面具有一定的竞争优势。

本文其余部分安排如下,第二部分首先对BL模型进行了详细推导,另外介绍了协方差矩阵的先验分布与回归随机森林方法;第三部分介绍协方差矩阵具有非负结构的经验证据以及投资者主观预期矩阵与观点选择矩阵的度量方法,给出了带有先验信息的分布模型,并利用贝叶斯方法将模型转化为协方差矩阵的最大后验估计模型,结合非负结构提出了新的协方差矩阵估计模型;第四部分采用投影梯度法求解该模型并给出了算法的收敛性;第五部分进行数值实验,在模拟与实证数据两个环境下进行测试,验证模型的有效性;总结在第六部分给出。

2. 预备知识

2.1. BL模型

投资组合优化的基础是由Markowitz [29] 在20世纪50年代提出的均值方差模型,该模型根据投资组合的预期收益和波动率来计算投资组合的资产配置。假设市场上有n种资产,这些资产收益的均值 μ n ,协方差矩阵 Σ n × n ,经典的投资组合优化问题可描述为:

max w w T μ λ 2 w T Σ w s . t . w T 1 = 1 , (2.1)

其中 λ 为投资者的风险规避系数。

BL模型是均值方差模型(2.1)的延伸。考虑市场上的n项资产,这些资产的收益 r = ( r 1 , r 2 , , r m ) T 服从多元正态分布,即: r 1 , r 2 , , r m ~ N n ( μ , Σ ) 。根据资本资产定价模型(CAPM),当市场处于均衡状态时,即当对资产组合的需求等于供给时,所有投资者都持有最优市场投资组合,此时资产配置的权重为市场均衡权重 w e q 。BL模型想要得到市场均衡收益率为 π ,则需要反向优化均值方差模型(2.1),对模型求一阶导,并令其等于零,可得方程 π = λ Σ w e q 。BL模型以这个市场均衡收益率为客观的市场先验收益分布, μ ~ N m ( π , τ Σ ) ,这里 τ 是反映对市场均衡不确定性的参数, τ 越小,表示先验 μ 越接近市场均衡收益 π ,反之 τ 越大,则表示先验 μ 越背离市场均衡收益 π 。另外再加入投资者主观观点,利用贝叶斯方法得到后验资产收益率,进而得出最优资产配置方案。假设投资者对收益均值向量 μ 有k个观点,他的观点可以用下面的公式表示:

q = P μ + ε , (2.2)

其中P是 k × n 维矩阵,即对n个资产有k个观点,例如考虑三种资产A,B和C,当

P = ( 1 0 0 0 1 1 ) , q = ( 4 % 6 % ) , (2.3)

则P的第一行也就是投资者的第一个观点,是一个绝对观点,表示投资者认为资产A的预期收益率为4%;P的第二行为相对观点,表示投资者认为资产B与资产C的平均预期收益率的差为6%。绝对观点行和为1,相对观点行和为0。 ε 是观点的误差项, ε ~ N ( 0 , Ω ) ,Ω是 k × k 的对角矩阵,为观点误差的协方差矩阵,表示投资者对单个预测的信心水平。因此投资者观点的分布为: q | μ ~ N k ( P μ , Ω )

结合上述信息可知整个BL模型由以下三个分布构成:

r 1 , r 2 , , r m ~ N n ( μ , Σ ) , μ ~ N n ( π , τ Σ ) , q | μ ~ N k ( P μ , Ω ) . (2.4)

通过结合(2.4)中后两个先验分布,并以此作为收益均值 μ 的新的先验分布,根据文献 [12] 中给出的证明可以计算出收益的后验分布:

r ~ N ( μ B L , Σ B L ) . (2.5)

其中

μ B L = ( ( τ Σ ) 1 + P T Ω 1 P ) 1 ( ( τ Σ ) 1 π + P T Ω 1 q ) , Σ B L = M 1 + Σ , M 1 = ( ( τ Σ ) 1 + P T Ω 1 P ) 1 . (2.6)

再根据市场均衡权重方程得到最优权重:

μ B L = λ Σ B L w w = 1 λ Σ B L 1 μ B L . (2.7)

根据这个方程与恒等式 ( Σ + M 1 ) 1 = M M ( M + Σ 1 ) 1 M ,有:

w * = 1 1 + τ ( w e q + P T × Δ ) , (2.8)

BL模型实质上是一个概率模型,通过代入所有已知参数、市场均衡收益率 π 、不确定性参数 τ 、投资者观点参数P、q、Ω和协方差矩阵 Σ ,可以得到最优的投资组合权重 w * 。但其在计算过程中用历史数据估计的矩阵代替协方差矩阵 Σ ,然后将 Σ 作为BL模型中的已知协方差矩阵,并未对协方差矩阵的先验分布做研究。因此在本文中,我们将考虑协方差矩阵的先验分布并在模型中加入投资者的观点信息。

2.2. 协方差矩阵的先验分布选择

本节介绍如何选择协方差矩阵的先验分布。首先介绍Wishart分布与逆Wishart分布的定义。

定义2.1. ([30, Definition 7.2.1])设 Z ~ N n × m ( 0 , I n Σ ) A = Z Z T ,其中符号 为矩阵的Kronecker积,则称A服从自由度为m,位置矩阵参数为 Σ 的Wishart分布,记为 A ~ W n ( m , Σ ) ,分布的密度函数为:

| A | 1 2 ( m n 1 ) e 1 2 tr ( Σ 1 A ) 2 1 2 m n | Σ | 1 2 m Γ n ( 1 2 m ) .

定义2.2. ([30, Theorem 7.7.1])设B的逆矩阵服从Wishart分布 B 1 ~ W n ( m , Σ ) ,则B服从逆Wishart分布,记为 B ~ W n 1 ( m , Σ ) ,密度函数为:

| Σ | 1 2 m | B | 1 2 ( m + n + 1 ) e 1 2 tr ( Σ B 1 ) 2 1 2 m n Γ n ( 1 2 m ) .

下面介绍有关协方差矩阵先验分布与分布均值的三个定理。

定理2.1. ([30, Corollary 7.2.3])令 X 1 , , X m 独立同分布,服从正态分布 N m ( μ , Σ ) ,则其样本协方差服从Wishart分布:

S ~ W n ( m , 1 m Σ ) .

定理2.2. ([30, Theorem 7.7.2])假设A服从Wishart分布 W n ( m , Σ ) ,且 Σ 有先验逆Wishart分布 W n 1 ( k , ψ ) ,则 Σ 的条件分布为:

Σ | A ~ W n 1 ( k + m , A + ψ ) .

定理2.3. ([30, Corollary 7.7.1])假设A服从Wishart分布 W n ( m , Σ ) ,则:

E ( A 1 ) = 1 m n 1 Σ 1 .

根据定理2.1和定理2.2两个定理可以知道当收益服从正态分布时,样本协方差矩阵服从Wishart分布,且逆Wishart分布是协方差矩阵在样本协方差条件下的共轭先验分布。我们在考虑协方差矩阵的先验分布时选择逆Wishart分布。由逆Wishart分布的均值定理2.3我们假设协方差矩阵的先验分布为:

Σ ~ W n 1 ( m , ( m n 1 ) Σ 0 ) , (2.9)

其中 Σ 0 是由历史经验数据估计得到的协方差矩阵。

2.3. 随机森林回归模型

随机森林回归算法是一种基于统计抽样理论的机器学习算法,最早由Breiman [31] 提出。随机森林回归模型的弱学习器是CART回归树。随机森林模型运算的一般步骤如下:

1) 对给定样本数量为n的训练集,进行均匀的有放回的抽样,保证每一个样本被抽到的概率相等,得到容量为m的新训练集。

2) 然后对于新训练集,从全部特征中随机选择部分特征,使用随机筛选出的特征训练若干CART回归树模型。

3) 最后将这些回归树模型所得结果进行平均确定模型的最终输出。

本文在使用投资者情绪指标预测协方差矩阵时需要使用随机森林回归模型,选择此模型主要是考虑到第一本文研究的情绪指标可以转化为数值型变量,因此需要使用回归算法来进行预测,第二是因为输入的训练数据是时间序列,可以使用随机森林算法进行处理,第三是因为随机森林算法具有不容易过拟合,对噪声和异常值不敏感等良好特性,且训练速度较快,在多类数据场景中都有不错的性能表现。本文在此对随机森林算法的运算思路及优势进行简单介绍,对回归树更为详细的介绍可见书 [32] 。

3. 模型建立

3.1. 非负结构

在金融市场中,可以观察到资产通常与市场一起移动,也就是说资产的收益遵循共同的趋势,这意味着这些变量应该是正相关的,即协方差矩阵中的条目应该是非负的。验证这一非负相关结构直观的方法是直接检验真实股票数据的经验相关性。本文使用来自中证100指数中包含的样本股的数据进行检查。对一定的回顾窗口长度内的历史价格数据计算每对股票的样本相关性。图1显示了2018年10月至2023年3月不同回溯窗口长度(天)下这些股票收益相关性的正相关率。即使回溯窗口长度较小时,正相关率也大于70%。其中一些负相关可以解释为噪声估计,即竞争公司或股票对外部刺激的不同反应。例如,当利率上升时,保险公司等金融股往往会得到提振 [34] ,而房地产公司则会受到打击 [33] 。但这些外部刺激通常是暂时的,它们对市场的长期影响是微不足道的,因此本文假设股票协方差矩阵具有非负相关结构是合理的。

Figure 1. Positive correlation rate of stock returns in different backtracking Windows

图1. 不同回溯窗口股票收益正相关率

3.2. 投资者主观预期度量

BL模型创造性地将投资者主观观点纳入到了投资组合模型中,从而能在投资者对资产配置的选择中更好地反映主观观点与意愿,这修正了均值方差模型的不足。但是BL模型自身也有不足,主要在于观点向量和置信水平的确定过于主观,一直以来投资者观点如何确定都没有一套统一的标准。为了克服这一缺陷不少学者通过各种理论和算法对投资者观点及BL模型本身进行了一系列的探索与改进,例如采用时间序列模型和机器学习模型来生成投资者观点等。这些研究主要依据历史收益等指标来预测预期收益以此确定投资者观点,没有从投资者主观因素对观点矩阵的影响进行研究。得益于互联网的快速发展和数据收集技术的进步,网络金融文本信息为投资者情绪的度量提供了新渠道。投资者往往会在股票贴吧上积极主动发布与其个人投资相关的帖子,这些帖子直观地反映了投资者对金融市场的主观评论以及对投资组合配置的个人观点,这些都可以成为我们对投资者观点的度量指标。另外目前大多数的研究都是构建投资者情绪指标来预测收益均值,本文将这个思路延伸到协方差矩阵的估计中来,考虑通过数据挖掘技术从网络中爬取相关金融文本数据,通过文本分析技术提取并量化情感信息,结合一些客观情绪指标构建投资者文本情绪度量指标,预测预期收益并以此作为投资者观点应用到模型中。下面介绍投资者情绪度量指标的具体选择,包括一个主观情绪指标——文本情绪指标,与五个客观情绪指标——收盘价、涨跌幅、成交量、成交额、换手率、市盈率与市净率。

1) 文本情绪指标。首先通过网络爬虫技术爬取个股日度金融文本数据,然后进行数据处理,利用情绪提取算法对金融文本中蕴含的情绪进行提取计算,最后对得到的文本情绪指标进行筛选合成,得到预期的个股日度投资者情绪指标。

2) 收盘价。收盘价是指股票交易日内最后一次交易的价格,表示当日的最终价格。收盘价是股市交易中最重要的一个指标,它可以反映出市场当天的投资者情绪及价格走势。如果股票的收盘价超过前一日的收盘价,则表明市场对该股票的总体评价是正向的,投资者对该股票也持有更高的信心。反之,如果收盘价低于前一日的收盘价,那么就表明市场对该股票的总体评价是负向的,投资者对该股票的信心度也更低。

3) 成交量、成交额与换手率。这三个指标在某种程度上表示股票的流通性与投资者参与投资的热情程度。当投资者情绪高涨或对市场越乐观时,其买卖股票的意愿变强烈,反之,投资者情绪低落时,往往更倾向于持有资金,而不愿意参与投资。

4) 涨跌幅。涨跌幅为正时,投资者情绪通常比较乐观,认为市场走势良好,倾向于买入动作;涨跌幅为负时,投资者情绪往往会变得悲观,可能会因为害怕亏损而避免投资。

5) 市净率。市净率指每股股价与每股净资产的比率。市净率较低,意味着这一股票投资风险较低,投资价值较高,此时,投资者会更加关注这类股票。反之,市净率较高的股票投资者关注度降低。

6) 市盈率。市盈率是每股股价与每股收益的比率。同市净率相反,市盈率较低的股票投资风险更小,投资价值更高,投资者的关注度相应提高;反之,市盈率较高的股票投资价值被高估,投资者的关注度降低。

3.3. 投资者观点矩阵

在上一节中我们已经讨论如何通过构造投资者情绪指标来预测协方差矩阵,将其记为 Σ 1 ,但如何构建观点矩阵仍然是一个需要解决的问题。想要有类似(2.3)中包含绝对观点与相对观点的观点矩阵P,我们考虑将协方差矩阵拉长为向量,定义:

Vec ( A ) = [ a 11 , a 21 , , a n 1 , a 12 , a 22 , , a n 2 , , a 1 n , a 2 n , , a n n ] T . (3.1)

令预期协方差为 Σ 1 ,则可将投资者对协方差矩阵的观点表示为:

V e c ( Σ 1 ) = P V e c ( Σ ) . (3.2)

然而想要将投资者观点作为先验分布代入到模型估计中,还需要将观点的表示形式转回为矩阵形式,不妨设观点矩阵为Q,想要将投资者对协方差矩阵的观点表示为矩阵形式:

Σ 1 = Q Σ Q T , (3.3)

则要引入下面的定理。

定理3.1. ([35,定理1.10.4])令 A m × p , B p × q , C q × n ,则

V e c ( A B C ) = ( C T A ) V e c ( B ) .

根据定理3.1可知

V e c ( Σ 1 ) = ( Q T Q ) V e c ( Σ ) . (3.4)

这样就可以通过非线性最小二乘方法求出满足条件的选择矩阵Q,模型表示为:

min Q Q T Q P F 2 . (3.5)

非线性最小二乘问题是一类特殊的无约束优化问题,根据最优解处残量的大小可以分为大残量问题和小残量问题。针对小残量问题可以使用高斯–牛顿算法 [36] 和LM [37] 方法;而针对大残量问题可以使用带结构的拟牛顿法 [38] 。

3.4. 先验分布

假设考虑市场上的n项资产,这些资产的收益 r = ( r 1 , r 2 , , r m ) T 服从多元正态分布,其均值为 μ ,协方差矩阵为 Σ ,即:

r 1 , r 2 , , r m ~ N n ( μ , Σ ) . (3.6)

我们假设收益的均值 μ 是已知的,由 μ = 1 m i = 1 m r i 估计,无不确定性。协方差矩阵 Σ 为随机变量,由上一节协方差矩阵先验分布(2.8)可知,当数据来自正态分布时,协方差矩阵基于市场历史数据最常见的先验分布是使用Wishart分布:

Σ ~ W 1 ( m , ( m n 1 ) Σ 0 ) . (3.7)

其中 Σ 0 为市场历史经验参数矩阵,m为自由度。

除此以外,我们还有投资者观点的先验信息,由(3.3)可知我们可以将投资者的观点表示为:

Σ 1 = Q Σ Q T , (3.8)

其中 Σ 1 是投资者的预期协方差,Q是投资者的观点矩阵。根据逆Wishart分布的性质定理2.3,对于给定的 Σ Σ 1 的分布为:

Σ 1 | Σ ~ W 1 ( m , ( m n 1 ) Q Σ Q T ) . (3.9)

因此整个模型由以下3个分布表示:

r | Σ ~ N n ( μ , Σ ) , Σ ~ W n 1 ( m , ( m n 1 ) Σ 0 ) , Σ 1 | Σ ~ W n 1 ( m , ( m n 1 ) Q Σ Q T ) . (3.10)

3.5. 协方差矩阵后验估计模型

v = m n 1 ,由收益分布模型(3.10)的三个分布我们得到:

f ( r | Σ ) det ( Σ ) m 2 exp { 1 2 i = 1 m ( r i μ ) T Σ 1 ( r i μ ) } . (3.11)

f ( Σ ) det ( Σ ) m + n + 1 2 exp { 1 2 Tr ( v Σ 0 Σ 1 ) } . (3.12)

f ( Σ 1 | Σ ) det ( Σ ) m 2 exp { 1 2 Tr ( v Q Σ Q T Σ 1 1 ) } . (3.13)

首先我们将 Σ 的先验分布(3.12)与投资者观点分布(3.13)联合得到 Σ Σ 1 的联合分布:

f ( Σ , Σ 1 ) det ( Σ ) m m n 1 2 exp { 1 2 Tr ( v Σ 0 Σ 1 + v Q Σ Q T Σ 1 1 ) } . (3.14)

其次结合 Σ Σ 1 的联合分布(3.14)与收益分布(3.11)我们可以得到 Σ 的后验分布:

P ( Σ | r 1 , , r m , Σ 1 ) = P ( r 1 , , r m , Σ 1 , Σ ) P ( r 1 , , r m , Σ 1 ) = P ( r 1 , , r m | Σ 1 , Σ ) P ( Σ 1 | Σ ) P ( Σ ) P ( r 1 , , r m , q ) P ( r 1 , , r m | Σ 1 , Σ ) P ( Σ , Σ 1 ) det ( Σ ) m + n + 1 2 exp { 1 2 T r ( v Σ 0 Σ 1 + v Q Σ Q T Σ 1 1 ) } exp { 1 2 i = 1 m ( r i μ ) T Σ 1 ( r i μ ) } = det ( Σ ) m + n + 1 2 exp { 1 2 T r ( ( v Σ 0 + m S ) Σ 1 + v Q Σ Q T Σ 1 1 ) } = det ( Σ ) η 2 exp { 1 2 Tr ( ( v Σ 0 + m S ) Σ 1 + v Q Σ Q T Σ 1 1 ) } . (3.15)

其中 η = m + n + 1 S = 1 m i = 1 m ( r i μ ) ( r i μ ) T 。此时加入先验信息的 Σ 的最大后验估计模型为:

Σ ^ = arg max Σ P ( Σ | r 1 , , r m , Σ 1 ) = arg max Σ ln [ P ( Σ | r 1 , , r m , Σ 1 ) ] = arg min Σ η log det ( Σ ) + tr ( ( v Σ 0 + m S ) Σ 1 ) + tr ( v Q Σ Q T Σ 1 1 ) . (3.16)

接下来在最大后验估计模型(3.16)中加入非负约束与正定约束,得到的新的估计协方差矩阵的模型表示为:

min Σ η log det ( Σ ) + tr ( ( v Σ 0 + m S ) Σ 1 ) + tr ( v Q Σ Q T Σ 1 1 ) s . t . Σ 0 , Σ 0 . (3.17)

可以看到新的模型(3.16)中包括了样本协方差S,市场历史经验信息 Σ 0 ,投资者预期观点 Σ 1 与观点矩阵 Q ,以及非负结构信息,结合这些信息求解出的协方差矩阵 Σ 就是我们所要得到的协方差矩阵的估计,我们将在下一部分介绍这个模型求解的具体算法步骤。

4. 求解算法

4.1. 投影梯度法

Σ ˜ 0 = v Σ 0 + m S Σ ˜ 1 = v Q T Σ 1 1 Q ,则模型(3.17)改写为:

min Σ η log det ( Σ ) + tr ( Σ ˜ 0 Σ 1 ) + tr ( Σ ˜ 1 Σ ) s . t . Σ 0 , Σ 0 . (4.1)

不妨将模型(4.1)记为PG模型,可以看到PG模型具有非负约束,非负结构的投影算子易于计算。因此采用具有Barzilar-Borwein (BB)步长的投影梯度法求解这一问题,其迭代格式为:

Σ k + 1 = P Σ 0 ( Σ k α f ( Σ k ) ) , (4.2)

其中

α b b = s k + 1 T y k + 1 y k + 1 T y k + 1 , s k + 1 = Σ k + 1 Σ k , y k + 1 = f ( Σ k + 1 ) f ( Σ k ) . (4.3)

对于一般的问题,通过上式计算出的步长可能过大或过小,因此还需要将步长做上界和下界的截断,即选取 0 < α ( l ) < α ( u ) 使得

α ( l ) α b b k α ( u ) . (4.4)

下面计算函数梯度:

f ( Σ ) = η Σ 1 + Σ ˜ 1 Σ 1 Σ ˜ 0 Σ 1 . (4.5)

在算法每一步迭代中采用回溯步长来保证函数值的下降性,该过程需要三个参数 ( α b b , γ , σ ) ,其中 α b b > 0 , γ , σ ( 0 , 1 ) ,步长 α 的选择如下。假设

G α ( Σ k ) = 1 α ( Σ k P Σ 0 ( Σ k α f ( Σ k ) ) ) . (4.6)

首先将 α 设为等于初始猜测值 α b b ,若

f ( Σ k ) f ( P Σ 0 ( Σ k α f ( Σ k ) ) ) < γ L k G α ( Σ k ) 2 , (4.7)

则缩小 α ,令 α = σ α ,循环上述步骤直到不等式(4.7)不成立,也就是说 α = α b b σ i k ,其中 i k 是满足下述条件的最小非负整数:

f ( Σ k ) f ( P Σ 0 ( Σ k α b b σ i k f ( Σ k ) ) ) γ α σ i k G α σ i k ( Σ k ) 2 . (4.8)

下面给出具体算法。

4.2. 收敛性

定理4.1. ([39, Lemma 10.14])假设函数的光滑因子为 L f , { Σ k } k 0 是算法1生成的序列, G α ( ) (4.6)

中所示,则对任意 k 0 ,存在 α k > 0 使得:

f ( Σ k ) f ( Σ k + 1 ) M G α k ( Σ k ) 2 ,

其中

M = γ max { 1 α k , L f 2 σ ( 1 γ ) } .

定理4.2. ([39, Theorem 10.15])假设函数的光滑因子为 L f , { Σ k } k 0 是算法1生成的序列,则有:

1) 序列 { f ( Σ k ) } k 0 是非单调递增的, f ( Σ k + 1 ) < f ( Σ k ) 当且仅当 Σ k 不是问题(4.1)的稳定点;

2) 当 k G α ( Σ k ) 0

3) 以下不等式成立:

min n = 0 , 1 , , k G α ( Σ n ) f ( Σ 0 ) f opt M ( k + 1 ) ,

其中 G α ( ) 与M同定理4.1。

4) 序列 { Σ k } k 0 的所有极限点都是PG模型被投影梯度算法求解的稳定点。

5. 数值实验

下面将进行数值实验来验证PG模型的有效性。首先使用模拟数据生成参数进行仿真实验,并将所提模型与其他基准模型进行比较,观察算法的收敛性并展示模型的估计优势。然后提取股票贴吧文本数据构建投资者情绪指标,将真实股票数据代入协方差矩阵估计模型,估计协方差矩阵并进行投资组合设计,在实际股票市场中进行回测。

5.1. 仿真实验

这一部分是基于模拟数据的数值实验。首先在给定的参数下随机生成模拟数据,然后从数值上观测算法的收敛性,最后通过与其它协方差矩阵估计模型相比较以验证PG模型的有效性。

1) 取定矩阵维数n为100,采用标准正态分布生成一个矩阵,以该矩阵的绝对值矩阵作为真实的协方差矩阵 Σ *

2) 给定样本数m为n的倍数,在实验中选择样本数与维数之比m/n在2到10之间。生成 x i ~ N ( 0 , Σ * ) , i = 1 , , m ,得到数据矩阵 X = [ x 1 , x 2 , , x m ] ,则样本协方差矩阵 S = 1 m i = 1 m X T X

3) 设置分布模型(3.10)中的未知参数矩阵。首先对于市场历史经验参数矩阵 Σ 0 ,仍由均值为零,协方差为 Σ * 的正态分布生成。设置样本数为5000,生成 y i ~ N ( 0 , Σ * ) , i = 1 , , 5000 得到数据矩阵 Y = [ y 1 , y 2 , , y 5000 ] ,则市场历史经验参数矩阵 Σ 0 = 1 5000 i = 1 5000 Y T Y 。其次设置投资者预期协方差观点矩阵 Σ 1 。它由真实协方差矩阵 Σ * 加上一个扰动项 ε 构成,扰动项 ε = D T D D ~ N ( 0 , 10 2 I ) ,I为单位矩阵。最后设置主观观点矩阵Q为单位矩阵。

从下面的图2可以观察到在不同样本数下PG模型被投影梯度算法求解的收敛性情况。

Figure 2. Convergence of the model under different sample numbers

图2. 模型在不同样本数下的收敛性

图2为样本数与维数之比分别为2、5、10时模型的收敛情况,图中横坐标为迭代次数,纵坐标为函数值。从图中可见模型在不同的m/n下都可在不超过100次迭代后得到目标函数收敛。此外,较大的m/n比有利于PG模型被投影梯度算法求解的收敛。

下面评估PG模型的估计性能。为简便起见,为了比较,引入了以下两种模型:样本协方差矩阵估计模型SCM和样本协方差的非负投影模型SCP。这里SCP可以表示为:

min Σ Σ S F 2 s . t . Σ 0 , Σ 0 . (5.1)

首先比较各种模型在不同样本数下相对均方误差 Σ ^ Σ F / Σ F 的表现见图3,可以清晰地看到三种

模型在较大的m/n比时都获得了较好的结果,并且PG模型的结果始终优于另外两个模型。可能的原因是PG模型中加入了投资者观点的先验分布信息以及非负结构假定。

Figure 3. Performance comparison of the three models under different sample numbers

图3. 不同样本数下三种模型性能比较

其次选择样本数与维数之比分别为3、6、9时模型从以下几个方面的具体估计效果进行评估:

1) 矩阵误差的F范数:

Σ ^ Σ F = i = 1 n j = 1 n | σ ^ i j σ i j | 2 . (5.2)

2) 矩阵误差的L1范数:

Σ ^ Σ L 1 = max i j | σ ^ i j σ i j | . (5.3)

3) 特征值误差的F范数:

Λ ^ Λ F = i = 1 n | λ ^ i λ i | 2 . (5.4)

4) 特征值最小值:

λ ^ min ( Σ ^ ) = min { λ ^ 1 ( Σ ^ ) , λ ^ 2 ( Σ ^ ) , , λ ^ n ( Σ ^ ) } . (5.5)

这里前三个指标用来衡量模型估计精度,第四个指标用来考察估计协方差矩阵是否正定。下面的表1给出了维数n为100,样本数m分别为300、600和900时的数值结果。

Table 1. Simulation data result table

表1. 模拟数据结果表

表1可以明显看到在估计精度方面(前两个指标) PG模型都有很好的表现,在特征值误差方面PG模型虽然没有表现出明显优势但与其他两个模型相差不大。可以看到表1的第六列数据均为正值,表示三种模型所估计的协方差矩阵均为正定矩阵,符合预期。

5.2. 实证研究

下面将从实际数据出发验证PG模型的有效性。研究切入视角是从现实金融文本数据出发生成投资者主观情绪指标,结合其他客观情绪指标构建投资者情绪度量指标,以此预测预期协方差将其作为投资者观点的先验信息加入到模型中。这一部分主要工作是从东方财富股吧股帖中挖掘出日度个股投资者情绪指标,将日度个股投资者情绪值、收盘价和交易量等情绪指标作为自变量,使用回归随机森林对收益率进行预测,并将预测收益率作为投资者观点,代入到模型中估计协方差矩阵,最后在国内A股市场上对PG模型的结果进行实证检验。图4是东方财富吧–万科A股吧(股票代码:000002)的部分讨论帖展示。

研究选取的研究对象为中证100指数成分股。中证100指数是从沪深300指数样本股中挑选规模最大的100只股票组成样本股,以综合反映沪深证券市场中最具市场影响力的一批大市值公司的整体状况。中证100指数能较好地反映A股上海证券交易所最具影响力的头部公司的股票价格表现。研究时间区间选取为2022年1月1日至2022年12月31日,共计242个交易日,通过剔除交易异常与筛选相关度较大的股票后,剩余30支样本股票。接下来详细阐述东方财富股吧文本处理过程。

东方财富网股吧(https://guba.eastmoney.com)是目前我国最大的综合性网络股票论坛之一,是获取金融文本数据的理想选择,本研究使用运行在Python 3.8环境下的网络爬虫从东方财富股吧中获取相应股吧的用户发帖信息,包括发帖标题、发帖正文、作者和发帖日期,去掉异常和无效数据行后总爬取数据量为294772条,平均每只股票爬取数据9826条,由于研究的股票数据以日为单位,故切片时间频率也应该以日为单位来进行划分,将节假日、停牌等时间区间内产生的用户股帖顺延归至下一个交易日中。获取文本数据后,对文本进行清洗去重再运用jieba分割,最后使用SnowNLP词典法构建投资者情绪指标。

Figure 4. Vanke A share post discussion post show chart

图4. 万科A股吧讨论帖展示图

将上文中获得的金融文本信息作为投资者主观情绪指标,结合收盘价、涨跌幅、成交量、成交额、换手率、市盈率与市净率这一类客观情绪指标,作为投资者情绪特征,采用随机森林回归模型预测预期收益。算法采用前80%的数据作为训练集数据,即2022年1月1日至2022年10月24日,共包含193天交易日;后20%的数据作为测试集数据,即2022年10月25日至2022年12月31日,共包含49天交易日。以万科股票为例,图5是随机森林回归模型预测数据与真实数据的对比图,RMSE表示预测值与真实值之间的剩余标准差,图6是随机森林回归算法的预测误差曲线图。

Figure 5. Comparison of prediction data of Vanke stock model

图5. 万科股票模型预测数据对比

Figure 6. Error curve of predicted value and true value

图6. 预测值与真实值误差曲线图

图5左侧是回归森林模型对于训练集数据的预测对比图,右侧是在测试集上的预测对比图,可以看到RMSE都小于10−2,表明随机森林回归算法可以对数据有一个比较好的预测。图6可以看到当决策树数目大于20时,算法就可以达到较低的误差。

下面将预测得到的协方差矩阵作为投资者观点信息加入PG模型中,同时使用过去193个交易日的历史数据和后续49个交易日的真实数据来验证模型的有效性。一种常用的评估预估协方差矩阵质量的技术是通过回测全局最小方差组合模型GMVP [25] 。该模型定义如下:

max w w T Σ w s . t . w T 1 = 1. (5.6)

它的解为 w * = Σ 1 1 / ( 1 T Σ 1 1 ) 如果投资组合收益的波动率较低,则可以认为估计的 Σ 具有较高的质量。

以下是不同模型预测的协方差矩阵在回测后得到的日收益率序列的波动情况。

图7可以直观地观察到PG模型所得到的日收益率波动明显小于其它两种方法。另外,从年波动率的箱线图8中可以看到PG模型进行回测所得到的日收益波动显著更小,这证明了PG模型在协方差矩阵估计方面的有效性。

6. 结论

本文提出了一种新的基于贝叶斯框架的协方差矩阵估计模型。首先考虑通过金融文本数据构建投资者情绪指标,通过回归随机森林生成投资者观点,利用Black-Litterman模型的思想将投资者观点作为先

Figure 7. Daily return series of different models

图7. 不同模型日收益率序列

Figure 8. Box chart of daily returns of different algorithms

图8. 不同算法日收益率对比箱线图

验信息加入到传统协方差估计模型中;其次利用贝叶斯方法计算协方差矩阵的最大后验,结合非负结构假定得到协方差矩阵估计模型;最后运用投影梯度法求解此模型,通过与其他基准估计方法对比,从模拟数据与实际市场数据两部分验证了算法的有效性和模型的优越性。

参考文献

[1] Ledoit, O. and Wolf, A. (2004) Honey, I Shrunk the Sample Covariance Matrix. The Journal of Portfolio Management, 30, 110-119.
https://doi.org/10.3905/jpm.2004.110
[2] Khamaru, K. and Mazumder, R. (2019) Computation of the Maximum Likelihood Estimator in Low-Rank Factor Analysis. Mathematical Programming, 176, 279-310.
https://doi.org/10.1007/s10107-019-01370-7
[3] Sharpe, W.F. (1964) Capital Asset Prices: A Theory of Market Equilibrium under Conditions of Risk. The Journal of Finance, 19, 425-442.
https://doi.org/10.1111/j.1540-6261.1964.tb02865.x
[4] Feng, Y. and Palomar, D.P. (2016) A Signal Processing Perspective on Financial Engineering. Foundations and Trends in Signal Processing, 9, 1-231.
https://doi.org/10.1561/2000000072
[5] Meucci, A. (2005) Risk and Asset Allocation. Springer, Berlin.
https://doi.org/10.1007/978-3-540-27904-4
[6] Black, F. and Litterman, R. (1992) Global Portfolio Optimization. Financial Analysts, 48, 28-43.
https://doi.org/10.2469/faj.v48.n5.28
[7] Satchell, S. and Scowcorft, A. (2007) A Demystification of the Black-Litterman Model: Managing Quantitative and Traditional Portfolio Construction. In: Satchell, S., Ed., Forecasting Expected Returns in the Financial Markets, Elsevier, Amsterdam, 39-53.
https://doi.org/10.1016/B978-075068321-0.50004-2
[8] Idzorek, T. (2007) A Step-by-Step Guide to the Black-Litterman Model: Incorporating User-Specified Confidence Levels. In: Satchell, S., Ed., Forecasting Expected Returns in the Financial Markets, Elsevier, Amsterdam, 17-38.
https://doi.org/10.1016/B978-075068321-0.50003-0
[9] He, G. and Litterman, R. (2002) The Intuition Behind Black-Litterman Model Portfolios. SSRN Electronic Journal.
https://doi.org/10.2139/ssrn.334304
[10] Meucci, A. (2010) The Black-Litterman Approach: Original Model and Extensions. SSRN Electronic Journal.
https://doi.org/10.1002/9780470061602.eqf14009
[11] Harris, D.F.R., Stoja, E. and Tan, L. (2017) The Dynamic Black-Litterman Approach to Asset Allocation. European Journal of Operational Research, 259, 1085-1096.
https://doi.org/10.1016/j.ejor.2016.11.045
[12] Andrei, M.S. and Hsu, J.S.J. (2020) A Bayesian Approach for Asset Allocation. International Journal of Statistics and Probability, 9, 1-14.
https://doi.org/10.5539/ijsp.v9n4p1
[13] Leonard, T. and Hsu, J.S.J. (1992) Bayesian Inference for a Covariance Matrix. The Annals of Statistics, 20, 1669-1696.
https://doi.org/10.1214/aos/1176348885
[14] Baker, M. and Wurgler, J. (2007) Investor Sentiment in the Stock Market. Economic Perspectives, 21, 129-152.
https://doi.org/10.1257/jep.21.2.129
[15] Kurov, A. (2010) Investor Sentiment and the Stock Market’s Reaction to Monetary Policy. Banking Finance, 34, 139-149.
https://doi.org/10.1016/j.jbankfin.2009.07.010
[16] Baker, M., Wurgler, J. and Yuan, Y. (2012) Global, Local, and Contagious Investor Sentiment. Financial Economics, 104, 272-287.
https://doi.org/10.1016/j.jfineco.2011.11.002
[17] 向诚, 陆静. 基于技术分析指标的投资者情绪指数有效性研究[J]. 管理科学, 2018, 31(1): 129-148.
[18] Gervais, S., Kaniel, R. and Mingelgrin, D.H. (2001) The High-Volume Return Premium. The Journal of Finance, 56, 877-919.
https://doi.org/10.1111/0022-1082.00349
[19] Baker, M. and Stein, J.C. (2004) Market Liquidity as a Sentiment Indicator. Financial Markets, 7, 271-299.
https://doi.org/10.1016/j.finmar.2003.11.005
[20] Kumar, A. and Lee, C.M.C. (2006) Retail Investor Sentiment and Return Comovements. The Journal of Finance, 61, 2451-2486.
https://doi.org/10.1111/j.1540-6261.2006.01063.x
[21] Ljungqvist, A., Nanda, V. and Singh, R. (2006) Hot Markets, Investor Sentiment, and IPO Pricing. The Journal of Business, 79, 1667-1702.
https://doi.org/10.1086/503644
[22] Garcia, D. (2013) Sentiment during Recessions. The Journal of Finance, 68, 1267-1300.
https://doi.org/10.1111/jofi.12027
[23] Mahmoudi, N., Docherty, P. and Moscato, P. (2018) Deep Neural Networks Understand Investors Better. Decision Support Systems, 112, 23-34.
https://doi.org/10.1016/j.dss.2018.06.002
[24] Nguyen, T.H., Shirai, K. and Velcin, J. (2015) Sentiment Analysis on Social Media for Stock Movement Prediction. Expert Systems with Applications, 42, 9603-9611.
https://doi.org/10.1016/j.eswa.2015.07.052
[25] Zhou, R., Ying, J.X. and Palomar, D.P. (2022) Covariance Matrix Estimation under Low-Rank Factor Model with Nonnegative Correlations. IEEE Transactions on Signal Processing, 70, 4020-4030.
https://doi.org/10.1109/TSP.2022.3193232
[26] Fallat, S., Lauritzen, S., et al. (2017) Total Positivity in Markov Structures. The Annals of Statistics, 45, 1152-1184.
https://doi.org/10.1214/16-AOS1478
[27] Bertsimas, D., Copenhaver, M.S. and Mazumder, R. (2017) Certifiably Optimal Low Rank Factor Analysis. Machine Learning Research, 18, 907-959.
[28] Lauritzen, S., Uhler, C. and Zwiernik, P. (2019) Maximum Likelihood Estimation in Gaussian Models under Total Positivity. The Annals of Statistics, 47, 1835-1863.
https://doi.org/10.1214/17-AOS1668
[29] Markowitz, H.M. (1952) Portfolio Selection. The Journal of Finance, 7, 77-91.
https://doi.org/10.1111/j.1540-6261.1952.tb01525.x
[30] Anderson, T.W. (2003) An Introduction to Multivariate Statistical Analysis. John Wiley Sons, Hoboken.
[31] Breiman, L. (2001) Random Forests. Machine Learning, 45, 5-32.
https://doi.org/10.1023/A:1010933404324
[32] 李航. 统计学习方法[M]. 北京: 清华大学出版社, 2019.
[33] Berends, K., McMenamin, R., Plestis, T. and Rosen, R.J. (2013) The Sensitivity of Life Insurance Firms to Interest Rate Changes. SSRN Electronic Journal.
[34] Weis, C., Woltering, R.O. and Sebastian, S. (2021) Which Stocks Are Driven by Which Interest Rates? Property Research, 38, 175-197.
https://doi.org/10.1080/09599916.2021.1903531
[35] 张贤达. 矩阵分析与应用[M]. 北京: 清华大学出版社, 1998.
[36] 刘浩洋, 户将, 李勇锋, 文再文. 最优化: 模型、算法和理论[M]. 北京: 高教出版社, 2020.
[37] Levenberg, K. (1944) A Method for the Solution of Certain Non-Linear Problems in Least Squares. Quarterly of Applied Mathematics, 2, 164-168.
https://doi.org/10.1090/qam/10666
[38] Hu, J., Jiang, B., Lin, L., et al. (2019) Structured Quasi-Newton Methods for Optimization with Orthogonality Constraints. SIAM Journal on Scientific Computing, 41, A2239-A2269.
https://doi.org/10.1137/18M121112X
[39] Beck, A. (2017) First-Order Methods in Optimization. Society for Industrial and Applied Mathematics, Philadelphia.
https://doi.org/10.1137/1.9781611974997