【101】新闻叙事、文本分析与资产定价

因子动物园
5942023-02-27 15:00

作者:因子动物园

题图:因子动物园个人微信公众号

很感谢此前大家的反馈,对我们接下来的选题和讲述方式很有帮助。接下来言归正传,进入今天的主题。

文本分析在金融研究中的应用已并非新鲜事。Gentzkow, Kelly and Taddy (2019) 有很好的综述介绍。Engle et al.(2020)利用文本分析构建了气候变化指数进而考察了气候风险对股票定价的影响。Bybee et al. (2021) 利用文本分析提取了经济周期相关的主题(narratives)、进而用以解释股票市场收益。

近年来,一些新的研究则开始尝试对新闻的文本分析来预测股票收益(截面)及对股票定价,及理解资产的异质性风险的来源,也即更直接地触及资产定价的核心问题。本文对 3 篇相关文献进行综述。为保证可读性,本文聚焦于对主要思想、模型框架和核心实证结果的简要介绍。您如果对技术细节和更为详细的结果感兴趣,可进一步自行阅读原文。

1. 利用文本分析预测股票收益

Ke, Kelly and Xiu (2019)(KKX (2019))提出了一种基于新闻文本分析和有监督学习方法来预测股票收益的方法:SESTM (Sentiment Extraction via Screening and Topic Modeling)。这一方法的优势在于:简单、易于计算,以及最为重要的,可以让研究者依据手上的数据针对性地构建情绪得分模型。

这一方法综合利用了文本情感分析和股票收益数据。图 1 展示了该方法的基本结构。假设共有  篇新闻,对应的词典包含  个词,其中,有  个情感词和  个非情感词。首先,将第  篇新闻中的词频统计表示为一个向量 ,给定新闻  的情绪得分 ,情感词的词频分布来自一个多项分布 ,其中,()为正面(负面)情感词汇的词频分布。

另一方面,为便于分析,假设一篇新闻只跟一只股票有关。进一步假设股票收益()的符号为新闻情绪的单调增函数:,其中, 为单调增函数。

通过恰当地结合这两个模块,可以估计新闻主题的情绪,进而对新出现的新闻情绪打分并预测股票收益。

图片

图 1:模型结构示意图. 数据来源:KKX (2019).

上述方法共包含三个步骤。

首先需要筛选出那些情感相关的词汇。觉上,那些经常出现在正面新闻(即相关股票收益为正的新闻)中的词汇更可能包含正面情感。根据这一直觉,可以根据一个词汇出现在正面新闻中的频率与其在新闻中的出现频率之比来度量词汇所包含的情感、筛选情感词。

在此基础上,需要进一步估计情绪主题(sentiment topics),即分布图片。已有研究大多采用无监督学习方法来提取主题。而 KKX (2019) 则借助了股票收益是相关新闻情绪的一个粗糙信号的思想,图片 篇新闻对应的股票收益的标准化排名作为被解释变量(表征图片 )来进行监督学习,以估计图片

最后,利用学习到的情感主题对新出现的新闻情绪进行预测,进而预测股票收益。

KKX (2019) 利用华尔街日报的新闻和美股数据进行了实证分析。他们用过去 15 年的数据滚动进行训练:在每年末,用过去 15 年中前 10 年数据训练模型并用后 5 年数据进行验证,进而用训练好的模型在下一年进行预测和交易。图 2 展示了对应的日度交易策略的累计收益:可见,等权多空组合可以获得非常可观的表现,单独看多头组合表现也非常不俗。市值加权组合表现要弱不少但总体而言仍然非常不错。进一步的回归分析表明其收益主要来自 alpha、并不能被常见因子模型所解释。

图片

图 2:SESTM 日度交易策略累计收益图. 数据来源:KKX (2019).

2. 叙事主题与资产定价

Bybee, Kelly and Su (2022)(BKS (2022))则试图更进一步,将从新闻中提取的叙事主题与资产定价理论关联起来。具体来说,BKS (2022) 试图从新闻中提取公司的基本面风险,从而将新闻叙事与 ICAPM 模型中的定价基础——状态变量(state variable)关联起来。

这一想法的基础来自于资产定价理论。理论上,状态变量应该包含那些投资者刚获取到的、未预期到的新信息,且这些信息应当可以告诉投资者关于未来投资机会的一些信息。BKS (2022) 在实证分析中同样聚焦于华尔街日报的新闻,原因是与定价有关的新闻应聚焦于那些市场参与者关注的核心风险,例如经济衰退或新冠疫情相关的衰退风险。

图片图片

图 3:叙事主题与资产定价的模型框架. 数据来源:BKS (2022).

为估计上述模型,BKS (2022) 对 Kelly, Pruitt and Su (2019)(KPS (2019)) 采用的 IPCA 方法进行了扩展。基本思路与 KPS (2019) 类似,用新闻的叙事主题注意力变化与股票收益的协方差作为因子暴露(beta)的工具变量,进而轮换估计隐因子和股票的因子暴露。为了刻画前述稀疏性,BKS (2022) 引入了 group lasso 方法,以惩罚那些对因子暴露解释力很小的叙事主题并将其剔除。

表 1 展示了基于新闻叙述构建的因子模型的解释力及其与主流因子模型的对比。Panel A 表明,单因子新闻叙事因子模型(NF1)的表现较差,但包含 2 个及以上因子的新闻叙事因子模型的定价表现则显著优于以 Fama-French 三因子(FF3)、五因子(FF5)和五因子加动量(FFC6)为代表的主流因子模型。

Panel B 和 Panel C 进一步报告了对 25 个市值-BM 分组组合和 25 个市值-动量分组组合的定价表现,包含 3 个因子的新闻叙事因子模型(NF3)表现仍然最好。这一结果是非常有趣的。理论上,市值-BM 分组组合和市值-动量分组组合存在很强的因子结构,因此,FF3 和 FFC6 模型往往就可以达到非常好的解释力。但即便如此,NF3 模型的表现仍然更好。这表明基于新闻叙事的定价模型的确可能更好地刻画了状态变量的变化和资产定价的过程。

图片

表 1:基于新闻叙事的因子模型的解释力. 数据来源:BKS (2022).

3. 新闻叙事、异质性风险与股价信息效率

BKS (2022) 认为新闻叙事与股票的基本面风险、从而与状态变量和资产定价有关。Dim, Sangiorgi and Vilkov (2023)(DSV (2023))则探讨了另一种可能性:新闻并不完全描述事实,而是有偏差的,这使得新闻叙事注意力的变化可能导致特定的偏差更为流行,从而干扰股票定价,即(在调整了现金流等基本面因素的影响后)股票收益会朝相关偏差的方向偏移。

具体来看,与 KKX (2019) 和 BKS (2022) 一样,DSV (2023) 同样聚焦于华尔街日报的新闻。但他们剔除了那些很可能与金融投资无关的板块,例如娱乐。在此基础上,他们也采用 LDA 模型,提取了 33 个叙事主题。与 BKS (2022) 相似,DSV (2022) 也关注日度的总体叙事注意力并用当天的注意力与过去 6 天(包含当天)均值的差异代表注意力的变化(记为图片 )。

DSV 的故事的核心差异在于接下来的一步:他们用股票收益(图片)对常见因子模型(图片)和新闻叙事注意力的变化进行回归,估计股票的新闻叙事注意力暴露(图片):

图片

重要的是,DSV (2023) 关注的是  的绝对值(图片而非  本身。这是由于他们关注的核心是对新闻叙事注意力变化的暴露程度(不带方向)与异质性风险之间的关系而非对股票收益的方向性影响。

基于上述设定和实证分析,DSV (2023) 表明,股票对新闻叙事注意力变化的暴露程度越高,股票的异质性风险也越大:这一暴露程度可以解释 82% 的股票异质性风险的截面差异,非常厉害的一个发现。进一步,利用 Bai, Philippon, and Savov (2016) 提出的股价信息效率的指标(即公司市值对未来盈利的预测能力),DSV (2023) 进一步发现,更高的新闻叙事注意力暴露会显著降低股价信息效率,而机制便是股票异质性风险和公共信息相关风险的上升。

4. 结语

文本分析方法在金融研究中的应用已越来越广泛。通过 LDA 方法来提取叙事主题并估计叙事主题关注度、进而考察其对资产定价的影响,也得以受到关注。本文简要综述了三篇相关的文章:这些研究相关但侧重点又各有不同:

最早的 KKX (2019) 着重于构建简单、透明、易于执行和定制化的方法来预测股票收益、构建交易策略,其基础仍然是传统的词典,但巧妙地融入了有监督学习以提升学习效率;

BKS (2022) 则将新闻叙事主题注意力与状态变量挂钩,并在技术上扩展了经典的 IPCA 方法以保证估计的可行性,进而验证了新闻叙事主题注意力在资产定价方面巨大的潜在作用;

DSV (2023) 则另辟蹊径,从新闻叙事主题注意力暴露程度出发,考察新闻叙事主题注意力与股票异质性风险和股价信息效率之间的关系。

限于篇幅和可读性,本文只对核心思路和发现进行了简要的介绍,几篇文章都还有非常详细的方法介绍和实证结果,您如果对这一话题感兴趣,可自行下载原文进行阅读。

此外,需要注意的是,这些研究都是基于美股市场进行的,除美股在学术研究中的权威地位以外,一个重要原因是华尔街日报提供了非常丰富、权威的新闻历史数据信息。要在中国市场进行类似的研究,首先需要考虑如何选择可靠的、具有足够历史和权威性的代表性新闻来源。但无论如何,我们相信基于文本分析的资产定价研究会越来越多地进入我们的视野,乃至影响、改变我们的研究和对投资的理解。我们也非常期待更多基于中国市场的相关研究。

全文完。祝您阅读愉快!

免责声明:本文在任何情况下都不代表投资建议。文中图表均来自相关文章、期刊,或互联网数据,版权归原作者和期刊所有,也不代表本公众号的意见。


References:

Bybee, Leland, Bryan Kelly, Asaf Manela, and Dacheng Xiu. "Business News and Business Cycles." Available at SSRN 3446225 (2021).

Bybee, Leland, Bryan T. Kelly, and Yinan Su. "Narrative asset pricing: Interpretable systematic risk factors from news text." Review of Financial Studies forthcoming (2022).

Dim, Chukwuma, Francesco Sangiorgi, and Grigory Vilkov. "Media Narratives and Price Informativeness." Available at SSRN 4323093 (2023).

Engle, Robert F., Stefano Giglio, Bryan Kelly, Heebum Lee, Johannes Stroebel. "Hedging climate change news." Review of Financial Studies 33.3 (2020): 1184-1216.

Gentzkow, Matthew, Bryan Kelly, and Matt Taddy. "Text as data." Journal of Economic Literature 57.3 (2019): 535-74.

Ke, Zheng Tracy, Bryan T. Kelly, and Dacheng Xiu. "Predicting returns with text data." No. w26186. National Bureau of Economic Research, 2019.

Kelly, Bryan T., Seth Pruitt, and Yinan Su. "Characteristics are covariances: A unified model of risk and return." Journal of Financial Economics 134.3 (2019): 501-524.

Lewellen, Jonathan, Stefan Nagel, and Jay Shanken. "A skeptical appraisal of asset pricing tests." Journal of Financial Economics 96.2 (2010): 175-194.

免责声明:
您在阅读本内容或附件时,即表明您已事先接受以下“免责声明”之所载条款:
1、本文内容源于作者对于所获取数据的研究分析,本网站对这些信息的准确性和完整性不作任何保证,对由于该等问题产生的一切责任,本网站概不承担;阅读与私募基金相关内容前,请确认您符合私募基金合格投资者条件。
2、文件中所提供的信息尽可能保证可靠、准确和完整,但并不保证报告所述信息的准确性和完整性;亦不能作为投资决策的依据,不能作为道义的、责任的和法律的依据或者凭证。
3、对于本文以及文件中所提供信息所导致的任何直接的或者间接的投资盈亏后果不承担任何责任;本文以及文件发送对象仅限持有相关产品的客户使用,未经授权,请勿对该材料复制或传播。侵删!
4、所有阅读并从本文相关链接中下载文件的行为,均视为当事人无异议接受上述免责条款,并主动放弃所有与本文和文件中所有相关人员的一切追诉权。

0
好投汇
第一时间获取行业新鲜资讯和深度商业分析,请在微信公众账号中搜索「好投汇」,或用手机扫描左方二维码,即可获得好投汇每日精华内容推送和最优搜索体验,并参与编辑活动。

推荐阅读

0
0

评论

你来谈谈?
发表

联系我们

邮箱 :help@haotouxt.com
电话 :0592-5588692
地址 :福建省厦门市湖里区航空商务广场7号楼10F
好投汇微信订阅号
扫一扫
关注好投汇微信订阅号
Copyright © 2017-2024, All Rights Reserved 闽ICP备19018471号-6