深度学习赋能分析师行为：更稳的盈利预期调整组合 | 开源金工

建榕量化研究6272024-08-11 10:54

关注

作者：建榕量化研究

题图：建榕量化研究微信公众号

摘要

对于分析师行为alpha，我们在《盈利预期调整优选组合的构建》中进行了详细的分析，其中亮点有三：1、深入讨论标准化方法对因子效果的影响；2、创新性地提出“股价跟随性”的分析师加权方式；3、构建特色因子：分析师关联动量、分析师羊群效应等。最终构建的盈利预期调整优选组合表现优异，尤其是2024年以来，对冲中证500超额约18%。本篇报告将从“研报文本”继续深挖分析师行为中的alpha，探讨与数值预期调整的异同，以及是否有些许增量。

盈利预期调整优选组合回顾

1.1、盈利预期调整因子FYR_DISP_strength回顾

1.2、盈利预期调整优选组合构建流程及绩效回顾

盈利预期调整优选组合的回测绩效如图3所示。从绩效中我们可以看出：全区间组合表现非常优异，绝对年化收益为27.7%，相对中证500年化收益为22.9%，从2012年至今所有年份皆录得了正超额。就具体的年份来看，表现相对较差的为2022年和2023年，分别录得了7.58%和3.33%的超额。

深度学习赋能：研报文本情感判断

在《盈利预期调整优选组合的构建》中，我们将分析师预期数值调整代表分析师情绪变化，从而构建分析师看好组合，本篇报告的第一部分进行了短篇幅的回顾。对于本篇报告的剩余部分，我们将使用研报文本数据来判断分析师情绪变化，探讨是否存在一定增量。考虑到数值预期调整因子的表现，以及研报文本数据的可获得性，我们研究的时间区间为：2020年1月至2024年6月。（感谢朝阳永续和数库科技的数据支持）

对于分析师情绪的衡量，研报文本相对于盈利预测数值往往存在更多的内涵和有效信息量。经常出现以下两种情景，这里以开源证券的两篇报告为例展开，具体如图4所示：

情景一：某公司当前业绩和业务进展低于预期，但是分析师对于公司未来前景实际上是较为看好的。此类型的报告，文本整体表达往往偏中性，存在部分积极因素，最后盈利预期会略微上调，如《中国平安：NBV低于预期，寿险转型仍需推进》。

情景二：某公司当前业务及宏观环境运行良好，但是由于前期预测过高、或扩展新业务导致当前资金占用，分析师实际上会略微下调短期盈利预测。此类型的报告，文本整体表达较为积极，但最后盈利预期会略微下调，如《米奥会：2023H1净利超疫前全年，看好其贸易纽带重要性》。值得一提的是，以上讨论，实际上启发我们：细读分析师报告文本内容，往往比简单地拉取盈利预测数据更加重要。

从图4我们可以看出：研报文本和数值表达出的分析师情感有时存在偏差，所以研报文本的研究存在一定的必要性。对于文本的情绪分析而言，目前已有较多的大模型皆可实现这一功能。综合考虑成本，这里我们选取已经开源的基模型HW-Bert和Llama3，并在此基础上进行微调，辅助我们进行文本情感判断。

2.1、模型一：KY-Bert

2.1.1、 KY-Bert的构建及研报情感判断

对于Bert模型而言，在2019年Google提出bert-base基模型，紧接着各大平台纷纷基于此进行特定场景的微调。这里我们选取基于中文新闻文本的微调模型hw2942/bert-base-chinese-finetuning-financial-news-sentiment-v2，以下简称HW-Bert，并在此基础上再进行进一步的训练，使其更加适合于A股相关文本情感的预测。

基于HW-Bert的微调数据，我们选择的是数库科技的新闻文本数据，时间区间为2014年1月至2019年12月。在训练前，我们对数据做了简单的处理，主要有三步：（1）选取涉及A股且相关性在80%以上的新闻；（2）剔除文本内明显含有行情涨跌的新闻；（3）处理样本不均衡。在处理完成的新闻文本上，我们划分训练集、验证集、测试集，比例为8：1：1。

数库新闻文本具体的样例如图6所示：newsTs、newsTitle、newsSummary分别为新闻时间戳、新闻标题和新闻摘要；Relevance为标签相关度；emotionIndicator为舆情指标，主要分为3类，0、1、2分别代表中性、正面、负面。我们将训练后的模型命名为KY-Bert，在3类标签下，测试集的正确率约为88%。

紧接着，我们使用KY-Bert进行研报情感判断。具体地，一般有如下三种常见的方式：

（1）将标题和摘要合并，一起输进模型进行情感预测；

（2）将标题以及摘要里每个段落分别进行情感预测，最后合成；

（3）将标题以及摘要里每个句子分别进行情感预测，最后合成。

对于Bert模型而言，第一种做法显然不太合理，其传入文本的最大token存在一定限制，直接把一篇研报全部传入会被截断，损失较多信息。而第三种做法拆分到了每个句子的情感预测，切断了上下文的联系，噪音会加大，所以这里我们选取第二种做法。除此之外，由于每篇报告基本都存在风险提示，是报告规范必须要加上的，一般都会被判定负面段落，并无太多意义，这里我们将风险提示类的段落给删除。（注：这里的段落划分参照朝阳永续rpt_sentence_sentiment_stk表中的text_type字段）

另外，由于A股中分析师报告更加倾向于乐观表达，若将2020年1月至2024年6月所有分析师报告的段落放在一起，最终预测的正面、中性、负面比例约为8：1：1。

2.1.2、KY-Bert研报文本情感变动因子构建

有了每篇报告的标题及每个段落的情感判断后，我们将基于此构建研报文本情感变化因子。在计算变动进行报告匹配时，我们保持与数值预期调整因子计算一致，即（1）考虑到时效性，前后两次报告发布时间不超过180天；（2）前后两篇报告作者名称必须有重叠。（注：这里也测了不考虑变动的研报文本情感因子，效果近几年表现较为一般，本篇报告不再列示）

对于因子的构建方式，我们选择每月底回看过去180天，取每个机构最新一次报告的情感变化，并将所有机构的情感变化合成。这里有三个细节点会影响因子的效果：

（1）每篇报告的情感判断中是否要考虑标题？

（2）每篇报告的情感是直接使用数字1、0、-1代表正面、中性、负面，最后等权，还是使用概率值logit(正面)-logit(负面)，最后等权？

（3）将所有机构情感变化合成时，使用简单的等权还是考虑时间、股价跟随性加权？

对于如上三个细节点，我们进行了相关测试，生成了16个因子，其RankICIR对比如表5所示。

从表5我们可以得出三个结论：

（1）不考虑标题效果更好。标题作为内容的涵盖往往较为简短且不宜负面，有时会成为干扰因素。除此之外大模型对短句子的判断错误率可能会加大，比如“估值大底”这类语句很有可能被判断为负面情感。

（2）概率比数值效果更好。这一规律在是否考虑标题下，以及不同加权方式下皆成立。

（3）相较于等权而言，时间加权和股价跟随性加权效果都有所提升，但是二者结合后反而并不是最优的，这里我们尝试了多种时间和股价跟随性权重合成的方式，皆为如表5中类似结果，这里不再列示。

考虑如上3点的规律，我们最终选取不考虑标题、使用概率、股价跟随性加权作为最终的因子，这里将其命名为KY-Bert-Analyst-Sentiment-Change，简称为KY-Bert-ASC。从2020年6月至2024年6月，10分组多空对冲年化收益为8.68%、收益波动比为1.98、最大回撤为2.70%、月度胜率为68.75%。除此之外，为了展示股价跟随性加权的效果，我们和不考虑标题、使用概率、等权后的因子做了对比，可以发现股价跟随性加权极大提升了因子稳定性，多空对冲的IR从1.56提升至1.98。

2.1.3、KY-Bert与HW-Bert模型的对比

对于KY-Bert而言，其是从HW-Bert再进行训练而得到的。若直接使用HW-Bert进行研报情感预测，最后采取同样的方式也可以得到研报情感变动因子HW-Bert-AS-Change。但是该因子的多空IR仅为1.55，略低于KY-Bert-ASC因子的1.98，说明结合A股市场新闻文本再进行微调对最终因子的绩效提升有所帮助。

2.2、模型二：KY-Llama3

测试完Bert模型的效果，我们进一步测试Llama3模型。首先，我们选取的基模型为Llama3-Chinese-8bit，进一步地我们使用LoRA对其微调，微调时使用的训练数据同Bert，我们将微调后的模型命名为KY-Llama3。

2.2.1、LoRA微调过程简示

对于LoRA微调过程而言，具体可以列示为图10所示。其核心点在于利用低秩矩阵分解技术，将大模型预训练模型的参数矩阵分解为两个低秩矩阵的乘积，从而在微调时只需要调整这两个低秩矩阵，具体原理可以参见论文：《Hu, Edward J. , et al. "LoRA: Low-Rank Adaptation of Large Language Models." (2021).》。

2.2.2、KY-Llama3研报文本情感变动因子

KY-Llama3研报文本情感变动因子的构建流程这里不再赘述，同Bert中的流程，我们将该因子命名为KY-Llama3-Analyst-Sentiment-Change，简称为KY-Llama3-ASC。从2020年6月至2024年6月，该因子10分组多空对冲年化收益为8.85%、收益波动比为2.02、最大回撤为2.24%，月度胜率为66.67%。

2.3、模型三：KY-CH

对于KY-Bert模型和KY-Llama3模型而言，都是属于LLM范畴。进一步地，我们借助姜富伟等（2020）开发出的中文金融情感词典、和姚加权等（2021）开发的金融领域中文情绪词典，尝试直接计数构建情绪变动因子，具体的流程为：

（1）将分析师研报摘要每段都进行jieba分词；

（2）使用带有情感色彩的金融词典进行判断，得到某段落jieba分词后正向词汇个数P，负向词汇个数N，计算（P-N）/（P+N）代表该段落的情感得分；

（3）将该研报所有段落的情感得分取平均，作为该报告的情感得分。

因子构建方式依旧同Bert，我们将其命名为KY-CH-Analyst-sentiment-Change，简称为KY-CH-ASC，因子回测效果如图15所示。从2020年6月至2024年6月，该因子10分组多空对冲年化收益为9.34%、收益波动比为1.78、最大回撤为3.61%、月度胜率为66.67%。

2.4、三大模型的对比分析

2.4.1、三大模型情感预测比例及因子效果对比

在本部分，我们对比这三大模型的情感预测比例和因子效果，如图13所示，从中可以看出如下结论：

（1）对于研报的情感预测比例而言，KY-CH给出的正面比例最多，说明词汇计数模型较为简单，不能够达到理解上下文的作用，从而在正面词汇和负面词汇天然不对等的分析师报告中，更加倾向于给出正面的判断；从情感预测相同比例来看，三个模型相互之间都有80%以上，并没有某一个模型偏差较大。

（2）从因子相关性来看，三者皆有60%的相关性，同为大模型生成的KY-Bert_ASC和KY-Llama3-ASC相关性略高，达到了67.89%；就因子选股多空对冲而言，KY-Llama3-ASC相对最好，KY-CH-ASC相对最差。

2.4.2、三大模型因子合成

进一步地，我们将KY-Bert-ASC、KY-Llama3-ASC、KY-CH-ASC三者等权合成，合成后的因子记为KY-Combine-ASC，10分组多空对冲曲线如图13所示。从2020年6月至2024年6月，最终合成因子10分组多空对冲年化收益为11.17%、收益波动比为2.33、最大回撤为1.85%、月度胜率为70.83%。最终合成因子效果相较于任何单一模型因子而言，绩效都有所提升。

改进盈利预期调整优选组合：考虑研报文本

3.1、研报文本情绪变动因子和数值预期调整因子对比

1、文本的表述有时和数值存在些许差异；

2、情感变化因子KY-Combine-ASC更重视边际的变化。比如对于某只股票而言，针对前后两次报告，假设都是非常看好的情况，分析师数值可能会处于一直上调的状态，但是由于文本情感评分存在上限，导致上调幅度有限甚至为0，这样的场景其实经常发生在高景气投资逻辑失效的市场中。在这种市场中，高景气赛道面临的是业绩消化不了估值带来的杀估值，由于赛道景气度依旧较高，分析师预期数值可能处于一直上调的状态，而KY-Combine-ASC因子的评分并不会继续大幅上升，这或是导致在2022-2023年期间KY-Combine-ASC回撤更小的原因之一。

3.2、考虑研报文本情绪变动后，盈利预期调整优选组合稳定性提高

其他重要讨论

4.1、研报文本研究其他方法：关键词筛选

对于分析师的报告而言，其内容往往包括三大部分：最新业绩、与公司运营相关因素近况阐述、未来展望。在上述的研究中，我们集中在讨论文本的情感得分，即模型看完一篇报告后整体给出的判断。我们在思考：对于两份情感评分相同的报告，里面的关键词差异是否会对股价走势有较大的影响？比如评分都是满分的两份报告，其中一份里面涉及到很多“超预期”类的字眼，而另外一份却没有。

直接使用关键词进行定位是文本研究中简单且有效的方法，比如含有“业绩超预期”字眼的股票会比含有“业绩不及预期”股票明显绩效更好，如图18所示。

但是使用关键词研究存在两大较为严重的问题：1、关键词的筛选过程较为主观；2、过拟合现象严重，前期较为有效的关键词可能会由于市场的冲击而失效。比如疫情后的时间段内，“估值大底”、“业绩反转”类研报会变多，此时这类关键词的有效性可能会大打折扣。当然如何将研报情感和关键词再进行更好的结合，也是我们后续会继续研究的方向。

4.2、改进行业预期调整因子：考虑研报文本

风险提示

模型测试基于历史数据，市场未来可能发生变化。

注：感谢实习生吴松栗（南京大学）参与讨论。

免责声明：
您在阅读本内容或附件时，即表明您已事先接受以下“免责声明”之所载条款：
1、本文内容源于作者对于所获取数据的研究分析，本网站对这些信息的准确性和完整性不作任何保证，对由于该等问题产生的一切责任，本网站概不承担；阅读与私募基金相关内容前，请确认您符合私募基金合格投资者条件。
2、文件中所提供的信息尽可能保证可靠、准确和完整，但并不保证报告所述信息的准确性和完整性；亦不能作为投资决策的依据，不能作为道义的、责任的和法律的依据或者凭证。
3、对于本文以及文件中所提供信息所导致的任何直接的或者间接的投资盈亏后果不承担任何责任；本文以及文件发送对象仅限持有相关产品的客户使用，未经授权，请勿对该材料复制或传播。侵删！
4、所有阅读并从本文相关链接中下载文件的行为，均视为当事人无异议接受上述免责条款，并主动放弃所有与本文和文件中所有相关人员的一切追诉权。

#量化漫谈

第一时间获取行业新鲜资讯和深度商业分析，请在微信公众账号中搜索「好投汇」，或用手机扫描左方二维码，即可获得好投汇每日精华内容推送和最优搜索体验，并参与编辑活动。

深度学习赋能分析师行为：更稳的盈利预期调整组合 | 开源金工

推荐阅读

评论

友情链接

帮助中心

联系我们