李育鑫：关于量化多因子策略的实践思考-好投汇-带你学财富管理

作者：建榕量化研究

题图：建榕量化研究微信公众号

会议：开源一席谈

日期：2024年6月18日

主办：开源证券金融工程魏建榕团队

主题：关于量化多因子策略的实践思考

特邀嘉宾：李育鑫，广发基金量化投资部基金经理

对话实录：

魏建榕：各位朋友大家好，我是开源金融工程魏建榕。欢迎收听开源金融工程《开源一席谈》系列对话。这个系列是我们的招牌会议活动，到目前为止已经做了一百多场。今天我们非常荣幸邀请到了广发基金量化投资部李育鑫总。李总是香港中文大学的经济学博士，2019年加入广发基金，投资风格特点主要是：传统多因子模型和机器学习模型相结合，通过量化模型驱动投资决策，较少进行主动干预，专注于在不确定性的市场中寻找高胜率的阿尔法，追求投资策略超额收益的长期稳定性。李总目前担任了广发量化多因子基金的基金经理，所以我们今天的对话主题取名叫做“量化多因子的实践思考”，非常期待今天的对话。下面我把时间交给我们团队核心成员、开源金融工程资深分析师胡亮勇，有请亮勇！

胡亮勇：李总，请结合您的从业经历，给各位投资者概括性地描述一下您的投资理念以及对应的研究框架。

李育鑫：首先在投资理念上，我专注于在不确定性的金融市场中寻找高胜率的alpha，注重投资策略的长期收益与超额稳定性。相较于主动权益投资，量化擅长融合来自不同维度的信息，利用广度优势获取长期稳健的超额。在这个过程中，数据源的多元化、低相关因子的充分储备、模型的多样性都非常重要，也是我持续不断投入和完善的方向。从投资风格来看，我会比较在意组合的均衡性，不论在风格因子还是alpha因子的暴露上，都避免出现过度集中的情况。有一部分量化团队会基于因子动量，主动重配近期表现突出的因子，以提升组合的超额弹性。但在我的投资理念里，还是更看重因子配置的均衡性和长期超额的稳定性，不会在中短期的超额弹性上主动做押注。

而在研究框架方面，我聚焦于alpha模型的改进和提升，大的方向分为因子开发、因子提纯和因子复合三大环节。第一个环节是因子开发，我主要以人工构造、有逻辑含义的因子为主，同时也会用到神经网络和遗传算法，挖掘一些相对黑箱但有增量信息的因子作为补充。第二个环节是因子提纯，主要是针对原始因子进行alpha的提纯，尽可能剥离掉原始因子中蕴含的风格因素，以提升超额稳定性。剥离的可以是最常见的行业、市值因子等，也可以是其他barra风格或者我们自己定义的风格因子。第三个环节是因子复合，我在起步阶段用的都是传统的线性加权模型，最近几年逐步拓展到不同类型的机器学习模型。在实际投资中，传统线性模型和机器学习模型我都会用到，使组合在风格上更均衡一些。

胡亮勇：能否请您给我们简要介绍一下您是怎么构建量化多因子模型的？

李育鑫：首先，在数据源方面，我会尽可能地追求更广的覆盖面，包括公司财报、分析师预期数据、财务附注、另类数据，日频、分钟频、Level2等不同颗粒度的价量类数据，更多的数据来源为我们寻找更多低相关的alpha提供了可能。其次，在因子库层面，我们目前储备了上千个有效的alpha因子。其中，基本面因子都是基于明确的逻辑含义构建的；价量类因子除了手工构造以外，还有一部分是通过遗传算法挖掘出来的，但占比相对不高。

而在因子合成方面，目前我们积累了多个不同的合成模型，既包括传统线性模型，也有非线性的机器学习模型。在训练过程中，机器学习模型倾向于给予价量类因子更高权重，而线性模型的因子权重则较为均衡，这导致不同模型在不同的市场环境下具备一定的差异化。通过多模型的方式，能在一定程度上平滑超额波动，提高超额稳定性。

胡亮勇：多因子模型，核心在于有效因子储备，您能否详细介绍一下因子挖掘方法与选用标准？

李育鑫：对于手工因子，我们主要有两个思路来源。一方面，通过阅读卖方研报和文献寻找灵感，并结合自己的思考进行改进；另一方面，也会尝试对市场定价行为进行观察和总结，从中寻找规律，并构建成因子进行有效性测试。举个例子，通过数据统计，可以观测到市场整体交易量在整除5分钟的时点会有一定的放大趋势，比如10点整到10点01分，10点15分到10点16分，这与我们对于部分机构或交易算法习惯于在这些时间点位开始做交易的认知也是吻合的。基于类似的观察规律，可以尝试去挖掘一些价量类因子。除此之外，我们会对因子库中的已有因子不断进行优化改进，从边际上提升因子效果。

对于算法自动挖掘的因子，我们主要利用遗传算法和神经网络，持续进行因子挖掘。这种做法的优势在于能寻找到一些与手工因子相关性较低的有效因子，但劣势在于可解释性较差，因此在实际因子库中，我们会对这类因子的占比进行一些控制，入库标准也更高一些。根据我们的持续跟踪，这类算法挖掘的因子在样本外的整体衰减程度，相比于手工因子并不会有很明显差异。而在筛选标准上，我们主要会考虑IC、ICIR、多头超额以及因子间相关性这几个方面，比较看重因子表现的稳定性。比如，会考察因子在不同年度的表现是否都比较稳健，避免因子超额集中来源于某一段时间的情况，从而减少风格因素可能造成的潜在影响。另外，有些因子的IC、ICIR很高，但是多头超额表现欠佳，这种现象在价量类因子中较为常见。这种因子加入模型后通常会降低复合因子多头端的选股能力，因此，我们要么是能寻找到优化的方法提升因子的多头表现，更多情况下，我们会将这类因子剔除。

胡亮勇：近几年，深度学习模型已高度融入量化投资策略的开发，请问李总怎么看待深度学习模型在公募量化投资端的应用？在当前监管机构对高频量化投资监管日趋严格的背景下，其有哪些优势，又会面临哪些方面的掣肘？

李育鑫：概括来说，深度学习模型在量化里面的运用可以分成两大类，第一类是“端到端”的学习。将原始数据或特征作为模型的输入，经过神经网络最终输出对股票的alpha预测，或者是将神经网络的中间层提取出来作为alpha因子，与原有的因子库进行融合，这种做法更为普遍；第二类是将神经网络模型用作因子复合的工具。输入端是已有的alpha因子，通过模型最终输出对股票的综合alpha得分。而深度学习本身的优势在于，它具有很强的学习能力，通过多层网络的叠加，能够学习到非常复杂的规律。从实际应用的效果来看，通过不断的模型优化和参数调优，深度学习应用于量化选股确实能有不错的表现，尤其是在过去几年里的超额表现突出。

不过，它也有一些劣势。一方面，可解释性较弱，黑箱成份较重，对于一部分注重逻辑的投资人员来说不太能接受；另一方面，尽管不同量化团队构建深度学习模型的方式和细节可能不尽相同，但是最终学习到的规律还是容易同质化，从而导致策略的拥挤，在不利的市场环境下可能集体发生较大回撤。另外，由于深度学习主要从市场价量类数据中提取信号，它的表现在近几年与小微盘风格的走势具备一定的相关性，在当前环境不太利于小微盘风格的背景下，深度学习模型的超额表现容易受到一定压制。

对于我本人而言，策略效果好，同时逻辑含义清晰，这是比较理想的情况。而对于较为黑箱的深度学习模型，如果经过严谨的数据验证，确实证明它能长期获取稳定的超额，那么就可以纳入原有的量化体系进行增量补充，但在影响占比上需要做一些控制，避免发生较大的不可控的回撤。

胡亮勇：随着A股上市公司突破5000家，偏小市值风格个股数量大幅增加，李总能否介绍一下小盘增强产品与大盘增强产品在策略构建维度的共性与特性？

李育鑫：首先在共性上，这两者的整体策略框架基本都是一致的，包括因子的筛选机制、因子的合成过程、组合优化的结构等。而在差异性方面，本身中小市值股票里面个人投资者的占比是比较高的，非理性交易造成的错误定价更为普遍，很多价量类因子在中小市值域中选股能有显著且稳定的超额，因此在构建alpha模型时，价量类因子占比会更高一些；而在大市值股票中，机构参与度更高，不论是基本面因子还是价量因子，超额空间都被极大压缩，而由于价量因子本身会带来更高的换手，在考虑交易磨损后性价比反而不如基本面因子，因此大盘增强产品在构建alpha模型时，适合更多使用基本面因子，或者是一些偏中长期动量的低频价量因子。

而另一个维度来看，在风格约束参数的设置上，由于小盘增强的超额空间较高，保持适当宽松的敞口，牺牲一定的跟踪误差来换取更高的超额是有意义的，在风格约束上可以宽松些。而大盘增强本身的超额空间较小，加之配置这类产品的机构客户较多，对于超额波动的风险忍受度低，因此适合用更严格的约束限制。

胡亮勇：2024年以来，A股市场环境相比两年前发生了显著变化，微盘股1月底的大幅下跌，推动市场风格偏好开始从小盘切换到大盘，这对量化策略的潜在影响主要体现在哪些方面？有何应对措施？

李育鑫：从影响层面来看，在风格收益这个维度上，今年以来小市值因子的负超额非常显著。截至6月14日，沪深300上涨3.22%，而中证2000却下跌了19.89%，万得全A等权指数也下跌了17.62%。在全A指数的5300多家公司里，市值50亿以下的超过3000家，市值100亿以下的超过4000家。这种市值分布结构，造成大部分的量化策略都很容易在市值因子上有负向暴露，尤其是全市场选股、对中大市值股票持有占比不作硬性约束的量化产品，在今年的行情下普遍表现欠佳。

从alpha层面来看，今年价量因子整体表现都不太好，在3次微盘大幅下跌时均发生了很明显的回撤。一方面，很多价量因子跟小微盘有风格上的重合，比如反转、非流动性等；另一方面，今年3次微盘大幅下跌都是由于某些触发性因素，导致大量资金在短时间内一致性地从小切大，而这其中又以价量因子为主的量化策略的资金所占比重较高。在小切大的过程中，价量因子打分较高的股票由于原先被这部分资金持有的量更大，在被卖出时受到的冲击也更为明显。

而对于大部分基本面因子而言，由于本身跟小微盘风格的重合度较低，甚至会略偏向于大市值股票，在今年的风格下反而容易受益。尤其是4月份“国九条”提出后，市场对股票的基本面重视度提升，资金更青睐于基本面较优的公司，从而有利于推动基本面因子的超额表现。因此，今年以来以基本面因子为主的传统多因子模型，相比于价量因子影响占比较高的机器学习模型有更好的表现。

在应对措施方面，我觉得可以从两个维度进行探讨，一是市值暴露是否需要调整，以及调整幅度多少为宜；二是模型配置和因子配置层面需要如何做调整。首先，在市值暴露上，考虑到目前的环境对小市值风格形成压制，基于风险控制的考量，适当地收紧市值负偏离还是有必要的，至少持有20亿以下微盘股的比例应有所控制。而在调整幅度上，我倾向于仅在边际上略做收紧，因为当前小市值受压制更多是由市场风险偏好引起的，而这并不是一个长期因素。如果从目前指数的估值分位数来看，不论是与过去5年还是过去10年相比，国证2000的TTM-PE均处于约16%分位，PB均处于约2%分位；沪深300的 TTM-PE均处于约36%分位，PB均处于约5%分位。虽然我们并不能直接由此得出未来小市值风格表现就能超越大市值的结论，但至少长期来看，小市值再大幅跑输大市值的可能性较小。

部分人可能会用万得微盘股指数作为小市值风格的代理变量，并由此得出“小市值还很贵”的结论。但实际上，万得微盘股指数作为将beta和alpha杂糅为一体的指数，在编制上存在很多不可得的收益。首先，它是每天对成份股进行调整，将涨上去的股票剔除、跌下来的纳入，并且将股票权重每日重置为等权，相当于不断在做零交易成本的高抛低吸；其次，如果某支微盘股指数的成份股在T日收盘后被风险警示，会在T+1日开盘前就已经被指数剔除，从而不会影响指数T+1日的涨跌。换言之，万得微盘股指数的编制规则天然地避免了“踩雷”。

用具体数据来分析，万得微盘股指数在2019年1月2日至2024年6月14日期间累计涨幅206.5%，年化收益23.6%；但如果按照微盘股指数在2019年1月2日的权重买入股票并一直持有至2024年6月14日，累计涨幅仅40.8%，年化收益6.7%，表现与同期国证2000的累计涨幅29.22%较接近。因此，如果用万得微盘股指数观测小微盘风格的中长期表现，容易得出失真的误导性结论。相比之下，选用中证2000、国证2000等相对静态的宽基指数则更有代表意义。

在政策不断强调高质量发展的基调下，相比于仅凭大小市值一刀切，更根本性的公司质地因素才是我们真正需要更加关注的。因此，在模型配置和因子配置层面，我认为可以适当上调传统线性模型的权重，提高基本面因子的影响力，尽可能减少踩雷的概率。

胡亮勇：在A股，押中行业或风格能有效提升产品表现，行业和风格的判断逐渐成为决定产品收益的胜负手。您在管理过程中，是否会结合行业和风格轮动的信号来辅助策略实施？

李育鑫：在中短期的时间维度上，风格和行业对收益率的影响是显著高于alpha的，如果有足够信心能在行业和风格上做出较高胜率的判断，我觉得在模型体系里融入行业和风格轮动的信号是有很大意义的。当然这里有两个前提，一是有成熟的框架体系支撑行业风格决策，并且在足够长的样本外区间里得到验证；二是产品管理人在心态上需要更强大，能承受行业风格偏离带来的额外波动，在不利的市场风格下能坚守住原先的决策体系。

具体到我本人，之前也尝试过在行业和风格轮动层面做过一些量化模型的探索，但发现只依赖模型的话很容易过拟合，长期来看能带来的增量实际并不高。因此，我个人的看法是如果希望能通过行业和风格轮动获取额外的超额，还需要在中观和宏观层面有足够的知识储备和深入的理解，在做决策的时候同时结合定量数据和定性判断。因此，在管理的产品中，我还是聚焦于如何获取更高更稳定的alpha收益，在行业和风格层面并不会主动做额外的判断。

胡亮勇：李总，对于量化多头类别的产品，您的投资思路是什么？

李育鑫：传统的沪深300和中证500等宽基指数增强产品对于成分股最低持仓占比有较严格的限制，而更能发挥量化多因子体系优势的还是在全市场范围内进行选股。因此，由于量化多头产品通常不受成分股比例的限制，我认为更适合定位成在全A股市场中挑选alpha得分较高的一批股票构建组合，在较长的时间维度上通过不断积累alpha收益，以期最终获取较好的收益体验。在运作过程中，我们会约束相对锚定基准的行业风格敞口，但在参数设置上相比传统的指增策略更为宽松。

举个例子，如果量化多头产品的业绩基准是国证2000指数，一方面，产品的定位侧重于最大化持仓alpha，而并不是非常严格地跟踪国证2000指数本身，我们认为过于严格的约束会降低长期超额，从而影响策略收益；另一方面，由于将国证2000指数确定为评判产品超额表现的比较基准，我们还是希望至少在月度的持有周期里能有较高的超额胜率，完全不控制风格敞口也不太现实。综合这两方面，我们会在组合优化的过程中选择适度宽松的控制约束参数，尽可能在不明显降低全市场选股alpha收益的前提下，力求保持相对国证2000较高的月超额胜率。

今年以来，小市值表现显著弱于大市值，一部分原本风格偏中小盘的量化多头产品陆续往大市值方向切换。而我的理念是淡化短期波动，坚持做长期正确的事情。市值风格虽然短期影响显著，但长期具有明显的均值回复特性。短期的alpha虽然微不足道，但贵在可以不断积累，积少成多。如果全市场选股的超额空间能保持在较高水平，之前的定位就很难发生改变。另外，在产品定位上坚守既定的赛道，不做风格漂移，这也便于客户对产品进行更准确的分类和收益归因，贴上更清晰的标签。

胡亮勇：您前边提到重点关注超额的稳定性，请问在投资运作过程中具体如何实现？从实践的效果来看怎么样？另外，在投资管理中您是否会对宏观进行量化判断，从而进行仓位调整呢？

李育鑫：在投资运作过程中，我们希望通过量化策略的均衡提高整体超额稳定性，其中均衡包括两个层面：一是相对锚定基准在风格行业敞口上的暴露不至于过大；二是在细分alpha因子上暴露均衡。

具体到平衡的实现方式上，主要来源于三个维度。首先我们通过使用多模型均衡配置的方式构建持仓组合。不同模型虽然长期超额收益接近，但在不同市场环境下的表现有所差异。例如，机器学习这类模型通常在价值因子与价量类因子上有更高暴露，与微盘股指数表现具有较高相关性。而一些传统的线性模型会偏向基本面因子，在成长风格上暴露更多，多模型组合后能在不同大类因子和风格上达到更平衡的水平。第二个维度是对于每一个模型，我们运用的细分alpha因子数目较多，从而确保每个模型都不会过于极致地暴露某类风格。第三个维度是在优化器层面，对每个模型通过约束项控制行业风格敞口暴露。最后把不同模型合并起来之后，他们相对于指数本身基准的行业风格敞露也是能从中得到控制的。

从实践效果来看，比如我们有基准为国证2000的策略在实盘上进行运作，通过前边提到的三个维度，在一年左右的时间段里实现了相对国证2000指数约92%的超额月胜率，超额幅度在18%左右，整体而言超额表现较为稳定。

在仓位管理上，由于我本身聚焦alpha，并且在我的投资运作体系里，尽量做高胜率、有把握的决策，而择时的不确定性较高，一旦做错所面临的压力和风险都很大，因此在投资过程中通常没有涉及到对仓位的择时。

（全文结束）

（纪要整理：马佳利）

免责声明：
您在阅读本内容或附件时，即表明您已事先接受以下“免责声明”之所载条款：
1、本文内容源于作者对于所获取数据的研究分析，本网站对这些信息的准确性和完整性不作任何保证，对由于该等问题产生的一切责任，本网站概不承担；阅读与私募基金相关内容前，请确认您符合私募基金合格投资者条件。
2、文件中所提供的信息尽可能保证可靠、准确和完整，但并不保证报告所述信息的准确性和完整性；亦不能作为投资决策的依据，不能作为道义的、责任的和法律的依据或者凭证。
3、对于本文以及文件中所提供信息所导致的任何直接的或者间接的投资盈亏后果不承担任何责任；本文以及文件发送对象仅限持有相关产品的客户使用，未经授权，请勿对该材料复制或传播。侵删！
4、所有阅读并从本文相关链接中下载文件的行为，均视为当事人无异议接受上述免责条款，并主动放弃所有与本文和文件中所有相关人员的一切追诉权。

李育鑫：关于量化多因子策略的实践思考

推荐阅读

评论

友情链接

帮助中心

联系我们