作者:建榕量化研究
题图:建榕量化研究微信公众号
会议:开源一席谈
日期:2024年8月28日
主办:开源证券金融工程魏建榕团队
主题:统一框架下的沪深300指数增强
特邀嘉宾:施荣盛,安信基金量化投资部基金经理
对话实录:
胡亮勇:请您描述一下统一的指数增强投资框架。
施荣盛:我们统一的指数增强投资框架主要包含股票收益率预测、组合优化与风险管理、以及交易执行三个模块。
需要特别指出的是,在对A股市场所有股票进行分析时,我们采用的是统一的因子池和收益率预测模型。这意味着我们不会根据不同的样本域选择不同的因子池和构建各自独立的股票收益率预测模型。所有股票均使用相同的因子池和模型进行分析和预测,从而确保模型的一致性和可比较性。只有针对不同的预测周期时(3天至20天),我们会针对每个周期选择最具预测能力的因子池和相应的预测模型。这样做的目的是为了优化每个预测周期的模型性能,确保在不同时间跨度内,都能够有效捕捉股票收益率的变化趋势。
组合优化与风险管理模块的目标是在一定的约束条件下,使投资组合有效分散,控制行业、风格等各类风险暴露,从而追求投资组合长期稳定的超额收益。同上述股票收益率预测模块一样,针对不同的指数标的,我们使用同一套优化框架,以确保模型的一致性和可比性。在当前市场波动性加剧、alpha获取难度增加的背景下,我们进一步优化了组合管理策略,开发了动态优化策略。动态优化策略不仅依赖于传统的市场预期和历史数据,还会根据实时的市场表现和模型的实际运作情况,动态调整投资组合的约束条件和优化目标。这种实时调整机制使我们能够更灵活地应对市场的快速变化,提高投资组合的适应性和抗风险能力,从而最大化长期超额收益。
胡亮勇:能详细描述一下您从早期传统线性的多因子模型,到2020年完全转到机器学习模型的演变过程及心路历程吗?根据您的描述,当前的投研框架完全依赖机器学习方法去挖掘市场中非线性的规律,非线性与线性是一个互斥事件吗,为什么没有考虑将二者进行结合应用?
施荣盛:起初入行时,我们使用的也是传统的线性多因子模型,但是在实践过程中遇到诸多问题。比如:理论上,线性模型的理论基础是计量经济学,而计量经济学通常基于稀疏性假设,尽管稀疏性假设在计量经济学中的应用有其理论和实际的合理性,但在面对金融市场的复杂性时,这种假设往往与现实世界中的复杂关系不吻合。实践上,构建模型时为了确保模型的稳定性和解释能力,在组合因子时往往只能选择并纳入少量的关键因子,这样就使得有时在多因子模型中增加新因子变得异常困难。
期间,我们也尝试使用一些其他方法来解决此类问题,比如:使用主成分分析、稀疏正则化等降维和压缩方法选择重要的预测变量。后来也尝试Lasso回归、岭回归等技术,Lasso回归、岭回归等通过正则化方法处理高维数据问题,在不完全依赖稀疏性的情况下,能够有效选择重要因子,但是实践中发现这些技术的作用也是相对有限的,并没有实质性地解决我们的问题。
随着现代金融分析的发展,模型的建立越来越多地依赖于数据驱动的方法,而不仅仅是传统理论推导。大数据、机器学习算法允许我们在模型中纳入更多的因子,同时通过算法自动化地筛选和优化因子,减轻了稀疏性假设的限制。与此同时,机器学习模型在国内外一些量化机构也得到了成功的应用。结合理论与实践,我们在2020年初将研究重心转到了机器学习方向。
非线性与线性并不是互斥关系,它们在很多情况下可以同时存在于一个系统中,并且相互作用。市场中的某些规律可能是线性的,而另一些则是非线性的,单纯依赖线性或非线性方法可能都无法全面捕捉市场的复杂性,结合两者可以更全面地解释和预测市场行为。机器学习模型虽然主要用于捕捉非线性关系,但它们也能够识别并利用数据中的线性模式。比如:决策树模型可以通过多个节点组合出接近线性的分段函数。
胡亮勇:量化模型核心在于有效因子储备与迭代,能否详细介绍一下您的因子挖掘方法与选用标准,以及迭代过程?
施荣盛:在量化模型的构建中,因子的有效性和不断迭代是持续实现超额收益的核心,是我们平时最主要的工作内容。我们的因子挖掘、筛选、迭代方法依托于多年的量化投资实践与不断更新的技术手段。
首先,关于因子挖掘方面,我们早期的因子研发主要是基于经济理论和市场逻辑,无论是基本面因子还是量价因子,都是通过对公司基本面和市场行为的深刻理解进行开发。然而,随着因子池的逐渐扩展,传统因子开发方法面临着边际信息递减的问题。为了在广泛的数据中找到具有增量信息的因子,我们逐步引入了更为系统化和复杂的因子挖掘方法,如遍历算法、遗传规划以及深度学习等技术。目前,我们也尝试使用大语言模型开发一些基于文本等非结构数据的另类因子。
其次,关于因子筛选方面,我们早期主要采用两步筛选流程来构建因子池,第一步是单因子测试,初步筛选出的因子必须通过严格的单因子测试,以确保其在不同市场环境中的稳定性和有效性。针对非线性因子,我们首先将非线性因子进行各种变换,使其表现出线性特征,然后再使用传统的线性分析方法进行评估。第二步是相关性筛选,为了去除冗余的因子,我们会计算因子间的多种相关性,通过因子相关性分析剔除一些相关性较高的因子,以此两步来构建一个既具备多样性又能最大化信息增量的因子池。
特征筛选(因子筛选)本身是机器学习特征工程的重要环节,随着对机器学习模型研究和运用的深入,我们逐渐认识和认可业界广泛流传的一句话:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。因此,为了从原始特征集(因子库)中挑选出对模型预测最具价值的特征,从而提升模型的性能和泛化能力,我们在数据预处理、特征提取、特征变换及特征选择等环节,逐步引入并采用了一些机器学习中特征工程方法。
最后,关于因子迭代方面,考虑到市场环境的动态性,因子的表现可能会随之产生波动,因此,因子的动态调整与迭代是确保模型保持活力并适应市场变化的关键步骤。我们首先关注的是对因子表现的持续跟踪,通过特定的指标监控因子失效的迹象。在持续监控和识别失效的基础上,我们将剔除那些不再具备有效性的因子。此外,因子迭代的核心在于持续发掘新的因子。通过引入新的数据源、市场信息、经济理论以及技术方法,能够探索和发现新的因子。我们始终高度关注对潜在因子的敏感性,并及时进行因子的挖掘、测试和验证,不断优化模型表现。
胡亮勇:近些年,基于样本域的特性进行因子构建越来越普遍,但您提到的alpha因子并没有针对不同选股域进行特殊处理,而是在全市场进行筛选测试,这么做是出于什么样的考虑?有什么好处?
施荣盛:近年来,部分投资者尝试在特定的选股域(如沪深300、中证500等)内开发验证因子和构建模型,以期提高策略的精度和收益。然而,我们并没有在不同样本域内进行单独处理,而是选择在整个市场范围内进行筛选和测试。这种方法是基于多个关键考量,并带来了一些显著的优势。
首先,这种方法能够有效避免过拟合,确保因子的普适性。在博士研究期间,我发现顶级期刊上的实证研究通常具有一些共同特征,其中之一便是研究普遍采用更长的时间跨度和更广泛的样本域,这种方法能够降低过拟合的风险,确保因子的广泛适用性。在A股市场,如果将市场划分为不同的样本域进行因子和模型构建,可能会引发过拟合的问题。一个因子若仅在沪深300或中证500上表现优异,可能仅是由于某一特定时期的特定市场结构所致。通过在全市场范围内进行因子构建和验证,可以更好地确保因子的长期有效性,这种长期有效性对于构建稳健的投资策略至关重要。
其次,这种全市场处理的方法能够增强模型的稳健性,并降低操作复杂度。虽然机器学习模型在量化投资中的应用能够揭示市场中的复杂关系,但由于这些模型的决策过程缺乏透明性,常被批评为“黑盒子”。这种不透明性在实际操作中可能带来挑战,尤其是在模型经历阶段性回撤时,难以准确判断模型是否失效或是否需要调整。如果在多个选股域上使用不同的因子和不同模型,将大幅增加策略评估的难度和操作的复杂性。尤其在市场波动或某一选股域表现不佳时,难以快速、准确地识别出问题所在。
通过在全市场范围内进行因子筛选和模型构建,可以构建一个统一的投资框架。这个框架不仅能够减少因引入过多变量而导致的复杂性,还能在市场变化时基于统一标准对策略进行评估和调整。这样的投资框架不仅简化了操作流程,还提升了策略在不同市场环境中的一致性表现。
综上所述,在全市场范围内进行alpha因子筛选与模型构建,而不针对特定选股域进行特殊处理,有助于避免过拟合,确保因子和模型的普适性和长期有效性。同时,这种方法也增强了模型的稳健性,降低了操作复杂度。这样一个统一的框架,既能充分利用机器学习的强大能力,又能通过透明性和稳健性应对量化投资中的实际挑战。
胡亮勇:机器学习模型虽然能够有效挖掘市场中的复杂关系,但一直也被大家诟病策略透明度不够,很多结果都是黑盒子,无法直观解释与理解,如何平衡投资策略的透明度和模型的复杂性?
施荣盛:在量化投资中,平衡策略透明度与模型复杂性是一个至关重要且富有挑战性的课题。尤其是在引入机器学习模型时,透明度问题变得更加突出。我们主要从以下几个方面深入考虑并优化这一平衡:
首先,因子的选择与分析必须以透明度为基础。在构建复杂的机器学习模型时,因子筛选依然应严格遵循透明、可解释的标准。并且会通过使用诸如SHAP值等工具,量化因子对模型的贡献,明确其在不同市场环境下的作用。这种方法使得即便在复杂模型中,我们仍然能够从因子层面部分理解模型决策过程,从而提升整体透明度。
其次,在模型开发与验证过程中,历史回溯与分段分析是确保模型透明度和稳健性的重要手段。我们通常会将历史数据划分为几个特殊的时间段,分析和评估模型在每个阶段的表现。如果模型的表现与预期不符,我们会深入探究问题根源,及时调整模型,确保其稳健性,并降低模型的“黑盒”属性。这种分段分析不仅能够揭示模型在不同市场环境中的表现差异,还可以帮助实际投资中对模型的使用和评估。
此外,采用统一的模型框架极大地提升了策略透明度与管理效率。在此框架下,不同的市场指数(如沪深300、中证500、也包括主题和行业等指数)使用相同的因子池和模型结构,尽管在不同市场环境中的表现可能有所差异。当某一基准指数(如沪深300)出现回撤时,通过比较同一框架下其他基准指数的表现,可以有效判断问题的来源。这种跨样本域比较分析不仅能够识别市场结构性差异,还能帮助发现导致模型回撤的特定因子或市场条件。在实际投资运作中,我们会通过每日的复盘,详细比较不同基准的指数增强模型表现,分析差异成因,并对策略进行及时调整。这一持续的监控与优化过程,不仅深化了对模型的理解,还能有效应对市场变化,降低模型“黑盒”性质带来的不确定性。
总体而言,虽然机器学习模型的复杂性在量化投资中不可避免,透明度与复杂性之间的平衡并非一蹴而就,而是一个需要持续优化的动态过程。但通过精细的因子筛选、历史分段分析、统一框架管理以及透明度工具的应用,我们能够显著降低模型的“黑盒”特性。通过这样的平衡策略,不仅可以充分发挥复杂模型的强大预测能力,还能确保投资策略的稳健性与可解释性,从而提升策略在实际应用中的可靠性。
胡亮勇:在您的投资框架中,对于预期收益率 ,即预测周期上是如何选择的,这么处理的优势在哪?
施荣盛:在预测收益率的周期选择上,基于对产品特性、市场环境、以及竞争格局的深入理解,我们精心设计了3天至20天不等的预测周期,其中更注重3天至10天的中频预测。这一方法在多个方面展现出显著优势:
(1)交易成本与策略适配性
首先,考虑到公募基金的交易成本相对较高,过于短期的策略通常会导致高换手率,而这在公募基金的运作中不太适配。因此,选择3天至20天这一相对适中的预测周期,有助于在换手率和预期收益之间实现有效平衡。通过采用这种中频调仓策略,我们能够在保持市场敏感度的同时,及时应对市场变化,避免高换手带来的高成本,从而优化整体投资回报。
(2)差异化竞争与市场定位
固定周期调仓策略因其无法及时反映最新市场信息,可能错失关键的市场机会或未能及时规避风险,我们还在使用传统线性多因子模型时,就已经摒弃了固定调仓的方式,转而采用每日动态调仓机制,以充分利用最新的市场数据。
在量化投资领域,竞争异常激烈。头部量化私募基金通常拥有强大的算力和人力资源、以及交易成本等优势,能够在超短周期内(如T+0、T+1)迅速捕捉市场机会。然而,一些量化投资者(特别是在公募基金领域)仍然采用月度调仓策略,这种长周期策略尽管较为稳健,但在市场快速变化时可能反应迟缓。通过开发基于机器学习的中频策略,特别是将调仓周期缩短至T+3至T+10天,既避免了与量化私募基金在超短周期内抢信号,又比月度调仓策略更快速地响应市场变化,捕捉更多市场机会,从而形成我们在市场中的独特优势和定位。
(3)技术与策略的融合
选择3天至20天的预测周期,还能够充分发挥机器学习模型的优势。机器学习模型擅长处理复杂的非线性关系,而在较短的预测周期内,市场信息更为密集,非线性特征更加显著。与传统线性模型相比,机器学习模型在这一中期时间框架下更能捕捉市场的动态变化,充分发挥机器学习的技术优势,增强策略的适应性和稳健性。
胡亮勇:您能解释一下风险约束在组合管理中的作用以及如何实现组合的动态优化吗?能否通过一个具体的案例给我们解释一下动态优化的逻辑与思路?其与常规的优化差异点在哪?
施荣盛:在组合管理中,风险约束的主要目的是在追求收益的同时,确保投资组合的风险在可控范围内,防止因市场波动或其他不确定因素导致组合出现不可接受的回撤。风险约束可以采取多种形式,如对个股权重、行业暴露、风格暴露、成分股权重占比、跟踪误差等进行限制,从而使得投资组合在不同的市场条件下都能够保持较为稳定的表现。
传统的组合优化方法通常依赖于静态的约束条件和优化目标,这些条件一旦设定,通常在整个投资周期中保持不变。然而,市场是动态变化的,固定的约束条件在某些市场环境下可能会导致策略表现不佳。例如,在极端市场条件下,固定的风格和行业等约束可能无法适应市场的快速变化,导致超额收益下降,甚至增加回撤风险。
为了应对这些挑战,我们开发了动态优化策略,动态优化并不仅仅依赖于市场预期和历史数据,而是根据实时市场表现和模型的实际运作情况,对约束条件和优化目标进行调整。动态优化的核心逻辑在于:顺势而为,逆势收敛。在市场趋势较为明确、模型表现优异时,动态优化会适度放宽风险约束,使投资组合能够捕捉更多的收益机会;而在市场波动加剧、模型表现不佳时,动态优化则会收紧风险约束,保护组合免受更大损失。这种灵活调整的策略不仅能够提高组合的收益潜力,还能有效控制回撤风险。
以2024年年初的市场为例,面对一系列极端事件的冲击,市场波动性显著增加。这些事件对量化投资策略,尤其是依赖机器学习和深度学习的指数增强产品,带来了较大冲击。以安信量化精选沪深300增强为例,在1月底至2月初的市场调整中,产品超额经历了显著的回撤。特别在2月5日盘中交易中,由于产品的超额最大回撤触发了风控预设的阈值,基于动态优化策略的逻辑,产品自动提高了风险约束的严苛性。具体而言,组合优化策略提升了对成分股占比、风格暴露、行业暴露以及跟踪误差等一系列风险参数的约束,从而降低了组合的风险暴露。这一调整在随后的2月6日和7日市场进一步调整中,成功避免了更大幅度的超额回撤。然而,在2月8日及之后的市场反弹中,由于组合加强了风险约束条件,超额收益的修复速度有所滞后,这对产品全年表现产生了一定影响。尽管这次调整在反弹阶段表现平平,但从长远来看,动态优化策略通过在极端行情中有效降低组合的最大回撤,提升了组合的风险调整后收益。例如,我们的回测中,动态优化策略在2014年底和2021年底等极端市场环境中,均发挥了重要作用,有效降低了组合的最大回撤。
通过上述案例可以看出,动态优化策略在应对市场波动和控制投资组合风险方面具有显著优势。尽管某些调整可能会在短期内影响收益,但从长期视角来看,这种策略有助于提升投资组合的整体稳定性和风险调整后收益,尤其适用于当前市场波动性加剧、alpha获取难度增加的背景下,为投资者提供更为稳健超额收益的路径。
胡亮勇:在A股,择时、押中行业或风格能有效提升产品表现,择时、行业和风格的判断逐渐成为决定产品收益的胜负手。在您管理的产品中,是否会尝试结合择时、行业和风格轮动的信号来增强策略收益表现?这样决策是出于什么样的考虑?
施荣盛:在管理投资组合时,我们并未采用这些策略,主要基于我们对量化投资的深刻理解和对市场长期规律的认识。我们认为,量化投资的本质在于利用概率优势和大数定律来捕捉市场定价错误,从而获取长期稳定的超额收益。
首先,对于择时策略,仅依靠量化方法来构建择时模型在理论上存在一定局限。量化投资的核心优势在于通过大规模数据样本进行统计推断,从而得出具有统计显著性的预测。然而,择时策略的样本数量通常较少,不符合大数定律的要求,这使得单纯依靠量化方法的择时模型在统计上可能缺乏可靠性和稳健性。
一个理想的择时策略可能需要量化分析与主观判断的有机结合。量化模型可以用于计算和跟踪市场中的各类相关指标,而当某些关键指标触发时,投资者再结合市场的宏观背景和主观判断来做出最终的决策。然而,这种方法难以进行系统性的历史回测,因此很难验证策略的长期有效性。
其次,关于行业和风格策略。押注行业和风格确实能够在短期内显著影响产品的表现。然而近几年政策和市场环境变幻莫测,市场风格切换也越来越频繁的背景下,我们认为这类信号难以被有效识别。同时,轮动策略存在过度拟合的风险和较低的胜率,主观上准确预测并持续做出正确的投资决策也具有很高的难度。从长期来看,市场风格和行业轮动充满不确定性,过度押注这些因素可能导致产品的波动性增加,甚至影响产品的整体表现。
在我们的投资组合管理中,我们将行业和风格作为需控制的变量,确保组合在行业分布和风格特征上保持相对平衡。由于市场风格和行业的动量效应,我们发现alpha模型在捕捉个股机会的过程中,自然也捕捉到了行业和风格的动量收益。为了有效获取这部分收益,我们设计了动态风险控制和优化策略,希望在风险约束和回撤控制的前提下实现稳健的超额收益。
综上,我们更倾向于通过稳健的alpha模型和精细化的风险管理来追求长期稳定的超额收益,减少对市场周期变化的过度依赖,从而降低可能带来的波动性风险。我们更加关注投资组合在长期内的一致性表现,力求在市场的不同阶段保持稳健的投资收益。
胡亮勇:能否给大家介绍一下当前管理的安信量化精选沪深300指数增强(003957.OF)这只产品,其超额收益的主要贡献来源在哪些方面?历史上超额回撤主要发生在什么市场环境下,是如何应对的?
施荣盛:在评估管理产品的超额收益时,我们主要使用Brinson分解和Barra分解等方法来深入分析超额收益的来源。根据分析结果,选股收益是安信量化精选沪深300增强超额收益的最主要贡献来源。这表明,我们的alpha模型在个股选择上表现出较强的能力,能够有效整合和挖掘个股的基本面、市场情绪、技术指标等多维度信息,从中甄选出表现优异的个股。这部分收益占据了超额收益的绝大部分,是我们策略成功的核心驱动力。
如前面所述,尽管我们的策略设计并没有刻意利用行业和风格轮动的信号来增强收益,但从Brinson和Barra分解结果来看,行业和风格因素也对超额收益贡献了一定比例。这部分收益主要来源于市场风格和行业动量效应,alpha模型在捕捉个股机会的过程中也自然捕捉到了行业和风格的动量收益。此外,由于我们使用了动态优化策略,在市场顺势时会适度放宽风险约束,因此在不同时间段,行业和风格因素对超额收益也有一定的正面贡献,需要指出的是这些贡献在不同的市场环境下表现出一定的波动性。
历史上,产品也经历过一些超额回撤。回顾这些时期,我们发现超额回撤通常发生在市场风格急剧切换、极端市场环境等情况,当市场迅速从一种风格转向另一种风格、或者在市场出现极端波动或面临系统性风险、或者存在某些重大宏观经济事件冲击时,市场的相关性趋近于一致,个股的特质因素被压制,策略的选股优势难以发挥。在这种环境下,特质收益可能无法对超额收益做出正向贡献,甚至会出现负贡献。面对上述市场环境,我们主要通过动态优化策略来应对,我们会优先考虑控制回撤,将防守放在首位。这种策略的目标是在复杂和不确定的市场环境下,尽量减小回撤,保护投资组合的长期收益。
胡亮勇:随着ChatGPT等大语言模型的持续发布,相关模型开始逐渐在量化策略研究中发挥作用,请问大语言模型在您的投资策略中扮演了什么样的角色?
施荣盛:随着大语言模型的不断发展,在量化投资中的应用变得越来越广泛和深入。在我们的研究和投资过程中,大语言模型已经成为不可或缺的工具,具体在以下几个方面发挥着重要作用:
(1)大幅提升编程效率
大语言模型在编程方面的辅助作用极为显著。我们经常使用CodeGeeX和Baidu Comate等工具,这些工具利用大语言模型来提供代码自动补全、错误修正和代码优化等建议。在量化策略的开发过程中,这些工具不仅加快了编程速度,还减少了可能的错误,从而大大提高了整体开发效率。此外,在面对复杂的量化策略实现时,这些工具可以帮助快速生成框架代码,并能在不同语言之间进行高效转换,减少了手动编写代码的时间,使我们能够将更多精力放在策略的逻辑设计和优化上。
(2)加速机器学习模型的学习与开发应用
由于我本人并非机器学习专业科班出身,大语言模型的出现极大地帮助了我学习和应用最新的机器学习模型。通过大语言模型,我可以高效地阅读和理解相关的学术论文。当接触到复杂的开源代码库时,可以借助大语言模型来自动生成代码注释,甚至逐行解析代码的功能与意义。这不仅帮助我更快地理解复杂模型的实现细节,也提高了在实践中应用这些模型的效率。这种学习方式特别有助于快速掌握新兴的机器学习方法,并将其有效应用于量化策略的开发和优化过程中。
(3)拓展另类因子的发掘与探索
大语言模型具有强大的文本处理能力,特别是舆情情感分析能力,使得我们能够从非结构化数据中提取出有价值的另类因子。比如,使用大语言模型处理来自上市公司公告、分析师研报、财经新闻等海量文本数据,开发出一系列具有独特市场意义的另类因子,这些因子往往能够捕捉到传统因子难以捕捉的市场信息,具有独特的预测价值。
此外,大语言模型的多模态处理能力进一步扩展了量化投资的边界,尤其是在处理涉及语音、图像等多种数据类型的复杂市场信息时,能够为策略提供更全面的支持。
(全文结束)
版权声明:文章版权归原作者所有,部分文章由作者授权本平台发布,若有其他不妥之处的可与小编联系。
免责声明:
您在阅读本内容或附件时,即表明您已事先接受以下“免责声明”之所载条款:
1、本文内容源于作者对于所获取数据的研究分析,本网站对这些信息的准确性和完整性不作任何保证,对由于该等问题产生的一切责任,本网站概不承担;阅读与私募基金相关内容前,请确认您符合私募基金合格投资者条件。
2、文件中所提供的信息尽可能保证可靠、准确和完整,但并不保证报告所述信息的准确性和完整性;亦不能作为投资决策的依据,不能作为道义的、责任的和法律的依据或者凭证。
3、对于本文以及文件中所提供信息所导致的任何直接的或者间接的投资盈亏后果不承担任何责任;本文以及文件发送对象仅限持有相关产品的客户使用,未经授权,请勿对该材料复制或传播。侵删!
4、所有阅读并从本文相关链接中下载文件的行为,均视为当事人无异议接受上述免责条款,并主动放弃所有与本文和文件中所有相关人员的一切追诉权。