数据驱动的投资思想史-好投汇-带你学财富管理

作者：石川，北京量信投资管理有限公司创始合伙人，清华大学学士、硕士，麻省理工学院博士。《因子投资：方法与实践》领衔作者，《机器学习与资产定价》译者。

封面来源：https://www.pexels.com

未经授权，严禁转载。

摘要

郑重推荐友王闻老师关于另类数据的新书姊妹篇《另类数据：理论与实践》与《另类数据：投资新动力》。

数据，无论它被赋予“传统”还是“另类”的标签，是投资中最重要的组成部分。没有数据、没有高质量的数据，再厉害的模型、再高效的算法也是徒劳。

在 CRSP 被建立之前，华尔街充斥着某某一夜暴富的传说；而当 CRSP 出现之后，对股市的定量研究走上了台面，Eugene Fama 的有效市场假说成为了范式。

在 Compustat 被推出之前，人们对基本面数据和股票价格是否有任何联系持怀疑态度；而应用 Compustat 数据，Ball and Brown 通过 event study 证实公司盈余和股价之间的密切关联。从此，会计学也体面地从研究记账转向研究财务信息如何影响资本市场。

在 Odean 数据集（retail investor 交易账户数据）普及之前，人们将 CAPM 或 Fama-French 三因子模型下的异象解释为数据挖掘（data snooping）或风险补偿的产物；而以 Odean 数据集为研究目标的行为金融学的发展为各种因子和异象背后的成因提供了新的依据。

在 I/B/E/S 分析师一致预期数据被完善之前，学界和业界研究股票 cross-section 的协变量焦点聚焦于来自基本面（比如 value）和技术面（比如 momentum）；而 I/B/E/S Estimates 数据极大拓展了协变量的范畴，为资产定价和量化投资提供了不可或缺的增量信息。

……

我们可以把上面的排比段一直延续下去，而不断涌现的数据集也向人们明确地传达出两个信号：（1）无论是 CRSP、Compustat、Odean 还是 I/B/E/S 数据集，在它们被提出之初，对于彼时投资者而言，均是全新的存在。虽然如今它们早已家喻户晓，但在当初依然可以被视作不折不扣的“另类”数据。（2）新数据以及随之而来的新的分析方法的出现，不断重新塑造并推动了人们对于金融市场的理解。

人们对于新数据的包容性接受和创造性使用，恰恰是一部由数据驱动的投资思想史。

站在当下，面对数据在过往投资中发挥的作用，似乎怎么强调数据的重要性都不过分；而展望未来，我们又应该怎样以客观的眼光和科学的手段面对和使用新数据呢？为了回答这个问题，以数据的视角回顾一下投资方法论创新的发展，并以此为起点更好地迎接未来新数据带来的想法创新和风险挑战似乎成为了一个必然之举。

这也正是今天我想郑重推荐好友王闻老师和他的合作者孙佰清老师关于另类数据的新书姊妹篇《另类数据：理论与实践》与《另类数据：投资新动力》的初衷。

不过在那之前，先让我们跟随王老师的精彩描述，回顾一下数据驱动的投资思想史。我可以摸着良心说，这段回顾精彩纷呈！（以下小结节选自《另类数据：投资新动力》尾声，有删减，参考文献有更新。另外我在适当的地方，加入了 [川总写量化]/[因子动物园] 公众号之前创作的相关内容的链接，供读者参考。）

学术界通过数据来分析资本市场，可以追溯到 Alfred Cowles (1933)。Cowles 是《计量经济学》这本全球经济学顶刊的创办人之一，他在这本期刊的第一卷上发表了题为《股市预测者能够预测吗？》的文章。在这篇文章中，Cowles 搜集了金融机构推荐的股票、保险公司的股票交易记录、《华尔街日报》中的社论以及金融机构的投资通讯等四类“股市预测者”，通过那个时代能够理解的数据分析工具，对文章标题的问题给了简单明了的回答：“这是值得怀疑的”。十年之后，Cowles (1944) 在《计量经济学》发表的一项新的研究，其中使用了 15 年内将近 7000 个预测数据。结果再次表明“没有任何证据能够证实，人们能够成功预测股市的未来走势”。

时间来到二战之后，伦敦经济学院的统计学教授 Maurice Kendall (1953) 在《皇家统计学会杂志》这本历史最悠久的统计学杂志上发表了《经济的时间序列分析》，在这篇文章中，Kendall 研究了股票市场和商品期货市场的价格数据，结果表明资产价格“序列的数字就好像是在‘漫游’”。Cowles-Kendall 的分析构成了资产价格随机游走假说的最初证据。按照古典经济学思想，价格是由供需决定的，在此基础上通过蛛网模型刻画的价格动态变化就会有着明确的变化模式。然而 Cowles-Kendall 的数据分析结果并没有支持这种价格有规律变动的假说。

1960 年，芝加哥大学的 James Lorie 和 Lawrence Fisher 在美林证券的支持下，创立了证券价格研究中心（CRSP）。它与其说是研究中心，不如说是一个历史股价的数据库。一开始它显然是那个时代的“另类”数据集，这并不妨碍它后来成长为全球金融市场数据研究中最常使用的数据库。CRSP 的出现激发了更多学者开始关注金融市场的价格，很快金融市场的研究摒弃了古典经济学的价格理论，从经济学的边缘走到了经济学的中心舞台。

不久之后的 1964 年，麻省理工学院的教授 Paul Cootner 把相关文章汇编成册，由此产生了当时影响深远的第一本金融实证分析论文集：《股票价格的随机特征》。在应用 CRSP 数据库方面，芝加哥大学教授、2013 年诺贝尔经济学奖得主 Eugene Fama 绝对是关键性的人物。面对随机游走的实证证据，作为博士刚毕业不久的年轻人，Fama 在 1965 年的《商业杂志》上全文发表了其博士论文《股市价格行为》。这篇近 70 多页的长文，一方面应用各种当时的统计技术分析价格，另一方面也对资产价格的随机特征给出了直觉性的经济解释：影响资产价格的关键是投资者的预期，而影响预期的则是信息，因为信息是以不可预见的方式到达市场，所以价格是随机变动的。

这一简单而又深刻的论述把预期、信息这些关键概念引入到资产价格分析中，打破了古典经济学围绕供需论述价格形成机制的思想梏桎。几年之后，Fama (1970) 把 1965 年文章的思想总结为“一个价格始终‘充分反映’可得信息的市场被称为是‘有效的’”。至此，金融经济学领域中经典的“有效市场假说”问世了。后来这个思想超出了金融学的范畴，延伸到社会科学的其他领域。

在有效市场假说形成的过程中，除了针对资产价格自身时间序列分析得到的随机波动特征之外，另外一个重要脉线是事件研究（event study），也就是分析特定公司事件对股价的影响。显然，事件研究需要使用能够反映公司基本面的财报数据，以及各种公司公告的资料。在这方面最为重要的数据库是标准普尔这家金融服务商提供的 Compustat。

事件研究的起点（之一）是芝加哥大学的 Ray Ball 和西澳大学的 Phillip Brown 在 1968 年做的研究，他们应用 Compustat 数据库，分析了公司盈余对股价的影响，结果表明当公司发布正向盈余时，股价就会迅速做出正向反应，反之亦然。这个发现进一步支持了资本市场是信息有效市场的假说。在当时信息经济学崛起的大背景下，Ball-Brown 的研究让会计转变成为一门研究财务信息是如何影响资本市场的学问。

有效市场假说的重点是资产价格的动态变化，那么资产价格在截面上（cross-section）的差异如何理解呢？上个世纪六十年代，诺奖得主 William Sharpe 和另外几位学者先后独立创立的资本资产定价模型（CAPM）为其奠定了理论基础。CAPM 模型把资产（超额）预期收益率表示为市场风险溢价因子的线性函数，因为只有一个因子，所以这个模型也被称为单因子模型。进入到 70 年代后，诺奖得主 Robert Merton 以及另外一位（川总带感情色彩地插一句：理应也成为诺奖得主的）金融研究大家 Stephen Ross 分别从均衡和套利这两个核心思想出发，创立了时跨资本资产定价模型（ICAPM）和套利定价理论（APT），这两个模型都把资产预期收益率表示为多个因子的函数，因此也被称为多因子模型。

这些因子模型在数据中的表现如何呢？在这方面，我们不得不再次谈及 Fama 的贡献。1973 年，Fama 和 James MacBeth 通过应用 CRSP 数据，在实证分析中得到了支持 CAPM 模型的证据。与此同时，这篇论文创立了以他们名字首字母命名的 Fama-MacBeth 回归，后来也成为资产定价实证分析的经典方法。

上个世纪 70 年代，金融学界建立起以有效市场假说和资本资产定价模型这两个支柱为核心的标准范式，并且认为这个范式是牢不可破的。但是很快，一些学者开始使用更新的数据以及更新的统计方法来讲述不同的故事：他们发现了背离前述经典范式的异常现象，简称异象（anomalies）。

异象研究首先挑战了 CAPM 模型，其中的代表性研究是来自加拿大马克马斯特大学 Sanjoy Basu 和美国西北大学的 Rolf Banz。Basu (1977) 发现了市盈率这个指标和股票平均收益率存在着 CAPM 模型不能解释的负向关系，后来学者也发现了其他一些市场价格和会计指标的比率也有类似效应，它们被统称为价值效应；而 Ban (1981) 则发现以股票市值度量的公司规模要比股票贝塔更能解释收益率的截面差异，由此产生了“规模效应”。

另一方面，就资产价格的时间序列来说，其随机游走的性质也受到挑战，这方面研究的代表人物是华人学者、现任麻省理工学院教授罗闻全（Andrew Lo），他和当时在沃顿商学院的合作者 Craig MacKinlay 合作发表了一系列的文章，用全新的统计方法研究股票价格的时间序列，所有这些研究后来汇集成册，书名直指他们的核心结论：《非随机游走降临华尔街》。

从上个世纪 80 年代开始，整个资本市场的实证研究卷入到经典范式和异象之间的争论之中，就此产生了三大不同的学术流派。第一大流派可以看作是经典范式的“忠诚者”，这一流派的基本思想是市场是完美的，市场中的参与者也是完美的，我们在数据中发现的各种“异象”只是各种数据挖掘的结果，因此存在着各种偏差，比如幸存者偏差、选择偏差等。第二大流派是经典范式的“革新者”，这一派的学者坚守新古典经济学的基本原则，认为市场参与者是理性的，市场以及我们分析市场的方法中存在着问题，比如实证分析中没有考虑到各种交易成本导致的市场摩擦，以及 Roll 批评（Roll's Critique）等。最后一派的学者可以看作是经典范式的“异教徒”，他们一方面认为市场是不完美的，但同时更进一步，他们背弃经济学传统的个人理性原则：借鉴心理学中发现的各种心理偏误，他们把资本市场的异象和个人非理性行为联系起来，由此产生了行为金融学（behavioral finance）。

这场大争论涉及了诸多金融顶尖学者，其中光谱两端的代表人物，经典范式的支持者 Eugene Fama 和异教徒 Robert Shiller，以及广义矩估计这种资产价格实证分析方法的发明人 Lars Hansen，一起因为“在资产价格实证分析中的贡献”而分享了 2013 年诺贝尔经济学奖。另外一位行为经济学的代表人物，同样来自芝加哥大学的教授 Richard Thaler，也因为包括行为金融在内的行为经济学贡献，而独享 2017 年诺贝尔经济学奖。

作为有效市场假说的提出者和坚定支持者，Fama 和他后期研究的主要合作者，来自达特茅斯学院的 Kenneth French，从 1992 年开始用一系列的文章，提出了基于数据驱动并且可以融入规模效应和价值效应的三因子模型，用以解释当时市场中发现的各种异象（Fama and French 1992, 1993）。需要指出的是，Fama (1991) 在《有效资本市场：第 II 集》中曾把多因子模型看作是一个“事后从数据中寻找能够描述平均收益率截面变量的许可证”（这后来也被学界戏称为使得挖因子变得合理化的“钓鱼许可证”（fishing license））。

就此而言，Fama 看起来对使用多因子模型来刻画资本市场持谨慎保守的态度；但是面对着来自数据的持续挑战，他自己很快修正了一些立场，转而使用多因子模型赋予的“钓鱼许可证”去寻找可以解释各种截面异象的因子以及因子模型了。在之后的多因子模型之争中，Fama and French (2015) 在三因子模型基础上加入了盈利因子和投资因子，从而把解释收益率截面的因子模型扩展到五因子模型。对于这场从上个世纪 80 年代开始持续至今的大辩论，感兴趣的读者可以参阅瑞典皇家科学院撰写的诺奖科学背景以及三位诺奖得主的颁奖演说。

在这场大辩论中，有一个另类数据特别有意义，这就是行为金融学者 Terrance Odean 使用的散户投资者（retail investor）交易账户数据，后来这个数据集也被称为 Odean 数据集。这个数据集是由一个未署名的全美证券经纪商提供的，通过这个数据集，Odean 和合作者进行了一系列微观层面上散户投资者实际交易行为的研究，这些研究在总体意义上表明，散户投资者会持有相对集中的投资组合，他们交易很活跃，投机性很强，而这些行为会让他们的投资绩效不佳。另外，作为一个整体，散户投资者会表现出系统性而非随机性的交易行为。有关这些研究的综述，读者可以参考 Odean 和 Brad Barber 于 2013 年在《金融经济学手册第二卷》上发表的综述文章。

进入到新世纪第二个十年，大数据、人工智能和机器学习、云计算和量子计算等新兴科技带来的数据、算法和算力全方位的突破，极大地影响和改变了我们人类社会，当然也包括金融市场的研究与实践。面对技术突破，金融、财务和会计学的学术研究，不断发现新的针对股票收益率的预测变量。来自芝加哥大学的 John Cochrane，在其 2011 年美国金融学会主席演讲中，把不断增加的收益率截面预测变量，称为“因子动物园”(factor zoo)。

金融大数据产生的“因子动物园”给资产定价的实证研究带来了极大的挑战。首先，随着因子动物园的扩充，一个显而易见的统计挑战是，在回归方程中右侧变量的个数在快速接近观测值（以及观测时段）的个数，这样传统的低维统计分析便难以适用，我们需要使用更为复杂的高维统计分析方法（high/large dimensional statistics）。

其次，针对相同或者相近的数据集进行多个不同因子的检验，会带来虚假的统计显著性，进而造成 p-值操纵（p-hacking）和多重假设检验（multiple hypothese testing）问题。在这方面，杜克大学 Campbell Havery 教授在 2017 年美国金融学会的主席演讲上做了有力的说明，同时他还和华人学者刘岩撰写了一系列文章探讨这类资产定价实证研究中的问题。

第三，学者们实证研究中发现的预测变量和收益率之间的关系都是在事后从已观测数据中得到的，因此存在着前瞻性偏差（look-ahead bias）：站在事前，这些预测变量的预测效力以及它们和目标变量之间的关系并不必然是已知的，对于现实世界的投资者而言更是如此，这正是伦敦经济学院的 Ian Martin 和芝加哥大学的 Stefan Nagel 两位学者提出的投资者学习（investor learning）问题（Martin and Nagel 2022）。

大数据时代产生了众多可能存在的预测指标，在它们形成的高维环境中，多重假设检验和投资者学习的挑战会变得更加严重。其核心问题是：资产定价的异象研究可能存在着“复制危机”（replication crises）。一方面，当使用略微不同的数据集或者数据分析方法时，异象是无法复制的，按照三位在美华人金融学者侯恪惟、薛辰和张橹（Hou, Xue and Zhang 2020）的说法：“大多数异象按照当前可接受的标准而言无法成立”。另一方面，这些异象在真正的样本外可能是不存在的，用 Harvey, Liu and Zhu (2016) 的说法：“大多数金融经济学中声称的研究发现很可能是错误的”。

除了上面这些问题以外，来自法国和瑞士的三位金融学者 Dessaint, Foucault and Frésard (2022) 提出了另类数据存在着时长效应（horizon effect）问题。例如各种预测公司盈余这类财务指标的另类数据，考虑到这些另类数据主要涉及短期信息，所以 DFF 把它们称为短期导向数据（short-term oriented data）。由此而来产生的题是：这类数据可以改进财务预测吗？通过使用卖方分析师的预测数据，DFF 发现随着另类数据逐渐进入投资世界，分析师们针对短期（短于 1 年）财务指标的预测质量提升了，但是针对长期（长于 1 年）财务指标的预测质量则是下降了，并且两者产生的净效应是模糊的。因为资产价格是短期和长期现金流折现的总和，这样另类数据的价值也就存疑了。

在面对由另类数据带来的高维环境中，应该如何应对上述学术研究的挑战呢？学术界当前给出的答案是使用各种机器学习模型加以应对。芝加哥大学的华人学者顾诗颢、修大成以耶鲁大学的 Bryan Kelly 在他们 2020 年刊发的经典文章中，指出资产定价的机器学习方法可以用来描述：“(a) 用于统计预测的各种高维模型集合，(b) 用于模型选择和缓解过拟合的正则化方法，以及 (c) 在大量可能存在的模型设定中有效的搜索算法”。近几年来，应用正则化、决策树、集成方法、深度学习和各种不同主成分分析的机器学习研究层出不穷。

此外，耶鲁大学的 Stefano Giglio 以及 Kelly 和修大成在 2022 年发表了一篇综述论文，其中总结了当前资产定价中机器学习方法的研究现状，同时指出了未来的主要研究方向。不过，上述机器学习的方法并不能很好地解决前面提及的多重假设检验和投资者学习。

考虑到这一点，Nagel 教授在近期《高维世界评估市场有效性》的报告中提出使用实证贝叶斯方法（empirical Bayes method）来应对这两个难题。该方法通过金融数据来形成相关的先验信念，进而分析资产定价的可预测性问题，比如，Chinco, Neuhierl and Weber (2021) 根据已观测数据来确定某个预测指标是异象的先验概率分布，他们把这个概率称为异象基率（anomaly base rate）。此外，实证贝叶斯方法还可以用来处理 Giannone, Lenza and Primiceri (2021) 提出的稀疏性幻觉（illusion of sparsity）的问题。所谓稀疏性，是指在当前主流的资产定价多因子模型中，通常只存在少数几个定价因子。但是在高维环境下，稀疏性假设就不合理了，Bryzgalova, Huang and Julliard (2023) 采用贝叶斯方法支持了容许数十个因子的模型。最后，Jensen, Kelly and Pedersen (2022) 在最近一篇引发学界热议的论文中，通过贝叶斯方法否定了“复制危机”的存在。从实际应用的角度来看，考虑到另类数据当下和将来带来的大量潜在的预测指标，贝叶斯统计方法在高维环境的资产定价分析中会更有裨益。

从投资实务的角度来看，赚取风险调整后的超额收益是第一要务，因此构造可以获利的投资组合是最终目的。在包括回归、决策树以及神经网络这些主流的有监督学习方法中，我们首先要估计收益率截面。在这方面，或许更为直接的方法是使用强化学习（reinforcement learning）这种具有无监督特点的学习机制，它可以处理投资决策和市场之间的交互关系，从而在不需要考虑资产定价的情况下给投资组合进行建模。

此外（本段为川总所加），伴随着协变量高维数问题的另一思潮是“越复杂越好”这一听上去有些颠覆的观点。2019 年，Belkin, et al. (2019) 发现了机器学习中样本外误差的“double descent”现象，引发了机器学习领域和理论统计领域的广泛讨论。该文指出当变量个数 > 样本个数时，样本外总误差并没有“爆炸”，而是随着复杂度的提升单调下降。这背后的直觉解释是，模型越复杂，越是对真实世界的更优近似，而这种近似带来的好处在特定的情况下可以盖过因 over-parameterization 造成的统计成本。在资产定价领域，Bryan Kelly 和他的合作者一起写了一系列“复杂度美德”的论文（例如 Kelly, Malamud and Zhou 2022），从不同角度探讨了探索提升复杂度对样本外投资机会带来的提升。当然，即便我们认同了“越复杂越好”，也依然要回答更重要的问题，即如何估计参数，如何正则化，如何利用层出不穷的新数据来形成关于预期收益率更好的预测（即高维问题求解）。在这方面，通过贝叶斯框架将经济学推理注入机器学习算法是一条充满前景的研究路径（Nagel 2021）。

上面这些从象牙塔产生的由数据驱动的投资思想，无论是从随机游走到有效市场假说，从异象到行为金融，从三因子模型到因子动物园，从回归分析到机器学习，都深刻地影响和改变了人们对金融市场运行机制以及收益和风险之间权衡的理解。这些投资思想，催生了指数基金、市场中性、Smart Beta、因子投资、基本面量化等投资理念，让金融市场成为社会大众关注的焦点，让金融研究成为社会科学中的显学。

同样地，我们也应该期待今天的另类数据，能够像今天的“数据”在过往历史中那样，发现前所未见的新规律，从而帮助我们在实务中形成新的投资理念，同时做出更好的投资决策。

温故是为了知新。

回顾如今的“老数据”以及在历史长河中为了应用它们而发展出来的各种投资方法论，是为了在未来更好地利用今天的“新数据”。

当前，投资进入了一个更加高度不确定性的时代。在这个时代，只有拥抱新数据，并在这个过程中通过创新方法用好时下另类但在将来也注定普及的数据，才能在细微之处把握金融市场跳动的脉搏，才能在青萍之末感受风的力度。

相信看到这里，数据的重要性对于你已经不言而喻。而如果你也和我一样期待开启一段另类数据之旅，那么请让我回归本文的正题：《另类数据：理论与实践》以及《另类数据：投资新动力》。这两本书的出版，填补了中文文献在投资另类数据方面的空白（官宣在此）。

《另类数据：理论与实践》共有 8 章，是一个统一的框架，体系化地介绍了另类数据的概念、分类、挑战和风险、应用流程和价值等方面的内容，并对不同类型的另类数据展开了详细的说明。

《另类数据：投资新动力》分为 5 章，更偏重应用，全方位地介绍了另类数据在金融市场中的应用，无论是文本数据、消费相关数据、传感器数据、ESG 数据、投资者关注数据、商业洞察数据、卫星图像数据、位置数据等；无论是股票量化投资和主观投资，利率和汇率投资，又或者是大宗商品投资中的应用，应有尽有。

在这两本书出版之前，我曾有幸阅读过初稿。它们给我的感受（如果只用两个字总结）是客观，如果再加两个字，那么是客观和全面。

先说客观。毫无疑问，无论对学界还是业界，另类数据是如今投资界的宠儿和热点（比如，你如果没点独门数据，想在 top 3 发实证研究几乎没戏了），但这两本书并没有所谓的“蹭热点”、不负责任地鼓吹另类数据的好处，而是中立而系统的呈现另类数据的机会和挑战，这和我在《另类数据的前景和陷阱》中所传达出的价值观不谋而合。

再说全面。当人们说起另类数据的时候，可能本能的反应是两眼放光，马上会问它能不能产生风险因子无法解释的 α。然而，这种想法仅仅局限于另类数据产业链末端的应用层面。对于另类数据这个大课题来说，数据是如何产生的、质量和时效性如何，使用时是否有合规风险，如何评估其成本价值、市场价值、经济价值，其可预测性是短期的还是长期的，如何从基础设施和人才储备层面建设另类数据团队，如何让另类数据有机地融入到整个投研和交易过程（从而形成运营阿尔法）等都是同样甚至更加重要的问题。对于这些问题，这两本书给出了详尽的说明。

正是因为“客观和全面”这两个我个人非常看重的特色（相信公众号的小伙伴认可这个观点），所以我愿意毫无保留地把它推荐给感兴趣的小伙伴。希望它们能祝你在使用另类数据的道路上愈行愈远，乘风破浪。

另类数据这个名词出现的历史并不很长，但是它背后蕴含的核心思想却并不新颖，而是自古有之：我们需要在不断出现的另类数据中用适应时代的方法挖掘出新的投资见解，在不断演化的金融市场中能够长时间地获取超额收益，从而在投资管理的激烈竞争中生存下来。

参考文献

Ball, R. and P. Brown (1968). An empirical evaluation of accounting income numbers. Journal of Accounting Research 6, 159 - 178.

Banz, R. (1981). The relationship between return and market value of common stocks. Journal of Financial Economics 9, 3 - 18.

Barber, B. and T. Odean (2013). The behavior of individual investors. In G. Constantinides, M. Harris, and R. Stulz (eds.) Handbook of the Economics of Finance 2. Elsevier BV.

Basu, S. (1977). Investment performance of common stocks in relation to their price-earnings ratios: A test of the efficient market hypothesis. Journal of Finance 32, 663 - 682.

Belkin, M., D. Hsu, S. Ma, and S. Mandal (2019). Reconciling modern machine-learning practice and the classical bias-variance trade-off. PNAS 116, 15849 - 15854.

Bernstein, P. (1992). Capital Ideas: The Improbable Origins of Modern Wall Street. John Wiley and Sons.

Bryzgalova, S., J. Huang, and C. Julliard (2023). Bayesian solutions for the factor zoo: We just ran two quadrillion models. Journal of Finance 78, 487 - 557.

Chinco, A., A. Neuhierl, and M. Weber (2021). Estimating the anomaly base rate. Journal of Financial Economics 140, 101 - 126.

Cochrane, J. H. (2011). Presidential address: Discount rates. Journal of Finance 66, 1047 - 1108.

Cootner, P. (1964). The Random Character of Stock Prices. MIT Press.

Cowles, A. (1933). Can stock market forecasters forecast? Econometrica 1, 309 - 324。

Cowles, A. (1944). Stock market forecasting. Econometrica 12, 206 - 214.

Dessaint, O., T. Foucault, and L. Frésard (2022). Does alternative data improve forecasting? The horizon effect. Swiss Finance Institute Research Paper Series N. 20-106.

Fama, E. F. (1965). The behavior of stock market prices. Journal of Business, 34 - 105.

Fama, E. F. (1970). Efficient capital markets: A review of theory and empirical work. Journal of Finance 25, 383 - 417.

Fama, E. F. (1991). Efficient capital markets: II. Journal of Finance 46, 1575 - 1617.

Fama, E. F. and K. R. French (1992). The cross-section of expected stock returns. Journal of Finance 47, 427 - 465.

Fama, E. F. and K. R. French (1993). Common risk factors in the returns on stocks and bonds. Journal of Financial Economics 33, 3 - 56.

Fama, E. F. and K. R. French (2015). A five-factor asset pricing model. Journal of Financial Economics 116, 1 - 22.

Fama, E. F. and J. D. MacBeth (1973). Risk, return, and equilibrium. Journal of Political Economy 81, 607 - 636.

Giannone, D., M. Lenza, and G. Primiceri (2021). Economic predictions with big data: The illusion of sparsity. Econometrica 89, 2409 - 2437.

Giglio, S., B. Kelly, and D. Xiu (2022). Factor models, machine learning and asset pricing. Annual Review of Financial Economics 14, 337 - 368.

Gu, S., B. Kelly, and D. Xiu (2020). Empirical asset pricing via machine learning. Review of Financial Studies 33, 2223 - 2273.

Havery, C. R. (2017). Presidential address: The scientific outlook in financial economics. Journal of Finance 72, 1399 - 1440.

Harvey, C. R., Y. Liu, and H. Zhu (2016). ... and the cross-section of expected returns. Review of Financial Studies 29, 5 - 68.

Hou, K., C. Xue, and L. Zhang (2020). Replicating anomalies. Review of Financial Studies 33, 2019 - 2133.

Jensen, T., B. Kelly, and L. Pedersen (2022). Is there a replication crisis in finance? Working paper.

Kelly, B., S. Malamud, and K. Zhou (2022). The virtue of complexity in return prediction. Working paper.

Kendall, M. (1953). The analysis of economic time-series. Part I: Prices. Journal of the Royal Statistical Society 116, 11 - 34.

Lo, A. W. and A. C. MacKinlay (1999). A Non-Random Walk down Wall Street. Princeton University Press.

Martin, I. and S. Nagel (2022). Market efficiency in the age of big data. Journal of Financial Economics 145, 154 - 177.

Nagel, S. (2021). Machine Learning in Asset Pricing. Princeton University Press.

Nagel, S. (2022). Evaluating market efficiency in a high-dimensional world. Speech on Hong Kong Conference for Fintech, AI and Big Data Business.

免责声明：入市有风险，投资需谨慎。在任何情况下，本文的内容、信息及数据或所表述的意见并不构成对任何人的投资建议。在任何情况下，本文作者及所属机构不对任何人因使用本文的任何内容所引致的任何损失负任何责任。除特别说明外，文中图表均直接或间接来自于相应论文，仅为介绍之用，版权归原作者和期刊所有。

本文来自微信公众号“川总写量化”，文章版权归原作者所有，内容仅供参考并不构成任何投资及应用建议。

免责声明：
您在阅读本内容或附件时，即表明您已事先接受以下“免责声明”之所载条款：
1、本文内容源于作者对于所获取数据的研究分析，本网站对这些信息的准确性和完整性不作任何保证，对由于该等问题产生的一切责任，本网站概不承担；阅读与私募基金相关内容前，请确认您符合私募基金合格投资者条件。
2、文件中所提供的信息尽可能保证可靠、准确和完整，但并不保证报告所述信息的准确性和完整性；亦不能作为投资决策的依据，不能作为道义的、责任的和法律的依据或者凭证。
3、对于本文以及文件中所提供信息所导致的任何直接的或者间接的投资盈亏后果不承担任何责任；本文以及文件发送对象仅限持有相关产品的客户使用，未经授权，请勿对该材料复制或传播。侵删！
4、所有阅读并从本文相关链接中下载文件的行为，均视为当事人无异议接受上述免责条款，并主动放弃所有与本文和文件中所有相关人员的一切追诉权。

数据驱动的投资思想史

川总写量化

推荐阅读

评论

友情链接

帮助中心

联系我们