超量子基金创始人张晓泉博士：量化就是从不确定性中寻找确定性

互联资讯 2023-05-20 14:56:03 0

淘宝搜：【红包到手500】领超级红包，京东搜：【红包到手500】
淘宝互助，淘宝双11微信互助群关注公众号【淘姐妹】

超量子基金创始人张晓泉博士,超量子私募,超量子量化私募基金

“复苏正当时，万事蕴新机”，由私募排排网、易方达基金主办，永安期货联合主办，万和证券、英大证券、东证期货、高临咨询、亚马逊云科技、希施玛、宏锡基金、津博基金、东英资管、牛资管协办，和讯为特邀媒体的“第十七届中国（深圳）私募基金高峰论坛”，于2023年3月16-17日在深圳星河丽思卡尔顿酒店举行。

在3月17日的会议上，超量子基金创始人张晓泉博士出席并进行了主题为《在不确定中寻找量化的未来》的明星私募投资报告会。

超量子基金创始人张晓泉博士

以下为演讲全文

非常感谢主办方。我今天想分享两个关键字，一是不确定性，二是未来。另外，主要讲两个内容，第一个是用量化的办法去归因主观投资的收益，从我们的观点来讲，量化和主观没有太大差异，我们可以用量化的方法更好的理解主观投资的成功。第二个我们会深刻理解不确定性。最后，我们简单探讨一下量化未来的发展方向。

一、用量化归因主观投资收益

这里讲到一个非常重要的东西，就是因子，简单说就是收益来源。每个因子其实都是一个风险来源，通过承担和控制风险，我们可以换取收益。图中有6个因子：

第一个是市场因子，只要持仓就要承担市场风险，市场给一个收益；

第二个是规模因子，持有小票会比持有大票的收益率更高一些；

第三个是价值因子，做主观投资的很多管理人会看，这个公司的价值是不是被低估，所谓的巴菲特的底层逻辑，就是被低估的股票可能未来表现很好；

第四个是动量因子，也是大家很熟悉的，追涨杀跌的因子，最近涨得好的股票未来可能会继续涨得很好；

第五个是β套利因子，也就是说股票如果和大盘的相关性比较低，有可能会有一些价值；

第六是质量因子，就是表现会比较好，公司是优质的，有盈利性、成长性。每个因子的实现可以有各种办法，但是整体来说，用6个因子来解读。

我们可以直接看结论，巴菲特事业最高光的时间，他的收益率是怎么来的，我们拆解成因子。首先有一个alpha，这个alpha是4.5。就是说把所有的因子全都考虑之后，仍然有一个4.5的超额收益出来，这是一个非常厉害的东西，说明巴菲特有非常强的投资能力；

另外，市场因子0.85，少于1，说明他的策略和市场的相关性小于1，没有承担那么多市场风险。规模因子是负的，也就是说它的投资更偏向于稍微大盘一点的股票。价值因子0.28，巴菲特说我们要投资被低估的股票，这个就很显著了；动量因子不太显著，说明巴菲特不太会追涨杀跌。这个分析就是最著名的“三因子模型”。

下面加了两个新的因子，叫低贝塔因子，也是正的，很显著。说明这两个又是不同层面上定义的衡量股票价值的因子，加进去之后，突然发现上面的alpha变成0.3%了，就说明之前看到的那个4.5%的alpha其实是能够被这两个因子完全解释的，这两个因子加进去之后，之前的4.5%的alpha就没有了。相关性0.61，说明他的收益率61%是能够被解释的。

这里有几个现象：

第一个巴菲特是一个非常好的知行合一的投资人。在这么长的投资生涯里，真的做到了价值投资。所以第一个是价值因子、低贝塔因子、质量因子，三个都是价值的体现，他这三个因子就有正的暴露。

第二个是大道致简，如果对量化熟悉，就会知道都是成千上万个因子在做分析，这里只用了6个因子，就能够分析出来巴菲特成功的秘诀。

第三，能不能复制巴菲特的策略？不能。一个策略一旦用语言总结出来了规律，就可以用另外一个规律去收割他。

第四，为什么还要做这个事儿？这个研究可以用科学的方法去理解和归因这些主观投资的成功。

所以主观和量化的区别没有大家想的那么大。因为用量化的方法也完全可以理解主观投资的成功。

从另外一个角度去分析巴菲特，这段时间可以看到美股的收益率大概6.9%，巴菲特做到17.6%，波动率美股15点多，巴菲特23.6%。如果看夏普比率，巴菲特的0.74，比美股的高。年化超额10%，也是非常好的表现。

还是用刚才说的因子去分析，就能够看到巴菲特有一个年化的3.6%的alpha，剩下的承担的风险，也能够被这些价值因子解释。

巴菲特说过，过去200多年没有人能靠做空美国赚钱，他也是做多美股，通过做多美股获得收益。价值、低风险、质量，这几个都是价值投资相关的因子，完全解释了他的收益率。

PIMCO，比尔格罗斯是一个做固收类产品的公司，我们也用同样的方法去分析他，88%的解释了他的表现，剩下的alpha就剩下0.3%，就可以看到他的收益来源基本上是四个因子完全可以解释的。最多的是Market，占比最多是因为他做多市场，市场给他的回报。还有信用、低风险，他做空波动率，这个对他来说也是长期看好美股的表现。

索罗斯的收益率和美股相比，同期美股7.8，他的收益率20%，波动率比美股大一些，夏普比率还可以，0.88。用了一个相对来说比较简单的模型，能够解释38%的收益。这里比较重要的因子全都跟动量相关。也就是说索罗斯的投资逻辑可以用四个动量因子就可以解释了。

用一个非常简单的量化模型，几个因子，基本上可以看到各个不同的非常成功的管理人，他们的投资风格其实非常不一样。

彼得.林奇，很多人也非常喜欢他的策略。他年化的收益也是20.8%，远远高于美股的收益。用因子模型去看他，用了六七个因子，最终可以看到他还有一个解释不了的8.3%的年化的收益。彼得.林奇确实有一些他非常厉害的东西，是这个模型解释不了的。这个模型基本上能解释95%的收益，但是仍然没有完全把他的所有收益解释清楚，8.3%是非常大的一块因子解释不了的收益。

二、量化就是从不确定性中寻找确定性

下面带大家深刻理解不确定性，这个词是所有人都在用的，现在是一个百年未见之大变局，这个不确定性到底是什么？在金融场景下，经常有人认为不确定性就是风险，风险就是波动率，归因到最后就变成了波动率，但是这种理解是不够好的。

要理解不确定性，首先要理解什么是随机性。我相信绝大多数人是没见过的，这是大英博物馆里面的一个几千年历史的文物，叫做肝卜术。会用一只羊，占卜一件事情，比如说打仗会不会胜利，就会吹一口气到羊的鼻子里，羊的肝脏会有一个反映，就会出一个裂纹，把羊的肝脏取出来之后跟这个对比，上面都是楔形文字，这就是随机性。因为吹进去之后，羊的肝脏可能会受损，受损的地方是很随机的，就把这种不确定性变成一个相对确定性的东西。这个也是大数据，大数据总结出来一套规律。

历史上有占卜师，他是凯撒大帝的肝卜师，手上举的是一个肝脏，可以成功的预测战争的胜利。中国有甲骨文，也是把一个东西放到火上烤，出现裂纹之后，由一个占卜师解读，都是从随机性里面找到相应的确定性。我们有骰子，这也是非常早就发明了，中国的骰子据称是曹植发明的，三国时期就有了。

什么时候有了概率论？最早是1545年，才有一本书，到1713年才算是伯努利写了《概率论》，从人类有历史，一直到1713年，中间几千年过去了，我们是没有概率论的，对概率的认识或者是从不确定性中寻找确定性，我们追求了几千年。股票市场也一样，我们都知道明天的股票不好预测，从这种不确定性，怎么找到一些确定性？我们就来观察一下什么时候有确定性？这是我投一个骰子，投了1万次以后的分布，会发现每一个点数出现的频率是相对来说差不多的，到底出现1还是3，不知道。但是投了1万次之后，分布就变成相对比较确定的东西了。

投两个骰子就可以投出这样的分布，投100个骰子，就有点象正态分布了。从非常大的不确定性里面做了很多次以后，虽然对每一次的结果不知道，但是我能对分布有一个非常好的理解，这就是我们怎么能够从不确定性中找到确定性。中心极限定理告诉我们不管原始的分布是怎么样的，取了足够多的样本后，基本上分布就会变得一样了。为什么量化能够做预测这种事情？其实就是不管原来的原始分布长成什么样子，只要足够多次取样以后，就有可能发现一些规律，这个规律是从分布来的。

总的来说，观测是随机的，结果是不确定的，但是有了分布就可以总结出规律。这个量化做的就是这么一件事情。

下面要深刻理解一下不确定性，我总结了三层理解：

第一层理解：概率。大家都很熟悉概率，概率就是数这些数，两个骰子加起来等于6的个数有多少个，发现在36种情况中有6种，所以它的概率最大。两个骰子都是1的概率就很小，36个里面只有1次。这是最简单的理解。

均值和方差。大家如果在金融场景下，所谓的均值就是收益率，所谓方差就是波动率。我们的很多从业者，当然有可能也是投资人去驱动我们，大家都很关注均值，收益率是多少。很少关注到方差到底有多大。包括尽调的机构，都是上来就问你们最近收益率怎么样。我觉得没法回答这句话，应该问的是你们最近的收益率和你们最近的波动率是怎么样的。一个好的管理人一定有办法把收益率和波动率两个都控制得很好。

还有分布，里面又有很多讲究。大家经常用的模型里面用到正态分布，原因就是中心极限定理，但是在股票市场，大家可以想一下股票市场的回报率的分布到底应该是什么样的？除了正态分布外，另外一种分布是幂率分布，人的身高、智商都是正态分布，但是有些东西是幂率分布，比如说城市的大小，比如说办一个会议，这个会议的人数多少。幂率分布曲线是指数性下降的，这两个分布在金融场景下都会产生，你要怎么理解他？

如果我们仅仅拿到金融数据，不看数据产生的过程而做预测是不可以的，因为你并不知道底层的分布逻辑是什么。

第二层理解，可以从分布中看信息。不同分布的信息是不同的，真实的金融场景下，我们拿不到完美的分布，不同场景下拿到的分布，可能会对模型有非常大的影响。正态分布在金融场景下其实是不成立的，之前我们学到的所有东西，正态分布的规则，得到的结论，在这个场景下有可能会失效。

例如，美股1987年的股灾，1987年10月19日，一天美股跌了22.6%，这是从收益率的角度，一天跌22.6%的概率有多大？我们就可以看一下美股平时的收益率，中间的这条线。能跌到20%的只有一个小黑点，这个小黑点发生的概率是10的负89次方，如果是正态分布算这个数的话，非常小。比我们从宇宙中随机选一个原子的概率还要小，不是因为这件事情的概率小，而是我们的模型错了，底层不是一个正态分布。

所以第二层理解就是拿到了分布之后，也不一定能够做很好的推断。

第三层理解：风险和不确定性是不一样的。

比如说红线代表了股市是要涨的，绿色代表股市要跌，一共有三种市场的局面。

局面A，95%市场会跌，局面B，30%市场会跌，局面C，50%会跌。

我想问大家，哪一个市场是风险最高的？大家应该会想到A，因为95%的概率市场要跌了。

可是下一个问题，哪一个市场的不确定性最高？大家可能会说C。因为我不知道答案。其实A里面不确定性非常低，A是一个风险很大、不确定性很低的场景；C是风险没有那么大，但是不确定性非常大。

我用这个例子是想跟大家说明一件事情，风险和不确定性是两个非常不同的概念，大家经常会混淆。你混淆的这个概念，会导致你在做模型的时候，会出现巨大的失误。

再举个例子，分布到底有多重要。

我们常常投骰子，投出来的东西，出现1还是3，这个东西叫做结果不确定。但是投得足够多次，就可以给你一个很好的分布，你对分布会有很好的分析。但是金融市场里面会出现一个现象，这个骰子的形状可能还在变，你投来投去，会产生一个分布不确定性，结果不确定性和分布不确定性，两个不确定性叠加出来导致你之前的模型都会失效。

再如，左边是结果不确定性，右边是模型不确定性，就是扔这个骰子，突然扔出7或者0，这叫做模型不确定性。所有的这些不确定性是远远大于我们之前认为波动率的东西、或叫做风险的东西。

如果看美股的波动率，会看到1987年的股灾是在中间这个地方，跳起来一根非常高的波动率。还有2000年左右出现的波动，还有2008年。这是非常明显的美股的几次股灾。但是如果用我刚才讲的分布不确定性、模型不确定性来衡量，就会得到另外一张图。1987年的时候跳得非常高，但是2000年那段反而低了，跟这个相比反而分布不确定性变低了，2008年的时候，不像这个是一根非常尖的柱子，而是很多小的短柱子。

这说明换了一个角度去思考这个问题，我们得到的不确定性是跟之前我们认为的波动率是能够互补的，提供了一些新的信息出来。

我们做量化，大家都去挖掘波动率的信息，大多数人已经在里面拿到了所有可拿到的东西，但是我要讲的是蓝海。在一个别人没有看到的角度去挖所谓的不确定性，对它的理解深刻了，就可以做出更好的东西。

风险、波动率、不确定性两两相交，但是还会有各自特点。如果理解到这个层面，就可以知道做因子时，如果只在波动率上做，就只能在绿色的圈子里面想办法，就很卷。但是外面有一个巨大的蓝海，深刻理解不确定性就可以做出好的收益。

三、ChatGPT不会替代投研人，但能够做很好的辅助

讲到ChatGPT，大家如果仔细看他的白皮书，会发现就是一个语言模型。ChatGPT大家总是人为的希望它能够产生情感、意识，说AI现在有意识了能理解语言了，其实差得非常远，它就是一个语言模型。

我经常说ChatGPT就是一个电子鹦鹉，他能够学人说话了，电脑之前说话是说不利索的，我们之前如果在微信上语音转文字，或者是做过机器翻译，就会发现它说得不够好，原因是他的语言模型做得不好。

有了ChatGPT之后，机器突然可以讲非常顺的话了，这个能力是语言上的能力，而不是思维的能力。知道这一点之后，就知道别的场景下有什么帮助了。比如说对主观投资有帮助，可以从研报里面生成一些结构，你给他发了很多文字，说用一百个字总结一下，至少帮投研人员省出很多时间去读。

总结市场表现，比如说今天我想知道市场发生了什么，这件事情让人去看的话，可能要看很多东西，他可以给你总结。第三个是追踪基本面的变化，这些都是ChatGPT非常强的地方。他不会替代我们的主观投研人员，但是能够做非常好的辅助。

对量化的帮助，量化最大的问题是要做预测，模型可以体现投研的能力，但是ChatGPT又没有这个能力。所以我个人思考，认为ChatGPT能做得最好的一件事情是模拟股票数据，量化里面一个最大的瓶颈，就是我们的数据不够，大家会说为什么不够？你可以以秒为单位去收数据，还是不够。

ChatGPT会有上千亿的参数，新出来的GPT-4有一百万亿个参数，你的观测就需要非常多，股票市场，中国过去十年就2500个观测，如果以天为单位来看的话，非常少。即便以秒为单位来看，也远远无法支持这么多参数的模型。

怎么生成这个数据呢？以前可以写一个随机数生成，但是随机数长出来的线，就跟我们说话一样，是随机组合出来的。就像我说“我今天吃饭”，我可以随机组合这五个字，可以说“我饭吃天今”这种大家听到是不理解的，就如同随机生成的股票数据是不符合股票规律的。但是ChatGPT最好的地方是可以生成一句人可以听懂的话，反过来在金融市场下用ChatGPT想办法生成一个符合金融规律的数据，这是非常好的。

所谓归纳法，就是我们在用机器学习，用量化做的事情，出发点是观测我们看到的市场的数据，我们会找到一些规律，我们形成一个假说，得到一个结论，会接近市场的真理，我刚才说的巴菲特的这些东西，到最后就变成了一个理论。

但是这个不够，我们现在量化缺乏的一个东西，叫做演绎法。它首先是从理论出发，其次是形成了假设，再收集数据，通过观察确认这个理论是不是对的。这两者缺一不可，这也是科学的方法论最基础的东西，归纳法+演绎法，这是我们历史上研究科学最重要的一部分工作。

于是我认为：量化的未来在于当大家把归纳法做得很好的时候，会看到一个非常大的发展空间叫做演绎法。

谢谢大家。