以从业者视角探讨如何在金融领域有效运用大数据和机器学习。
近年来,机器学习和数据科学在投资中发挥着越来越大的作用。借助机器学习和大数据,投资经理能够做出以往传统模型无法实现的预测,进而做出明智的决策。然而,并不是所有的数据集和机器学习技术都对金融投资有用,也不是所有的机器学习技术都可以即插即用。
《大数据、机器学习与量化投资》这本书由资深量化分析专家托尼·吉达主编,汇集了多位业内颇具影响力的专家学者的前沿分享,阐释如何应用机器学习和大数据技术来解决投资问题并提高投资绩效。这本书共有13章,理论严谨,案例丰富,内容涵盖机器学习在投资管理中的应用现状和前景、另类数据和大数据在宏观交易中的应用、处理大数据集的难点和解决方案、挖掘社交媒体数据集分析企业文化、使用自然语言处理技术进行投资者情绪分析、基于支持向量回归的全球战术性资产配置策略、强化学习和深度学习在投资组合优化中的应用等主题,可以作为量化投资从业者、金融算法研究人员、高等院校计算机专业和金融工程专业的师生以及机器学习爱好者的参考用书。
1.金融领域趋势。近年来,机器学习和数据科学在投资中发挥着越来越大的作用。借助机器学习和大数据,投资经理能够做出以往传统模型无法实现的预测,进而做出明智的决策。未来,机器学习技术和数据科学将成为金融投资领域的新主流。
2.内容丰富,案例翔实。这本书不仅提供微观方法的理论阐述、案例说明,还有宏观视角的比较分析、趋势展望,是量化投资领域稀缺的手册型书籍。
3.全能作者团队。汇集来自买方、卖方及量化研究的多位业内颇具影响力的专家学者的前沿分享,他们从不同方面审视了大数据和机器学习技术在金融投资领域中的应用,将为从业者提供重要参考。
4.硬核译者团队。这本书具有极强的专业性,包含了数学、计算机、金融投资等领域的专业内容,来自国际国内名校的毕业生和量化投资领域的专家组成的译者团队和译校团队,对这本书做了精益求精的翻译,力求为从业者和爱好者提供良好的阅读体验。
量化投资是一种利用数学模型和计算机技术来进行投资决策的方法。自20世纪中叶以来,经过数十年来的探索,海外量化投资行业已在成熟市场中积累了丰富的实践经验。量化投资的历史可以追溯到20世纪50年代,当时一些先驱者开始尝试用统计学和概率论来分析金融市场。*早的量化投资者之一是哈里·马克维茨,他在1952年提出了现代投资组合理论,为量化投资奠定了重要的理论基础。此后,1969年爱德华·索普推出首只量化基金,1988年詹姆斯·西蒙斯推出文艺复兴大奖章基金,在成立20年来取得年化70%的惊人收益,1991年彼得·穆勒开发出Alpha系统策略,首次以计算机与金融数据结合的方法构建投资组合。此后,股票多空、宏观对冲、统计套利、事件驱动、高频交易、多因子等策略不断发展涌现,同时与传统的主观基本面投研结合,共同构成了海外市场投资生态。目前,美国量化基金的交易规模已经占到美股总交易量的70%左右。
与此同时,我国量化投资行业在*近十几年时间里也经历了蓬勃的发展。2010年开始,我国量化投资发展进入快车道,量化投资机构和产品数量大幅增加,涉及的市场和策略也更加多样化,包括债券、基金、外汇、商品等,以及多因子、机器学习、人工智能等。2015年后,我国量化投资继续不断创新,量化投资机构和产品不断优化和升级,利用大数据、云计算、区块链等新技术来提高投资效率和风险管理能力。截至2023年一季度末,我国公募量化基金总规模已经超过2 000亿元,而私募量化基金的规模已经突破1万亿元,其中不乏一些投资回报优异稳健的公司。但纵向对比,量化占公募基金总规模仍不足1%,私募量化基金规模增长速度放缓;横向对比,我国量化投资行业无论在规模上还是在技术发展上与海外仍然存在较大的差距。如何让量化投资更适应A股市场,如何让量化策略更适应波动性更大的宏观环境,如何打开量化的黑箱,增强其结果的稳健性与可解释性,都是需要在实践之中思考的关键议题。
量化投资行业的发展,主要源于数据端和方法端的双重驱动。对数据端而言,除了*广泛使用的量价数据外,基本面财务数据、宏观指标数据在应用中也发挥越来越大的作用,各种另类数据也变得更加可用、更加高频,并且出现了标志着行业成熟化的专业数据供应商,投资者得以从海量数据中掘金Alpha;对于方法端而言,随着算力的提升和理论的发展,机器学习、神经网络等新技术被逐渐应用于量化投资领域,为金融炼金术提供了先进手段。此外,市场的环境和规则、投资者的需求和偏好也在不断动态进化,对其进化趋势的理解变得十分重要。这些综合因素相互作用,共同推动了量化投资行业的创新和变革,同时带来了机遇和挑战。
本书是一本关于大数据与机器学习方法如何应用于量化投资领域的*新著作,凝聚了以托尼·吉达为首的若干量化投资专家的重要研究成果与一线实践经验,不仅有微观方法的理论阐述、案例说明,还有宏观视角的比较分析、趋势展望,是量化投资领域稀缺的手册型书籍。
本书具有极强的专业性,包含了很多来自数学、计算机、金融投资领域的专业术语,在译者团队的努力下,终于完成了本书的翻译工作。徐照宜、薛扬荣、陈宇翔负责全书翻译工作的整体统筹把控,周康林、李剑雄、崔鼎茗负责完成全书专业性的审核以及专业术语索引系统的建立,其他译者负责完成部分章节的初稿翻译与校对工作。
特别鸣谢清华大学全球私募股权研究院首席专家、证监会市场监管二部原副主任、一级巡视员、湖南大学金融与统计学院刘健钧教授从金融市场的角度为本书提供指导建议并作推荐语;特别鸣谢中国国家创新与发展战略研究会副会长、中国科学院大学经济与管理学院吕本富教授从数字经济的角度为本书提供指导建议并作推荐语。
特别鸣谢乾象投资创始合伙人兼首席技术官鲜染先生、中信证券研究部高级副总裁丁奇先生、分享通信创始人兼董事会主席蒋志祥先生从量化投资的一线实践与产业应用的视角为本书提供了宝贵建议和倾情推荐。
特别感谢清华大学产业创新与金融研究院、清华大学新百年发展基金、北京大学对冲基金协会、北京大学金融校友联合会、西南财经大学金融投资协会对本书翻译与研讨工作的大力支持。
此外,张闻凡、朱震、徐皓钶、郭仲星、胡展畅、侯承钰、卢波、汪慧洁、杨天鸣参与了本书的阅读与校正工作,高孝森、刘书涵、刘明鑫、赵菁雨、朱良盛、陈欣然、张云昕、杨以恒、沈良翰、杨天凯参与了本书的宣传与推广工作,在此一并感谢。
*后,衷心感谢中信出版社编辑团队对本书精心负责的排版校对工作,若没有大家精益求精的协同合作,本书的中文版本不可能如此顺利地与读者们见面。
由于译者水平有限,译文难免出现瑕疵,还望读者朋友批评指正,多多包涵,也欢迎与译者团队进行探讨。希望本书能为国内量化投资领域的从业者带来有益参考价值,共同推动我国量化投资行业迈向更美好的明天。
精彩文摘 (摘自第1章 算法能构建出
托尼·吉达,伦敦一家老牌养老基金的资深量化投资基金经理,负责管理多因子股票投资组合。在此之前,曾在EDHEC RISK Scientific Beta 担任高级顾问,负责聪明贝塔和风险配置,就如何构建和配置风险溢价向资产所有者提供专业建议。在加入EDHEC之前,他在UNIGESTION工作了8年,担任高级研究分析师。他曾是Minimum Variance Strategies研究和投资委员会的成员,负责领导机构客户因子投资研究小组。他拥有法国萨沃伊大学计量经济学和金融学学士和硕士学位。曾多次发表关于量化投资现代方法的演讲,并多次举办关于机器学习应用于量化投资的研讨会。
第1章 算法能构建出具有人类智慧的alpha吗
1.1导读
1.2重复或是重塑
1.3用机器学习重塑投资
1.4信任问题
1.5经济存在主义∶一项宏大设计抑或一次偶然事件
1.6这一系统究竟是什么
1.7动态预测与新方法论
1.8基本面因子、预测与机器学习
1.9结论:寻找投资中的钉子
第2章 驾驭大数据
2.1导读
2.2使用另类数据的驱动因素
2.3另类数据类型、形式与范围
2.4如何判断哪些另类数据有用
2.5另类数据需要多少成本
2.6案例研究
2.7使用另类数据的明显趋势
2.8结论
第3章 机器学习在投资管理中的应用现状
3.1导读
3.2数据无处不在
3.3人工智能应用图谱
3.4行业间的相互联系和人工智能的实施推动者
3.5行业发展前景
3.6关于未来
3.7结论
第4章 在投资过程中使用另类数据
4.1导读
4.2量化浩劫:激励人们寻找另类数据
4.3利用好另类数据爆炸带来的好处
4.4选择要进行评估的数据源
4.5评估技术
4.6基本面基金管理者与另类数据
4.7若干例证
4.8结论
第5章 使用另类数据和大数据交易宏观资产
5.1导读
5.2理解大数据和另类数据的一般概念
5.3传统建模方法与机器学习
5.4大数据和另类数据:在宏观交易中的广泛使用
5.5案例研究:使用大数据和另类数据深入挖掘宏观交易
5.6结论
第6章 大即为美,从电子邮件收据数据预测公司销售额
6.1导读
6.2Quandl的电子邮件收据数据库
6.3大数据工作中的挑战
6.4预测公司销售额
6.5实时预测
6.6案例研究:亚马逊销售案例
第7章 将集成学习应用于量化股票:多因子框架中的梯度提升算法
7.1导读
7.2提升树入门
7.3数据和方案
7.4建立模型
7.5结果和讨论
7.6结论
第8章 企业文化的社交媒体分析
8.1导读
8.2文献综述
8.3数据与样本构建
8.4推断企业文化
8.5检验结果
8.6结论
第9章 能源期货交易的机器学习与事件检测
9.1导读
9.2数据说明
9.3模型框架
9.4表现
9.5结论
第10章 财经新闻中的自然语言处理
10.1导读
10.2新闻数据来源
10.3实际应用
10.4自然语言处理
10.5数据及方法论
10.6结论
第11章 基于支持向量机的全球战术性资产配置
11.1导读
11.2过去50年的全球战术性资产配置
11.3经济学文献中的支持向量机
11.4基于支持向量回归的全球战术性资产配置策略
11.5结论
第12章 金融中的强化学习
12.1导读
12.2马尔科夫决策过程:决策的一般框架
12.3理性及决策的不确定性
12.4均值-方差的等价性
12.5回报
12.6组合价值与财富
12.7具体案例
12.8结论与进一步的工作
第13章 金融深度学习,基于LSTM网络的股票收益预测
13.1导读
13.2相关工作
13.3金融市场的时间序列分析
13.4深度学习
13.5循环神经网络
13.6长短期记忆网络
13.7金融模型
13.8结论
附录
参考文献
译者简介