AI金融知识自学偏量化方向

Wesley13
• 阅读 751

前提:

  • 统计学习(统计分析)和机器学习之间的区别
  • 金融公司采用机器学习技术及招募相关人才要求

第一个问题:

   机器学习和统计学都是数据科学的一部分。机器学习中的学习一词表示算法依赖于一些数据(被用作训练集),来调整模型或算法的参数。这包含了许多的技术,比如回归、朴素贝叶斯或监督聚类。但不是所有的技术都适合机器学习。例如有一种统计和数据科学技术就不适合——无监督聚类,该技术是在没有任何先验知识或训练集的情况下检测 cluster 和 cluster 结构,从而帮助分类算法。这种情况需要人来标记 cluster。一些技术是混合的,比如半监督分类。一些模式检测或密度评估技术适合机器学习。

  数据科学要比机器学习广泛。数据科学中的数据可能并非来自机器或机器处理(调查数据可能就是手动收集,临床试验涉及到专业类型的小数据),就像我刚才所说的,它可能与「学习」没有任何关系。但主要的区别在于数据科学覆盖整个数据处理,并非只是算法的或统计类分支。细说之,数据科学也包括:

  数据集成(data integration)

  分布式架构(distributed architecture)

  自动机器学习(automating machine learning)

  数据可视化(data visualization)

  dashboards 和 BI

  数据工程(data engineering)

  产品模式中的部署(deployment in production mode)

  自动的、数据驱动的决策(automated, data-driven decisions)

  当然,在许多公司内数据科学家只专注这些流程中的一个。

第二个问题:

机器学习有多种衍生方法,其中包括监督学习、无监督学习、深度学习和强化学习等。

对于金融领域而言,监督学习的目的是建立两个数据集之间的关系,并使用一个数据集预测另一个数据集;无监督学习的目的是尝试了解数据的结构,并确定其背后的主要规则;深度学习的目的是使用多层神经网络来分析事物背后的趋势;而强化学习则使用算法来探索和找到最有利可图的交易策略。

AI金融知识自学偏量化方向

监督学习将被用于预测趋势

在财务背景下,摩根大通认为监督学习算法通过历史数据,可以找到规律,对未来进行预测。监督学习算法有两种形式:回归和分类方式。

回归形式的监督学习方法尝试基于输入变量来预测输出。例如:如果通货膨胀速度加快,它可能会判断下一步市场的走向。

分类方法则与之相反,尝试将数据识别到已有类别中。

无监督学习将被用于识别大量变量之间的关系

在无监督学习中,机器被输入了一整套资产组合的回报,同时并不知道其中的关联和独立变量。在高层次上,无监督学习方法被归为聚类或因素分析。

聚类分析基于一些相似性概念将数据集分成较小的组。例如:它可以包含历史数据中高低波动性、经济上升和下降速率或通货膨胀的增减。

因素分析旨在识别数据的主要内在规律或确定数据的最佳表示方法。例如:收益曲线的运动可以被解释为曲线的平行位移、曲线变陡峭或变凸。在复杂资产组合中,因素分析将提炼出数据的主驱动力,如动量、价值、进位、波动或流动性。

深度学习系统将承担起更艰难的任务

深度学习是重现人类大脑智慧的一种方式。摩根大通在报告中认为深度学习特别适合非结构化大数据集的预处理(例如,可应用于分析卫星图像中的汽车、或新闻稿中的情绪)。深度学习模型可以用虚拟财务数据来预测市场修正概率。

深度学习方法基于神经网络,而神经网络是受到人类大脑神经活动的形式而受到启发的。在网络中,每个神经元接收来自其他神经元的输入,并计算这些「神经元」的加权平均值。权重的计算则基于从历史数据中得来的经验。

神经网络的特征指标,其中包括成本函数、优化器、初始化方案、激活函数、正则化方案

强化学习将被用于行动的选择,以最大化收益

强化学习的目标是选择一系列成功的行动以最大化目标(或累积)收益。不同于监督学习(通常只是一步的过程),强化学习模型并不知道每一步的确切行动是什么。摩根大通的电子交易部门已经开发了一些基于强化学习的算法。

AI金融知识自学偏量化方向

你需要成为一位出色的 quant 和出色的程序员

摩根大通说数据科学家应该具备的技能组合基本上和量化研究者差不多。现在有计算机科学、统计学、数学、金融工程学、计量经济学和自然科学背景的买方和卖方 quant 都应该重塑自我。量化交易策略的专业技能将会成为关键。

「比起一位 IT 专家、硅谷企业家或学者学习如何设计一种可行的交易策略,一个 quant 研究者改变数据集的格式/大小并使用更好的统计与机器学习工具可要容易得多。」

摩根大通强调,你并不需要非常详细地洞悉机器学习的方方面面。大多数机器学习方法都有现成的代码:你只需要应用已有的模型即可。

支持部门需要理解大数据

最终,摩根大通注意到支持部门也要包含大数据。报告说到,很多雇主与人事经理都无法明确区别「谈论人工智能的能力」与「设计可交易策略」的能力,合规团队需要能够审查机器学习模型,并保证数据匿名,不包含私人信息。金融领域机器学习时代正在到来。

科技的发展会渗透到人类生活的方方面面,这是毋庸置疑的一点,因此也理所当然地包括了金融投资。无论是程式化交易,还是上文提到的大数据和机器,都是不断进化后的成果。

当我们了解自己的能力有限时,就应该去寻求更好的投资方式。例如战绩出色的经理人和交易程式。

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Karen110 Karen110
3年前
一篇文章带你了解JavaScript日期
日期对象允许您使用日期(年、月、日、小时、分钟、秒和毫秒)。一、JavaScript的日期格式一个JavaScript日期可以写为一个字符串:ThuFeb02201909:59:51GMT0800(中国标准时间)或者是一个数字:1486000791164写数字的日期,指定的毫秒数自1970年1月1日00:00:00到现在。1\.显示日期使用
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
待兔 待兔
5个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Stella981 Stella981
3年前
Eclipse插件开发_学习_00_资源帖
一、官方资料 1.eclipseapi(https://www.oschina.net/action/GoToLink?urlhttp%3A%2F%2Fhelp.eclipse.org%2Fmars%2Findex.jsp%3Ftopic%3D%252Forg.eclipse.platform.doc.isv%252Fguide%2
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
11个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这