关于AI与A股的一点理解
最近看到有不少关于华鑫是否是AI打板的讨论,自己也就这个话题谈点自己的理解
其实对于AI的理解,不同的人理解都不一样。我看不少人把一些自动化打板软件拿出来说成是AI打板,
也有很多人把AI理解是规则(参数)的集合。其实我理解这些都不是AI,自动化打板软件只是个工具而已,我们
人为设置的规则(参数)集合,其实是我们“人工”产生的东西,根本就不“智能”。和AI的
人工智能 不是一个概念。
那么啥是AI(人工智能)了?我研究生选修的一门课程名是《机器学与知识发现》,我觉得这个名字挺好,基本阐述了
现在主流人工智能的核心思想。先来谈机器学,这里的机器实际上是软件的意思,机器学的是啥了?从样例中学!
我理解这个是AI和我们理解的规则最核心和最本质的区别。我举个具体例子来说明这个问题。当我们很小的时候,对概念
还没有理解的时候,其实我们应该能够分清男人和女人了。我们很小的时候,估计也没有大人教我们男人和女人的定义,
即使你现在让我很准确的给男人和女人下一个很准确的概念,我也得
百度 一下,否则我也答不出来,更何况小孩子。同样,
估计也不是每个家长给孩子定一些规则来区分男人和女人,比如长胡子是男人,长头发的是女人等等。那么小孩子是如何
学到男人和女人的概念了,其实是在我们一个一个的具体的例子中学并总结到的。今天,我们随口说XX这个女人,明天
我们可能随口说XX是男人,小孩子就是从这些许许多多的概念中学到了男人和女人的概念,你问他XX是男人还是女人,他
是可以给你准确的答案的,但是你让他告诉你男人和女人的规则甚至是男人和女人严谨的概念,估计没几个孩子等答上来。
这个例子说明,知识的发现其实并不一定以规则和概念的形式展现。这个例子告诉我们通过大量的样例,比如第一个人是男人,
第二个人是女人,第三个人是女人,------,第一千个人是男人这些样例中是能学到知识的,这个知识也许不是以规则和概念
的形式存在,但是不妨碍当你问他第一千零一个人是男人还是女人的时候,他能给出你正确的答案。就好比一个股票AI系统,
他学了历史上一万个封死的涨停板,第二日溢价的情况,虽然他不能给你有没有溢价的规则,只要你问他当日你打的板,明天
是否有溢价,如果Ai系统能给出大概率准确的答案,实战中是不是足够了了?如果给出的答案是明天没有溢价,那么打的板撤单
就是了,或者压根不买入就可以了。
所以这里第一个核心理念是AI系统是从大量的样例中学到知识,这些知识以机器(软件)能理解的方式存在,更多的时候不是以
我们人类擅长的定义,规则,概念,判断等逻辑形式存在。我们人类擅长的是逻辑判断,更进一步,我们把逻辑形式化了(数学的方式)。
曾经有数学家很乐观的以为,如果我们把一切数学化(形式逻辑),然后把形式逻辑研究透,那么所有的问题都解决了,不过被后来的
哥德尔证明是不靠谱的,想了解更多的可以搜下哥德尔不完全性定理,这个定理很伟大,不仅仅对于数学,对于我们的认知,哲学都有
重大的颠覆。我们大学学的离散数学有一部分是形式逻辑,就是这个问题的入门,当然了,形式逻辑自己也是数学大厦的基石之一,
曾经我看的一本形式逻辑看了几年都没完全弄明白。好的方面是,基于形式逻辑,的确也有一些成果,比如现在的初中几何证明题,
都能用这个系统自己证明。这个就很智能了。最早期的AI,的确是沿着这个方向走的,当时是建立一套符号系统,甚至把我们的知
识也已规则的形式给系统。当时好像叫做 专家决策系统。再比如当时做语言翻译,我们给出各种文法,语法规则试图去做自动翻译,
但是很不幸,失败了。
说到Ai,我们立刻就会想到阿法狗,AI战胜了人类最强大的一批棋手,在Ai面前,我们好像显得很无能。其实也不必太悲观,阿法狗毕竟是
我们人类发明的,至少在目前,还是在我们人类的控制范围类,具体原因我后面会给出解释。我们人类发明的东西多了去了,我们发明了
汽车,也没必要和汽车比速度;我们人来发明了挖土机,也没必要和挖土机比力气。其实从这个例子中,我们有没有发现,如果Ai是规则
系统,这个规则系统是我们人为建立的,规则是我们人类给的,既然我们人类给出了规则,为啥不能找出规则的漏洞了,那么给出规则
的人是不是才是绝顶高手,那么给出规则的人是不是水平要比最强大的一批棋手还要水平高?但是我们好像没听说阿法狗研发团队有围棋
高手,好像有1个6段高手,不过比起9段高手差远了吧。所以,Ai系统根本不需要规则,如果AI系统接受的是规则,那么Ai系统的能力就永远
限制在指定规则的人水平之下,就不会出现阿法狗战胜人类的情况出现发现。但是阿法狗需要啥了?需要样例!所以阿法狗第一个版本是
历史上的围棋棋谱,不过后来估计棋谱样例太少,就开始大量自己和自己对弈,从而产生大量的样本来供自己学。所以这里也能看出,
为啥我一开始说大家拿出的打板软件不是AI系统的原因了,因为那个系统需要我们人为给出规则(参数),真正的AI系统是不需要我们
人来给出规则(参数),而是根据历史数据来自己学,可以说是最尊重盘面的选手。他不相信任何主观判断,只相信历史数据。
计算机 的出现已经好几十年的历史了,AI的出现其实也有好几十年了,最开始是基于形式逻辑的符号系统。有一些成果,但是成果不大。为啥
最近几年火了,我想有几个原因。首先应该是
互联网 提供了海量的数据,前面反复提及过,Ai学的是样例,显然样例越多越好,所谓见多识广嘛,
最近这些年,互联网,尤其是
移动互联 提供了大量的数据,提供了足够的样本,这个是个很重要的原因。其次是硬件的发展,现在我们能经常
看到硬件不断突破的新闻,可能从一次深度学几个月缩小到一周。现在的深度学很火,这类算法对于性能要求极高,当然了,这个问题和第一个
原因也有关系,要想结果学的好,肯定数据量越大越好,但是数据量越大,肯定对硬件要求比较高。从早期的FPGA,GPU,TPU可能现在还有更加
先进的硬件出现,使得一些AI算法的实现变得可能。我08年参加工作,当时参加一个项目,就是提取视频网站的数据流规则,然后把规则放到
企业服务器的网关上,这样就能阻止员工上班时间看视频了,当时我刚毕业,总觉得这种人工提取规则的方法太LOW,而且听领导说,随着规则
越来越多(我只是负责视频网站的提取,还有其团队提取规则,比如上班时间禁止访问淘宝啥的),好像服务器处理能力越来越慢,当时我就建议
领导用AI的方法做,因为人工提取视频规则太麻烦,如果我用1个AI系统,直接播一些视频网站,然后告诉AI系统我看的是比如是优酷网站,
这些自动播放一些视频,AI系统就能学些到,然后企业的员工访问的数据通过这个AI系统,AI系统判断是不是优酷网站的,如果是,阻断访问,
如果不是,放行。更加关键的是,神经网络(我当时还不知道神经网络换了个马甲,叫做深度学了)可以用硬件FPGA(当时我还没想到GPU)
实现,这样还能解决速度问题。我自己还写了BP反向传播算法,做了DEMO。不过领导觉得不靠谱,放弃了,毕竟真要按我一个刚毕业的小毛孩,
整套系统好多事情从头来过,工作量太大,而且也没经过验证。被否也是很合理的。最后一个很重要的原因是以深度学的算法效果刚刚的,也是
非常重要的一个原因,我记得一个图形识别类的比赛,深度学下过遥遥领先,后来各大参赛团队都基本围绕深度学优化,基本传统的AI算法(我记得我
读书时候很火的是SVM),不过现在应该没人搞了,拜阿法狗所赐,现在普通的
老百姓 都知道AI里面有一个东西叫做深度学了。甚至很多人
基本把AI和深度学等价了,其实AI包括方面还是挺广的,估计机器学是AI最重要的一个分支,其中深度学是机器学的领头羊。