下载
登录/ 注册
主页
论坛
视频
热股
可转债
下载
下载

ai与a股……数学原理之二

20-12-06 22:18 1473次浏览
lihf05
+关注
博主要求身份验证
登录用户ID:
理论是理论,现实是现实。2点确定一条直线理论上没错,但是问题是仅凭2个样本点,你真的放心?万一2个样本点有一个有问题了怎么办?只要稍微受到点干扰,有点误差,结果可能就是失之毫厘,谬以千里。所以安全的做法,肯定采集的点越多越好。理论上来说,如果采集的点都没有问题,那么任取2个点,带入方程,然后求解二元一次方程组,求解得到(a,b)值对,其他的点带入到方程,应该都恰好满足方程。但是实际上这种情况极为罕见,我们获得的数据其实多多少少都有一些误差的,其实有专门探讨误差的理论。

好了,假定我们采集的数据多少有一些误差(其实这个才符合现实世界的实际情况),那么我们就不能从待定系数法求解了。原因至少2个,1个是本来数据有误差,y=ax+b这个等式本来就不成立。退一步说,就算等式成立,多个点的时候,方程组其实无法求解。2点确定一条直线是没问题的,问题是多个点的时候?如何选取2个点了?只要2个点选择了,

直观来说,直线就可以画出来,但是其他点怎么办?没有更多信息的时候,任意2个点的选择都不能符合要求,任意2个点的选择画成的直线都不能包括其他点。从代数角度说,你把n个样本点信息带入到y=ax+b中,得到的方程组其实无解的。

这个时候最小二乘法就派上用场了。既然无论选择哪2个样本点都不能让其他样本点满意。那么干脆谁都不选择好了。我们独立的画一条直线,只是这个直线到每个样本点距离的误差都不大,我们的总体目标让所有的点总的误差达到最小,这样应该所有的点都没有意见了。好了,假定有n个点,分别是(xi,yi),那么我们第i个点到直线的距离应该是axi+b-yi的绝对值,对每个点的误差总体求和,那么新得求和的误差函数为f(a,b)=0n|xi+b-yi|,求极值的问题,微积分是最擅长了,对变量a,b求偏导数,然后偏导数为0的时候,就是极值点位置。这个时候a,b就能解出来了。但是问题是对于绝对值,求偏导数麻烦,我们把绝对值换成
(xi+b-yi)的平方,那么新得误差函数为f(a,b)=0n(xi+b-yi)2,对这个函数求偏导就容易了。
然后偏导数为0,得到2个方程构成的方程组,就能得到(a,b)值对,也就是这个直线到每个点的误差的平方和最小,直觉上这个直线应该是最好的。这里(a,b)的值对取决(xi,yi)的值,不同的样本点,对应的(a,b)都不一样,这里就是学的意思了,也就是说规律取决历史数据,从历史数据中学到规律。
不过你较真的话,你会觉得为啥最小误差一定是每个点误差的平方和,而不能是其他,比如3次方不行?4次方不行?从直觉上来看,2次方,3次方,4次方都没有本质区别。唯一能解释得就是2次方得话,方程组求解方便。但是只有方便这点优势,总感觉还是牵强点。而且我们说过AI本质是基于概率统计,我们这个求解过程没有看到概率统计得内容啊。
既然说到了概率统计,我们就想到了概率统计中参数估计部分的内容。如果当成参数估计的话,我们的模型就可以看成是一次采样有n个点,我们想通过这次采样过程,估计参数值对(a,b)的值。假定每次的采样误差都是独立同分布的。那么我们能想到的是啥概率分布了?最先想到的肯定是正态分布,这个分布应用实在是太广了。好了那么误差(axi+b-yi)的值满足均值为0的正态分布。概率分布有了,然后采用极大似然估计就可以了,这个时候我们发现刚好极大似然估计函数变量部分包含的就是误差平方和。也就是极大似然估计和最小二乘法的求解结果是完全一样的。
这个时候我们就会发现,虽然很多地方介绍最小二乘法的时候直接给出了求解最小误差平方和的模型。这个模型直觉上有道理的。但是其背后其实是误差分布符合均值为0的正态分布,那么这个模型在统计意义上就有了解释了。用起来就很放心了。所以这个地方再一次验证2个结论,1个是所谓的学过程其实就是对于1个确定的模型,其参数的值依赖样本数据。1个就是一些表面上看不到概率统计的地方,其实背后至少有着基于概率统计的良好结果作为保证。
到现在的例子,用的都是最简单的直线模型。大家肯定觉得实际的模型肯定要比简单的直线模型复杂多了。接下来想从线性代数角度继续往下介绍。但是在介绍线性代数相关内容前。先介绍2个具体的例子来做过渡。1个是泰勒级数展开,1个是傅里叶变换

  

  
打开淘股吧APP
2
评论(41)
收藏
展开
热门 最新
awbma

20-12-08 20:44

0
你在广东吗?有空找您吃个饭。个别细节方面请假请假。
lihf05

20-12-08 20:42

0
这个就是为啥要提高性能了。有点军备竞赛的意思
lihf05

20-12-08 20:40

0
这个就是写代码的功底了哈。
lihf05

20-12-08 20:37

0
这就是自动化交易和ai的区别,你做的是自动化交易。策略是怎么做的了?
awbma

20-12-08 20:36

0
@排队  
哥们,你说的我都懂,下个定义叫低阶玩家。要玩就玩高阶的。
lihf05

20-12-08 20:36

0
你说的都对
排队

20-12-08 20:35

0
@lihf05  我做了1年多量化打板了,核心并不是能不能打到,而是打到的是不是好板,有没有溢价。
而且,即使是level2逐笔委托,有些板仍然是打不到的,主封的人一次连着发几个万手单,看到逐笔就已经晚了。
awbma

20-12-08 20:34

0
现在逐笔编得不是很好,有时计算错误提前发单
lihf05

20-12-08 20:33

0
速度的瓶颈一般是l2 这个数据量巨大,tdp广播配合万m网卡,网络协议协栈还有针对优化,至于下单不是关键,数量量不大,打板瞬间和你竞争的人不多,再差的系统1000单机tps总是可以的,也就1毫秒的时间
awbma

20-12-08 20:33

0
是的,要做逐笔。妈的现在26ms拍排上去前面能有150张,其中100张是10ms内的,完全没办法。
刷新 首页 上一页 下一页 末页
提交