V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
shenfu1991
V2EX  ›  程序员

如何根据历史数据,分析、预测未来

  •  
  •   shenfu1991 · 2018-05-02 20:48:55 +08:00 · 8124 次点击
    这是一个创建于 2389 天前的主题,其中的信息可能已经有所发展或是发生改变。

    小弟最近研究一项事物,根据特定的算法,获取到一些数据,类似这样的:
    image
    完整的数据: http://www.wenjian.ml/c100.xlsx

    特求教各位大佬,该如何分析(利用数学知识、软件)这些数据,是否可以根据这些数据找出规律,然后预测下一个日期的数据?

    第 1 条附言  ·  2018-05-03 08:43:13 +08:00
    我来补充说明一下,以免大家误解:
    数据是在一定范围内( 0-1700 )所有符合条件的值,所以不同日期数据数量才不同。
    其实一个日期只要找到一条数据就可以了, 但是本着研究的目的,尽可能多的分析。
    谢谢大家!
    第 2 条附言  ·  2018-05-03 16:00:34 +08:00
    数据含义: 由当天的一个变量乘以(并非真正的乘,类似)数值等于下一天一个变量
    yt:下一天变量
    yt-1:当天变量
    数据:表格中的一个值(浮点型)
    用公式表示:

    yt = yt-1 x 数据

    大概是这样,但不是简单的相乘,只是表示他们有这样的关系
    33 条回复    2018-05-03 18:01:41 +08:00
    akira
        1
    akira  
       2018-05-02 20:55:48 +08:00
    股票行业不就是最喜欢做这种事情了咯
    kuhung
        2
    kuhung  
       2018-05-02 20:56:45 +08:00 via Android
    时序预测了解一下
    enenaaa
        3
    enenaaa  
       2018-05-02 21:07:41 +08:00
    这是机器学习的任务, 从历史数据中找到统计规律并做出预测。
    一般这种离散数据, 可以使用逻辑回归、GBDT 等模型。
    enenaaa
        4
    enenaaa  
       2018-05-02 21:10:27 +08:00
    上面说错了。 楼主这个是回归类任务, 不是分类。逻辑回归做不了。GBDT 是可以的。
    可以从线性回归入手, 先熟悉一下。
    dyllanwli
        5
    dyllanwli  
       2018-05-02 21:50:05 +08:00 via iPhone
    Bilstm hmm crf 的了解一下
    iyaozhen
        6
    iyaozhen  
       2018-05-02 21:57:43 +08:00 via Android
    Facebook 的 prophet 了解下
    atcdef
        7
    atcdef  
       2018-05-02 22:47:23 +08:00
    首先得确认影响的因子是否已经都包含在数据中了,目前来看,结果是日期的函数,如果事实上不存在这样的关系,那拟合出来,也只能与样本匹配,而无法匹配未来。
    Lanceliel
        8
    Lanceliel  
       2018-05-02 23:31:58 +08:00
    楼主希望找到什么意义上的“规律”?
    肉眼大概看了一下 3 月份的数据,感觉上似乎每一天的数据稳定服从一个时间无关的正态分布?
    你先做一下正态检验看看,估计是可以拟合曲线的。

    另外,7 楼的回复非常重要,请务必确认。
    alexfu
        9
    alexfu  
       2018-05-03 00:36:39 +08:00
    你这每一行具体是啥东西呀。。为啥每列的行数都不一样的。。。
    alexfu
        10
    alexfu  
       2018-05-03 00:37:44 +08:00
    @Lanceliel 你看看完整版。。。截图很误导。。。
    takato
        11
    takato  
       2018-05-03 01:14:31 +08:00   ❤️ 1
    目前市面上的绝大部分方法达不到正的 Alpha 收益(也就是比捏着不动来得好)

    有 Alpha 的,一般都不会公开啦
    shenfu1991
        12
    shenfu1991  
    OP
       2018-05-03 08:45:12 +08:00
    @kuhung @enenaaa @dyllanwli @iyaozhen @atcdef @Lanceliel @takato 感谢,我去了解一下。
    naiba
        13
    naiba  
       2018-05-03 08:48:43 +08:00 via Android
    压倒骆驼的不止最后一根稻草
    zlhsvc
        14
    zlhsvc  
       2018-05-03 08:52:03 +08:00
    你只能得到一个大概的数据,而且不稳定。
    时间又不是一个循环
    jjplay
        15
    jjplay  
       2018-05-03 09:10:00 +08:00
    本期双色球
    02 03 05 08 12 16 21 + 06
    Antidictator
        16
    Antidictator  
       2018-05-03 09:34:50 +08:00
    @jjplay #15 已买 100 元
    shuperjolly
        17
    shuperjolly  
       2018-05-03 09:38:56 +08:00 via iPhone
    当你想有预测的效果时这个项目已经失败了
    zarte
        18
    zarte  
       2018-05-03 09:43:23 +08:00
    大学数学相关的课你可以慢慢学
    jsun
        19
    jsun  
       2018-05-03 10:37:03 +08:00
    金融行业的量化投资,搞了很多年了,主要还是看你的数据靠谱不
    SuperMild
        20
    SuperMild  
       2018-05-03 11:10:10 +08:00
    要找到规律,前提是有规律。并不是一切都有规律的,很多东西在有意义的尺度里是没有规律的。比如彩票,很多文化程度低的人去研究那些数字出现的规律,但我们知道,那只有巧合,没有规律。比如股市,分析 K 线规律实在非常傻,能赚钱只是因为控制了仓位,连他们自己内心都不相信那玩意儿有规律,真相信就全仓一把梭了。
    Paradisiaercy
        21
    Paradisiaercy  
       2018-05-03 11:21:54 +08:00
    你给的数据毫无意义,别人没法帮你。
    zengmingyang96
        22
    zengmingyang96  
       2018-05-03 11:29:25 +08:00 via Android
    这个属于监督学习的问题,回归一下
    xpresslink
        23
    xpresslink  
       2018-05-03 11:36:48 +08:00
    建议楼主看看这篇文章, 应该对你有所启发.
    http://www.sohu.com/a/209340114_611353
    shuirong1997
        24
    shuirong1997  
       2018-05-03 12:23:26 +08:00
    看到标题,想说心理史学来着,又看到内容...算了。
    davidqw
        25
    davidqw  
       2018-05-03 12:38:07 +08:00
    一次黑天鹅就可以把你的收益打回原形
    omph
        26
    omph  
       2018-05-03 12:58:54 +08:00
    当你观测未来,未来已然改变。
    Lanceliel
        27
    Lanceliel  
       2018-05-03 13:12:42 +08:00 via Android
    @alexfu 我看了完整版数据才回复的。因为每天的数据量都不同所以直觉上先作为按单日分组的离散值来处理,第一步是做描述性统计。
    然后我也不知道该干什么了……数据的实际性质、含义、类型、获取方法一概不知,无法选择合适的分析手段。

    然后看现在楼主 append 的内容……这没法玩了。
    wizardforcel
        28
    wizardforcel  
       2018-05-03 14:26:26 +08:00 via Android
    rnn 了解一下。。
    wizardforcel
        29
    wizardforcel  
       2018-05-03 14:49:21 +08:00 via Android
    @Lanceliel 同时也要剔除无关特征。不管你用什么预测器,只要插一条随机特征进去,准确率或者 r 方会下降很多。
    shenfu1991
        30
    shenfu1991  
    OP
       2018-05-03 15:59:16 +08:00
    @Lanceliel @Paradisiaercy

    数值含义: 由当天的一个变量乘以(并非真正的乘,类似)数值等于下一天一个变量
    yt:下一天变量
    yt-1:当天变量
    数值:表格中的一个值
    用公式表示:

    yt = yt-1 x 数值

    大概是这样,但不是简单的相乘,只是表示他们有这样的关系

    @wizardforcel 感谢
    balbo
        31
    balbo  
       2018-05-03 16:04:31 +08:00
    数据挖掘里面的时序预测可以去了解下。预测说到底就是一个公式模型跟拟合已有数据,训练完参数之后,再去带入训练完毕的公式或者模型,验证新数据的过程。
    enenaaa
        32
    enenaaa  
       2018-05-03 16:41:57 +08:00
    @xpresslink
    这明显是条假新闻
    zhangyuting
        33
    zhangyuting  
       2018-05-03 18:01:41 +08:00 via iPhone
    LSTM 试试看
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2633 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 10:37 · PVG 18:37 · LAX 02:37 · JFK 05:37
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.