Skip to content

Latest commit

 

History

History
22 lines (13 loc) · 1.45 KB

0002--数据处理-量化数据库选择---知乎.md

File metadata and controls

22 lines (13 loc) · 1.45 KB

0002-【数据处理】量化数据库选择 - 知乎

来源:https://zhuanlan.zhihu.com/p/165610735

市面上存在很多种数据库,关系形数据库有mysql,oracle。非关系型数据库有elasticsearch后文简称es,mongo,hbase,druid,redis。

考虑到经济实用,选择mysql作为存储日线数据,使用es存储新闻类数据。

日线数据现在的数量级大概在900w左右,有懂数据库的小伙伴肯定会说mysql最佳性能是在500w左右,为啥还要用mysql。的确500w是mysql的瓶颈,这是考虑插入和查询的性能,我们这里大部分都是查询,如果在股票代码和日期上做好索引,mysql完全可以支持千万级别的查询,并且查询效率也是在秒级别。插入的时候性能就慢一点。

使用es存储新闻数据是考虑到检索的问题,es完全能够在支撑。而且es支持动态扩展,集群等,方便后期的横向扩展。这里为什么不用mongo,因为他的分片安装比较难,拓展服务的话没有es好。hbase,hive都需要依赖hdfs,而且需要集群。druid是用来做实时数仓的,不支持关联查询。redis相对简单,但是很吃内存。

可以用redis存储最近一个月的数据

还有就是存储成csv文件。

最终选择mysql存储日线数据,股票基本面数据,回测数据。es储存新闻类数据。