关系型数据库还是 NoSQL
TODO
很多时候采集到的数据是非结构化的,或者结构差异较大的。 例如,某些商品有条码数据,而有些没有。
是否对于原始数据更适合采用 NoSQL 存储,而对于待展现的数据更适用关系型数据库存储?
使用公有云做大数据服务安全性如何
TODO
- 是否有规范的安全方案?
- 客户是否能接受公有云作为商业大数据方案?
分析的实时性是否才是大数据的核心价值
TODO
数据量可能要求并不大,但是对实时性和准确性要求很高?
为何分布式计算一定要使用类 Hadoop 的架构
TODO
从大量非结构化的信息中提取结构化的数据是大数据重要的一环
所以,收集整理常见数据的提取规则很有价值,例如,电话号码的正则、邮箱的正则等。
Spark 与 Hadoop 的关系
2014 年 Spark 代替 MapReduce 成为了 Hadoop 的缺省引擎。Spark 解决了 MapReduce 大量硬盘 IO 的问题。
Spark 支持 HBase, Cassandra 等等。
HBase 的特点
- 可以存储数十亿行数据,几百万列
- 行的列可以完全不同
- 空列不占用存储空间, 表设计可以非常灵活
- 每个单元中的数据可以有多个版本,默认是时间戳
- 推荐单表存储
- 不支持范围查询,只支持 row key 查询
微信关注我哦 👍
我是来自山东烟台的一名开发者,有感兴趣的话题,或者软件开发需求,欢迎加微信 zhongwei 聊聊, 查看更多联系方式