需求
近期有两个功能点需要进行数据分析
- 对用户打标签,好自动推荐职位
- activity 自动分组,好进行不同的资讯推荐
虽然可以通过简单的关键词匹配实现,但是我还是想尝试一下当下火热的 spark。
spark 的作用
借用了 Spark in Action 第二版中的一张图,简单翻译了一下:
非常形象的一幅图,spark 将多个独立的计算机系统组成一套分布式数据分析系统。省去了自己写代码去在多台电脑上调度任务和计算资源。
此外,我的理解,spark 不但实现了分布式数据分析,而且规范了数据处理流程(通过标准API和数据结构)。
spark 的四大核心功能
- Spark SQL:类似数据库 SQL
- Spark Streaming
- Spark MLlib:机器学习、深度学习
- GraphX
典型的数据处理场景
- 收集数据:Ingestion
- 提升数据质量:Improvement of data quality (DQ) 例如,清除干扰数据
- 转换:Transformation
- 发布:Publication
推荐
微信关注我哦 👍
我是来自山东烟台的一名开发者,有感兴趣的话题,或者软件开发需求,欢迎加微信 zhongwei 聊聊, 查看更多联系方式