spark

分类下相关文章

Ubuntu 安装 Spark 3.0.1 初体验

官方入门文档 https://spark.apache.org/docs/latest/ Spark 下载地址 https://spark.apache.org/downloads.html 需要注意,默认这个页面的 jquery 文件地址被墙了,需要自行解决。 我选择 Spark 3.0.1 版本 pre build for apache hadoop 2.7。 网站会自动推荐一个下载地址,可以看到默认选择的是国内的北京外国语大学的下载源: wget https://mirrors.bfsu.edu.cn/apache/spark/spark-3.0.1/spark-3.0.1-bin-ha ...

阅读全文...

Spark 书籍/教程推荐

Spark in Action, Second Edition 《Spark in Action》系列的第二版。我看的是英文版电子书,大概很难等到中文版,即便等到了,估计 spark 3 都要过时了。 我选择这本书的原因是: 内容相对要新很多,覆盖了 Spark 3 的介绍 主要是用 Java 来演示,也包括了 python 和 Scala。虽然我知道 Spark 推荐使用 Scala 这种函数式编程语言来执行,但是我想先用 Java 来试试。比较团队中 Java 是主流,担心 Scala 写的没法交接。 亚马逊上评价很高。且介绍了 spark 3,使用 java Spark 官方网站 ...

阅读全文...

为何要使用 Spark 进行数据分析

需求 近期有两个功能点需要进行数据分析 对用户打标签,好自动推荐职位 activity 自动分组,好进行不同的资讯推荐 虽然可以通过简单的关键词匹配实现,但是我还是想尝试一下当下火热的 spark。 spark 的作用 借用了 Spark in Action 第二版中的一张图,简单翻译了一下: 非常形象的一幅图,spark 将多个独立的计算机系统组成一套分布式数据分析系统。省去了自己写代码去在多台电脑上调度任务和计算资源。 此外,我的理解,spark 不但实现了分布式数据分析,而且规范了数据处理流程(通过标准API和数据结构)。 spark 的四大核心功能 Spark SQL:类似数据 ...

阅读全文...