分类下相关文章
2020-10-08 · 阅读 7599 · 字数 1018
官方入门文档 https://spark.apache.org/docs/latest/ Spark 下载地址 https://spark.apache.org/downloads.html 需要注意,默认这个页面的 jquery 文件地址被墙了,需要自行解决。 我选择 Spark 3.0.1 版本 pre build for apache hadoop 2.7。 网站会自动推荐一个下载地址,可以看到默认选择的是国内的北京外国语大学的下载源: wget https://mirrors.bfsu.edu.cn/apache/spark/spark-3.0.1/spark-3.0.1-bin-ha ...
2020-10-08 · 阅读 5422 · 字数 160
Spark in Action, Second Edition 《Spark in Action》系列的第二版。我看的是英文版电子书,大概很难等到中文版,即便等到了,估计 spark 3 都要过时了。 我选择这本书的原因是: 内容相对要新很多,覆盖了 Spark 3 的介绍 主要是用 Java 来演示,也包括了 python 和 Scala。虽然我知道 Spark 推荐使用 Scala 这种函数式编程语言来执行,但是我想先用 Java 来试试。比较团队中 Java 是主流,担心 Scala 写的没法交接。 亚马逊上评价很高。且介绍了 spark 3,使用 java Spark 官方网站 ...
2020-09-19 · 阅读 5546 · 字数 269
需求 近期有两个功能点需要进行数据分析 对用户打标签,好自动推荐职位 activity 自动分组,好进行不同的资讯推荐 虽然可以通过简单的关键词匹配实现,但是我还是想尝试一下当下火热的 spark。 spark 的作用 借用了 Spark in Action 第二版中的一张图,简单翻译了一下: 非常形象的一幅图,spark 将多个独立的计算机系统组成一套分布式数据分析系统。省去了自己写代码去在多台电脑上调度任务和计算资源。 此外,我的理解,spark 不但实现了分布式数据分析,而且规范了数据处理流程(通过标准API和数据结构)。 spark 的四大核心功能 Spark SQL:类似数据 ...
生活 | 跑步 清单 足球 鲁班 探索 孤独的美食家 驾驶 电视剧 收纳 奶爸 健康 game 电影 周末 joke |
---|---|
Geek | 健身 Laravel Git Vim MySQL Linux UI Windows SVN 纪录片 管理 Shell 游记 工具 手机 BackboneJS 自建博客 Mac DNS Tornado CDN Django Python AngularJS 理财 前端 Nginx 爬虫 Redis Javascript Browser 浏览器 推广 OAuth CSS PHP Social Networks 安全 运维 创业 杂记 VueJS Android Image IDE Java ReactJS 数据分析 SQLite RESTful 读书笔记 家电 ecshop Vagrant wordpress docker SEO GTD magento mongodb nodejs weex 冷知识 ruby iOS 微信小程序 AI CMS 快应用 backpack 广告联盟 OA 短信 UWP Win CSharp Tampermonkey graphviz 钉钉 WPS 数据字典 微信公众号 Fuchsia Adobe XD SQL Server thinkphp 代码规范 商业模式 Flutter 头痛的问题 serverless 视频制作 国际化 golang 服务器 Kotlin 网站建设 5G 笔记本 图片 spark spring 物联网 InfluxDB 图像识别 postgre rust |
成长的烦恼 | 闲言碎语 待产 不睡觉 写作 程序员 孙心然语录 原则 大鸿语录 |
地球 | 植物 时间 中文 赚钱 国家地理 烟台 一生伏首拜阳明 emoji 弟子规 英文 国际贸易 |