文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
3.2 Spark 安装使用篇
下载: http://spark.apache.org/downloads.html
winutils
Windows 上运行 Hadoop/Spark 需要 hadoop.dll 和 winutils.exe,但是官网提供的 binary 中并不包括这两个文件,利用源代码编译可以生成它们。
3.2.1 示例 1:交互终端
使用:支持 python/R/scala 三种交互式环境。
python | scala(缺省) | R | |
---|---|---|---|
进入终端 | ./bin/pyspark | ./bin/spark-shell | ./bin/r-shell |
示例 | >>> sc.parallelize(range(1000)).count() | scala> sc.parallelize(1 to 1000).count() | |
输出结果 | 1000 |
备注:进入交互环境,实质是调用 spark-submit。在这之前要先启动 spark。
- 调用脚本
$ ./bin/spark-submit --class [x.jar] # scala/java
$ ./bin/spark-submit [script] # python/r
- 示例程序:./bin/run-example SparkPi
3.2.2 示例 2:文件 sc.textFile().count()
# 首先要将文件放在 hdfs 的路径
denny@denny-ubuntu:~/spark$ hdfs dfs -put README.md /user/denny/
denny@denny-ubuntu:~/spark$ hdfs dfs -find /
/
/user
/user/denny
/user/denny/README.md
/user/denny/input
# pyspark 多行
>>> lines=sc.textFile('README.md')
>>>lnes.count()
# 单行
>>> sc.textFile('README.md').count()
104
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论