文章来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

3.2 Spark 安装使用篇

发布于 2024-09-23 22:27:22 字数 1439 浏览 0 评论 0 收藏 0

下载： http://spark.apache.org/downloads.html

winutils

Windows 上运行 Hadoop/Spark 需要 hadoop.dll 和 winutils.exe，但是官网提供的 binary 中并不包括这两个文件，利用源代码编译可以生成它们。

3.2.1 示例 1：交互终端

使用：支持 python/R/scala 三种交互式环境。

	python	scala（缺省）	R
进入终端	./bin/pyspark	./bin/spark-shell	./bin/r-shell
示例	>>> sc.parallelize(range(1000)).count()	scala> sc.parallelize(1 to 1000).count()
输出结果	1000

备注：进入交互环境，实质是调用 spark-submit。在这之前要先启动 spark。

调用脚本

$ ./bin/spark-submit --class [x.jar]  # scala/java
$ ./bin/spark-submit [script]  # python/r

示例程序：./bin/run-example SparkPi

3.2.2 示例 2：文件 sc.textFile().count()

# 首先要将文件放在 hdfs 的路径
denny@denny-ubuntu:~/spark$ hdfs dfs -put README.md /user/denny/
denny@denny-ubuntu:~/spark$ hdfs dfs -find /
/
/user
/user/denny
/user/denny/README.md
/user/denny/input

# pyspark 多行
>>> lines=sc.textFile('README.md')
>>>lnes.count()

# 单行
>>> sc.textFile('README.md').count()
104

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

3.2 Spark 安装使用篇

3.2.1 示例 1：交互终端

3.2.2 示例 2：文件 sc.textFile().count()

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。