返回介绍

3.2 Spark 安装使用篇

发布于 2024-09-23 22:27:22 字数 1439 浏览 0 评论 0 收藏 0

下载: http://spark.apache.org/downloads.html

winutils

Windows 上运行 Hadoop/Spark 需要 hadoop.dll 和 winutils.exe,但是官网提供的 binary 中并不包括这两个文件,利用源代码编译可以生成它们。

3.2.1 示例 1:交互终端

使用:支持 python/R/scala 三种交互式环境。

 pythonscala(缺省)R
进入终端./bin/pyspark./bin/spark-shell./bin/r-shell
示例>>> sc.parallelize(range(1000)).count()scala> sc.parallelize(1 to 1000).count() 
输出结果1000  

备注:进入交互环境,实质是调用 spark-submit。在这之前要先启动 spark。

  • 调用脚本
$ ./bin/spark-submit --class [x.jar]  # scala/java
$ ./bin/spark-submit [script]  # python/r
  • 示例程序:./bin/run-example SparkPi

3.2.2 示例 2:文件 sc.textFile().count()

# 首先要将文件放在 hdfs 的路径
denny@denny-ubuntu:~/spark$ hdfs dfs -put README.md /user/denny/
denny@denny-ubuntu:~/spark$ hdfs dfs -find /
/
/user
/user/denny
/user/denny/README.md
/user/denny/input

# pyspark 多行
>>> lines=sc.textFile('README.md')
>>>lnes.count()

# 单行
>>> sc.textFile('README.md').count()
104

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文