如何基于PYPSPARK查询？

发布于 2025-01-22 07:27:04 字数 1113 浏览 3 评论 0原文

我有一个简单的Pyspark脚本，我想对每个部分进行基准测试。

# section 1: prepare data
df = spark.read.option(...).csv(...)
df.registerTempTable("MyData")

# section 2: Dataframe API
avg_earnings = df.agg({"earnings": "avg"}).show()

# section 3: SQL
avg_earnings = spark.sql("""SELECT AVG(earnings)
                            FROM MyData""").show()

生成可靠的测量值需要多次运行每个部分。我使用Python 时间模块的解决方案看起来像这样。

import time
for _ in range(iterations):
    t1 = time.time()
    df = spark.read.option(...).csv(...)
    df.registerTempTable("MyData")

    t2 = time.time()
    avg_earnings = df.agg({"earnings": "avg"}).show()

    t3 = time.time()
    avg_earnings = spark.sql("""SELECT AVG(earnings)
                            FROM MyData""").show()
    t4 = time.time()
   
    write_to_csv(t1, t2, t3, t4)

我的问题是每个部分如何一个基准？您还会使用时间模块吗？如何禁用Pyspark的缓存？

编辑：绘制基准的前5个迭代表明，Pyspark正在做某种形式的缓存。

我如何禁用此行为？

原文

I have got a simple pyspark script and I would like to benchmark each section.

# section 1: prepare data
df = spark.read.option(...).csv(...)
df.registerTempTable("MyData")

# section 2: Dataframe API
avg_earnings = df.agg({"earnings": "avg"}).show()

# section 3: SQL
avg_earnings = spark.sql("""SELECT AVG(earnings)
                            FROM MyData""").show()

Do generate reliable measurements one would need to run each section multiple times. My solution using the python time module looks like this.

import time
for _ in range(iterations):
    t1 = time.time()
    df = spark.read.option(...).csv(...)
    df.registerTempTable("MyData")

    t2 = time.time()
    avg_earnings = df.agg({"earnings": "avg"}).show()

    t3 = time.time()
    avg_earnings = spark.sql("""SELECT AVG(earnings)
                            FROM MyData""").show()
    t4 = time.time()
   
    write_to_csv(t1, t2, t3, t4)

My Question is how would one benchmark each section ? Would you use the time-module as well ? How would one disable caching for pyspark ?

Edit:
Plotting the first 5 iterations of the benchmark shows that pyspark is doing some form of caching.