按顺序从文件中读取行，基于文件结构并行化

发布于 2025-01-12 12:23:12 字数 704 浏览 2 评论 0原文

我有一个格式如下的文本文件：

itemID_1:
(observation 1 for itemID_1)
(observation 2 for itemID_1)
...
(observation k_1 for itemID_1)
itemID_2:
(observation 1 for itemID_2)
(observation 2 for itemID_2)
...
(observation k_1 for itemID_2)
...

我想创建一个数据框，其中每行是（itemID，观察）（同一 itemID 可以有多行）。

我会像这样在 python 中执行此操作：

rows = []
file = open('my-file.txt')
cur_itemID = None
for line in file:
    if re.match(r'\d*:', line):
        cur_itemID = re.search(r'(\d*):', line)[1]
    else:
        rows.append([cur_itemID, line])

所以我需要按顺序读取文件，但前提是正确的 itemID 与下面的行相关联。如果我们可以同时处理每个项目的行（即从行“itemID_i”开始直到“itemID_{i+1}”），则可以并行化此操作。我不知道如何在 Spark 中做这样的事情，希望得到任何建议。

原文

I have a text file formatted as such:

itemID_1:
(observation 1 for itemID_1)
(observation 2 for itemID_1)
...
(observation k_1 for itemID_1)
itemID_2:
(observation 1 for itemID_2)
(observation 2 for itemID_2)
...
(observation k_1 for itemID_2)
...

I want to create a dataframe where each row is (itemID, observation) (there can be multiple rows for the same itemID).

I would go about doing this in python like so:

rows = []
file = open('my-file.txt')
cur_itemID = None
for line in file:
    if re.match(r'\d*:', line):
        cur_itemID = re.search(r'(\d*):', line)[1]
    else:
        rows.append([cur_itemID, line])

So I need to read the file in order, but only so that the correct itemID is associated with the rows below. It would be possible to parallelize this if we could process the rows for each item simultaneously (i.e. starting at row "itemID_i" until "itemID_{i+1}"). I'm not sure how to do something like this in Spark and would appreciate any advice.

分享到QQ

分享到微博