如何从 pandas 数据框中的推文中提取主题标签?
我有一个包含多个变量(列)的推文数据集,我想从推文(文本)中提取所有主题标签并将结果放入新列(主题标签)中。以下是我正在尝试的内容:
import pandas as pd
data = pd.read_csv("Sample.csv", lineterminator='\n')
def hashtags(string):
Hash = data.text.str.findall(r'#.*?(?=\s|$)')
return Hash
data['hashtags'] = data['text'].apply(lambda x: hashtags(x))
但是,当我运行函数主题标签时,我的笔记本卡住了(未完成执行或给出任何错误)。我的文件只有大约 10k 行。
另外,如果此代码成功运行,我期望得到如下内容:
[#asd, #fer, #gtr]
但我希望结果列应该只有主题标签的名称,如 [asd, fer, gtr]。请建议我应该在代码中进行哪些更改。
我尝试在之前提出的问题中寻找解决方案,但大多数问题都使用正则表达式,我正在寻找使用 pandas 的解决方案。
提前致谢。
I have a dataset of tweets with several variable (columns) and I want to extract all the hashtags from a tweet (text) and place the result in a new column (hashtags). Below is what I am trying:
import pandas as pd
data = pd.read_csv("Sample.csv", lineterminator='\n')
def hashtags(string):
Hash = data.text.str.findall(r'#.*?(?=\s|$)')
return Hash
data['hashtags'] = data['text'].apply(lambda x: hashtags(x))
However, when I run the function hashtags, my notebook is just stuck (not finishing execution or giving any error). My file only have around 10k rows.
Also, if this code run successfully, I am expecting to get something like this:
[#asd, #fer, #gtr]
But I want the resultant column should have only name of the hashtags like [asd, fer, gtr]. Please suggest what change I should do in the code.
I tried to look for solution in previous asked questions but most of them used regular expression and I am looking for a solution using pandas.
Thanks in Advance.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
我从这里下载了一些 .csv 格式的 Twitter 示例数据,https://twitter-sentiment-csv。 herokuapp.com/。在本示例中,我使用了前 10 行的一部分。
输出 df['tags']:
I downloaded some sample twitter data in a .csv from here, https://twitter-sentiment-csv.herokuapp.com/. I've used a slice of the first 10 rows for this example.
Output
df['tags']
: