返回介绍

6.2 获取推特(Twitter)数据

发布于 2024-01-30 22:34:09 字数 607 浏览 0 评论 0 收藏 0

不用说,我们需要获取推文以及它们对应的标签,从而了解这个推文包含了正面、负面还是中性的情感。在本章中,我们会使用来自于Niek Sanders 的语料库。他完成了令人敬畏的标注5000多个推文的工作,并允许我们在本章里使用。

为了遵从推特的服务条款,在本章里我们并不会提供任何推特的数据或者显示出任何真实的推文。相反,我们会使用Sanders的人工标注数据(它包含推文的ID和情感标签),并使用脚本install.py 来获取相应的推特数据。这个脚本与推特服务器能够很好地交互,下载所有5000多个推文只需要一点时间。所以,现在就开始吧。

数据中包含4种情感标签:

>>> X, Y = load_sanders_data() >>> classes = np.unique(Y) >>> for c in classes: print("#%s: %i" % (c, sum(Y==c))) #irrelevant: 543 #negative: 535 #neutral: 2082 #positive: 482

把无关的和中性的标签放在一起,并忽略所有的非英语推文,最后会得到3642个推文。我们很容易就可以从推特提供的数据里面把这些推文过滤出来。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文