文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
6.2 获取推特(Twitter)数据
不用说,我们需要获取推文以及它们对应的标签,从而了解这个推文包含了正面、负面还是中性的情感。在本章中,我们会使用来自于Niek Sanders 的语料库。他完成了令人敬畏的标注5000多个推文的工作,并允许我们在本章里使用。
为了遵从推特的服务条款,在本章里我们并不会提供任何推特的数据或者显示出任何真实的推文。相反,我们会使用Sanders的人工标注数据(它包含推文的ID和情感标签),并使用脚本install.py 来获取相应的推特数据。这个脚本与推特服务器能够很好地交互,下载所有5000多个推文只需要一点时间。所以,现在就开始吧。
数据中包含4种情感标签:
>>> X, Y = load_sanders_data() >>> classes = np.unique(Y) >>> for c in classes: print("#%s: %i" % (c, sum(Y==c))) #irrelevant: 543 #negative: 535 #neutral: 2082 #positive: 482
把无关的和中性的标签放在一起,并忽略所有的非英语推文,最后会得到3642个推文。我们很容易就可以从推特提供的数据里面把这些推文过滤出来。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论