当前位置：文江博客话题详情

自然语言/文本挖掘和 Reddit/社交新闻网站

发布于 2024-07-07 22:51:08 字数 136 浏览 14 评论 0原文

我认为有大量与 reddit、digg 或 news.google.com 等网站相关的自然语言数据。

我对文本挖掘做了一些研究，但找不到如何使用这些工具来解析像 reddit 这样的东西。

你能想出什么样的应用程序？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

明月松间行 2024-07-14 22:51:08

我过去发现，在 Reddit 或 Digg 等网站上挖掘数据的最佳方法是首先使用他们提供的开发人员 API。通常，您对某个主题或趋势有浓厚的兴趣，而获取该数据的唯一方法是通过已建立的公共界面。您还可以解析提要，并将它们组合起来以发现 90% 的您想知道的内容。如果您想对无法通过 API 获得的数据进行深入研究，那么您应该准备好花费大量时间围绕 cURL 等工具编写自定义包装器。如果你有预算，你也可以打电话给他们，询问他们是否提供付费的用户研究数据。

回复收藏 0 原文