如何通过Google搜索抓取特定域的链接?
我有一个印度歌曲的歌词语料库,需要用发行年份来标记它们,以进行我正在进行的实验。 有一个网站(lyricsindia.net),其中有这些歌词的详尽数据库,…
J48 无法在 weka 资源管理器中工作
我无法在linux(linux mint 9)中使用weka的GUI。 它不允许我从界面使用J48,但我可以运行它从命令提示符。 谁能告诉我这可能是什么问题…
一个 Twitter 帐户可以连接到所有其他 Twitter 帐户吗?
好吧,我相信你们所有人都知道维基百科的“复活节彩蛋”,它使用户能够跟踪每篇文章中的每个第一个嵌入链接,最终链接到 /Philosophy 页面。 是否可以…
对大量字符串进行文本挖掘
我有字符串列表。 (相当大的 id 和字符串列表,分散在 4-5 个大文件中。每个文件大约 1 GB)。这些字符串的格式如下: 1,Hi 2,Hi How ru? 2、怎么样…
Java 对 PMML 的支持
我是 PMML 的新手:预测模型标记语言 (www.dmg.org),我想知道是否有是某种用于创建/解析 PMML 文件的 Java 支持(开源/专业)。 最初我只考虑从 Java…
用于设计非常大的低粒度数据库的提示/链接/书籍?
我公司的 SAS 程序员与研究人员合作,分析存储在许多大小约为 1Tb 的文本文件中的数据。生成的 SAS 流程可能需要数天才能运行。每当研究人员想要稍微…
给定一个大的 URL 列表,将 URL 分组为模式或正则表达式的最佳数据挖掘方法是什么?
我有一个包含 100 万个 URL 的列表,我想将相似的 URL 聚集在一起。该过程的输出将是正则表达式或模式的列表。理想情况下,我想使用 Ruby 来导出数据…