Facebook 公共页面上的文本挖掘
我是一名研究生。我想在 Facebook 公共页面上进行文本挖掘以进行研究。有人知道如何将特定公共页面上发布的所有评论导出为 csv 或 html/xml 格式吗?…
Python 和 Java 中的拼音拼写
Closed. This question does not meet Stack Overflow guidelines. It is not currently accepting answers. 要求我们推荐或查找工具、库或最喜欢的…
ngram 的哈希值:文档指纹识别
我正在尝试在 R 中实现文档指纹识别的筛选算法。 这里参考 http://www.ida.liu.se/~TDDC03/oldprojects/2005/final-projects/prj10.pdf 我的问题: 如…
将 Regexpr 与 $ 一起使用
只是一个简单的问题,有谁知道如何将 regexpr 与 "\$" 一起使用?本质上,我想解析字符串并找出 \$ 之后的数值(例如“购买新床架可享受 50 美元折扣…
URL路径相似度/字符串相似度算法
我的问题是我需要比较 URL 路径并推断它们是否相似。下面我提供了要处理的示例数据: # GROUP 1 /robots.txt # GROUP 2 /bot.html # GROUP 3 /phpMyAd…
VIM:如何搜索匹配没有特定字符的行?
我从 ldiff 文件中有一些像这样的行, dn: cn=dkalland_directs_ww,cn=org_groups,cn=beehive_groups,cn=groups,dc=oracle ,dc=com businesscategory:…
对大量字符串进行文本挖掘
我有字符串列表。 (相当大的 id 和字符串列表,分散在 4-5 个大文件中。每个文件大约 1 GB)。这些字符串的格式如下: 1,Hi 2,Hi How ru? 2、怎么样…