搜索字符串算法

发布于 2024-12-22 11:12:18 字数 243 浏览 2 评论 0原文

我试图从一组网站（数千个）的内容页面中获取联系信息。在摸不着头脑之前，我想问问像你们这样的专家。我所需要的只是地址、电子邮件 ID、电话号码和联系人信息（如果有）。

我想你已经明白这个问题了。是的，这是格式...由于网站没有遵循的标准格式，因此很难确定我需要的确切信息。有些网站设计有 Flash 联系我们页面，而其他一些网站则将联系信息设计为具有自定义字体的图像类型。

非常欢迎提示/想法/建议...

谢谢...

需要登录才能够评论，你可以免费注册一个本站的账号。

短叹 2024-12-29 11:12:18

正如您所料，这绝不是一项微不足道的任务。这是解决此问题的一种方法：

使用倒排索引系统，例如 Lucene/Solr 或 Sphinx 来索引页面。您可能需要编写自己的爬虫/蜘蛛。 Apache Nutch 和其他爬虫提供开箱即用的蜘蛛抓取功能。如果内容相当静态，请将它们下载到本地系统。
内容被索引后，您可以通过构建布尔查询来查询电子邮件地址、电话号码等，例如：
//对于电子邮件 //对于电话 # 括号内容：@ AND (内容：.COM OR 内容：.NET) OR 内容："(" OR 内容：")"` 重要提示：不应按字面意思理解上述代码。您可以通过使用 Lucene Regex Query & 来获得更多的乐趣。 Span Query 可以让您构建相当复杂的查询。
最后在结果页面上，(a) 运行结果荧光笔以获取
查询词周围的代码片段，(b) 在代码片段上运行
正则表达式提取感兴趣的字段。
如果您有北美地址数据集，您可以运行
多次通过 i) 地图提供商（如 Bing 地图或 Google 地图）来验证地址，以验证地址。据我所知，美国邮政局和其他公司提供收费的有效地址查询服务，以验证美国邮政编码和加拿大邮政编码。或者，ii) 对电子邮件地址等进行反向 DNS 查找...

这应该让你开始......就像我说的，这里没有单一的最佳解决方案，你需要尝试多种方法来迭代并达到您想要的精度水平。

希望这有帮助。