当前位置：文江博客话题详情

我如何开始信息提取？

发布于 2024-09-25 00:44:39 字数 250 浏览 8 评论 0原文

在信息提取方面我是一个新手。这几天看了很多学术论文，还订了一本NLP方面的书。我想弄清楚如何构建一个类似 FlipDog.com 的系统（希望不是从头开始）。他们从 60,000 多个公司网站中提取职位空缺。我该如何开始？

我愿意学习任何编程语言。有人用过 Mallet/GATE/MinorThird 或 RoadRunner 吗？理想情况下，我希望能够使用特定于我的领域的数据集来训练系统，并让它基于该数据集提取信息。为此，您会推荐哪个平台？

谢谢！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

少女的英雄梦 2024-10-02 00:44:39

提取工作机会的更快方法是使用 dapper.net （一个网络从网站抓取服务）。您可以非常轻松地教 dapper 使用可视化编辑器提取数据。当您的目标网站上有表格时，它的效果非常好。

要学习信息提取，我建议从lingpipe开始。它是一个用于信息提取的java框架，因此您不需要学习该框架的架构特定功能，例如Gate或Apache UIMA。在lingpipe网站上您会发现很多教程，可以帮助您学习各种信息提取方法。之后我建议学习Gate和UIMA。

如果你想实现这样的网站，你还需要学习如何使用网络爬虫框架（例如nutch ）、网络搜索引擎 ( yahoo、google、bing）和信息检索引擎（例如 apache lucene ）在提取的数据之上提供搜索服务。

更新：

对于Python，最好从：http://www.nltk.org/开始

回复收藏 0 原文

~没有更多了~

关于作者

飘逸的'云

暂无简介

文章

25 人气

关注发私信

友情链接

文江博客

我如何开始信息提取？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

泪是无色的血

yriii2

1649543945

g红火

嘿哥们儿

旧城烟雨

友情链接

我如何开始信息提取？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

泪是无色的血

yriii2

1649543945

g红火

嘿哥们儿

旧城烟雨

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。