如何对文档的关键信息进行提取?
现在有这样一个需求,一个文档txt,我们需要对文档中的关键信息进行提取,然后包装成一个对象存储到数据库中。(文档通过流的形式读入)
文档的格式不固定,可能长下面几种样子:
张三 男 汉族 一个屌丝程序员
张三 汉族 男 一个屌丝程序员
张三 男 汉族 1987年3月 上海市闵行区闵浦路38号 大专
我需要根据这段话解析出可能的有效信息(比如姓名、性别、民族、学历、个人简介等等),当然上面我只是说明了一行的情况,实际文档可能有几十甚至上百行的信息。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
建议看看lucene的相关内容。