从不同的非结构化文本文件中检索信息 - 文本挖掘？

发布于 2024-08-25 20:05:44 字数 442 浏览 7 评论 0原文

我需要一些帮助来解决这个问题。

我们有大量给定指定域的文档。这些文档来自不同的来源，因此它们的结构也可能非常不同。另一方面，我有一个包含一些指定字段的表格，其中必须从文档的摘录中填充一些数字。

例如：

x 公司的业务量为 2010 年 20mio。1,000,000 美元是交换今年是y公司。

结果应该是这样的，

|| Company | Year | Volume  
||  X      | 2010 |  200,000  
||  Y      | 2010 | 1000,000

您能给我指出一些链接或主题吗，我可以在其中找到如何解决此类问题的更多信息。

我知道对此没有现成的解决方案，但我应该从哪里开始寻找。

提前致谢。

原文

I need some help in solving this problem.

We have a large amount of documents of a given specified domain. These documents are from differente sources and therefore their structure can be very different too. On the other side I have a table with some specified fields where some figures has to be filled from the extract of the documents.

For example:

Company x had a business volume of
$20mio in 2010. $1,000,000 was the exchange of
company y this year.

The result should something like this

|| Company | Year | Volume  
||  X      | 2010 |  200,000  
||  Y      | 2010 | 1000,000

Can you point me please to some links or topics, where I can find further informations how to solve such a problem.

I know that there is no out of the box solution for this, but where should i start to look for.

Thanks in advance.

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

养猫人 2024-09-01 20:05:44

好的。有整个计算机科学实验室专门研究这类东西！
也许可以从寻找一个名为 RapidMiner 的工具开始

另外，这里还有一些我的研究论文标题PDF（遗憾的是我不再有链接）：

1。自动理解财务报表
使用神经网络和语义语法

James Markovitch
邓氏公司布拉德街，搜索技术
1995年4月
电子邮件：[电子邮件受保护]
版权所有 © 1995 James Markovitch

2。文档图像中自动语义结构提取的集成方法

Margherita Berardi、Michele Lapi 和 Donato Malerba
信息学院 – 巴里大学
经 Orabona 4 - 70126 巴里
{berardi,lapi,malerba}@di.uniba.it

我认为第一个对您所追求的东西最感兴趣。不太确定它会有多少价值：）

回复收藏 0 原文

~没有更多了~

关于作者

玻璃人

暂无简介

0 文章

0 评论

25 人气

关注发私信

友情链接

文江博客

从不同的非结构化文本文件中检索信息 - 文本挖掘？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

missyouangeled

三生一梦

压抑⊿情绪

天涯离梦残月幽梦

指尖微凉心微凉

☆獨立☆

友情链接

从不同的非结构化文本文件中检索信息 - 文本挖掘？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

missyouangeled

三生一梦

压抑⊿情绪

天涯离梦残月幽梦

指尖微凉心微凉

☆獨立☆

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。