Informatica 中的 PDF 数据源
Informatica 如何处理 PDF 等非结构化数据源? 如果表格报表存储为PDF,我们可以从PDF中将其作为表格数据读出(就像.NET中的数据表)吗?
How does Informatica handle unstructured data sources like PDF? If a tabular report is stored as a PDF, can we read it out from PDF as a tabular data (like a data table in .NET)?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
Informatica PowerCenter 非结构化数据选项
有趣的是你提到它,我曾在发明底层技术的初创公司工作,直到被Informatica收购。
Informatica PowerCenter Unstructured Data Option
Funny you mention it, I used to work for the start-up company that invented the underlying technology, until the acquisition with Informatica.
PDF实际上在内部是非常结构化的。 PDF 规范的最新修订版可能提供了一种保存数据以供外部处理的方法,但 PDF 文档的主要目标是描述用于打印的文档,因此各种环境和设备都可以打印文档,结果如下尽可能相似。
除了打印文本和线条以形成表格的位置之外,是否提供任何额外数据在很大程度上取决于 PDF 的创建者。
PDF is actually quite structured internally. More recent revisions of the PDF specification may provide a way to hold the data ready for external processing, but the main goal of PDF documents is to describe a document for printing, so all kinds of environments and devices can print the document with a result as similar as possible.
It depends largely on the creator of the PDF if any extra data is provided other than where to print text and lines to form a table.
您必须使用处理非结构化数据的 Informatica B2B 数据交换产品。 该产品提供处理各种非结构化数据的功能,不仅可以处理 PDF,还可以处理 Word、Excel、Star Office、AFP、PostScript、PCL 和 HTML。 您必须使用 Informatica B2B 数据转换。
这是供您参考的快速链接。
http://www.informatica.com/us/产品/b2b-数据交换/b2b-数据转换/
You have to use Informatica B2B data exchange product which handles unstructured data. This product offers features to handle all kinds of unstructured data not only PDF but also Word, Excel,Star Office, AFP, PostScript, PCL, and HTML. You would have to use Informatica B2B Data Transformation.
Here is quick link for your reference.
http://www.informatica.com/us/products/b2b-data-exchange/b2b-data-transformation/