Mahout - JPA 集成。我需要 CSV 文件吗?
我有一个使用 openJPA 的现有数据模型,并且我正在尝试使用 Mahout 集成 CF 系统。
如果这是一个愚蠢的问题,请原谅我,但我刚刚开始研究象夫。 Mahout 的实际操作已通过邮件发送,因此我应该很快就能掌握最新情况。
我的问题是如何将 mahout 与现有的 jpa 模型集成。我是否需要向 DataModel 类提供 CSV 文件,或者我可以扩展 DataModel 以直接从现有数据源读取数据吗?我意识到从我的数据生成 CSV 文件不会很复杂,但这样做似乎是一个不必要的中间步骤。
我对“大数据集”世界非常陌生,所以请原谅我的无知。但是大多数使用 Mahout 的系统都使用 CSV 数据集吗?不知怎的,这对我来说似乎很奇怪。
谢谢。
编辑:
所以我正在阅读亚马逊在 Mahout in Action 上提供的预览。似乎您可以将 mahout 接口直接连接到数据库,但这样做是以性能为代价的。我迫不及待地想拿到这本书。对此的任何评论或提示仍然非常感激。
I have an existing data model using openJPA and I am trying to integrate a CF system using Mahout.
Forgive me if this is a bone head question, but I just started researching mahout. Mahout in action is in the mail, so I should be up to speed soon.
My question is how to integrate mahout with an existing jpa model. Do I need to provide a CSV file to the DataModel class, or can I extend DataModel to read directly from my existing dataSource. I realize it wouldn't be very complicated to generate a CSV file from my data, but doing this seems to be an unnecessary intermediate step.
I am very new to the "large data set" world, so forgive my ignorance. But do most systems that use Mahout use a CSV data set? Somehow this seems strange to me.
Thanks.
Edit:
So I am reading the preview amazon provides on Mahout in Action. It seems that you can have mahout interface directly into your DB, but you do so at the cost of performance. I can't wait to get my hands on this book. Any comments or tips about this would still be very much appreciated.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
分布式/Hadoop 的内容将从 HDFS、Hbase 或 Cassandra 或您拥有的其他内容中读取。
非分布式内容通常从文件中读取,并且有一些钩子可以从数据库/JDBC 中读取。来源并不那么重要,因为推荐模型无论如何都会将其加载到内存中。
您可以编写自己的
DataSource
、重用GenericDataModel
或修改其他实现。The distributed/Hadoop stuff would read from HDFS, or Hbase or Cassandra or what have you.
The non-distributed stuff generally reads from files, and there are some hooks to read from a database/JDBC. The source isn't all that important as the recommender model is to load it in memory anyhow.
You can write you own
DataSource
, reuseGenericDataModel
, or modify another implementation.