sqoop将hdfs下的数据导入到mysql如何去重?

发布于 2022-09-02 09:36:02 字数 507 浏览 26 评论 0

sqoop执行的脚本我是这样写的
sqoop export --connect jdbc:mysql://localhost:3306/movie --username root --password welcome1 --table movieRecommend --fields-terminated-by ',' --export-dir /recommendout

recommendout是我mapreduce程序处理后的输出目录,包括用户id,电影id,经mapreduce计算处理得出的该电影对该用户的推荐度。mysql中的表movieRecommend的字段包括user_id,movie_id,rating,没有设置主键。正常的结果是最终mysql中每个用户对每个商品有唯一的一个推荐度,即(用户id+电影id)字段应该是unique的。但mapreduce和sqoop的job是定时多次执行的,这样每次执行,recommendout目录中的数据都会导入到mysql中,造成重复。。

初次接触hadoop平台和其组件,请问这种问题是怎么解决的?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

独行侠 2022-09-09 09:36:02

为什么不在mysql中设置主键呢?sqoop是多map task完成的,很难在sqoop端去重

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文