使用 Hadoop 解析批量文本：生成密钥的最佳实践

发布于 2024-09-12 05:36:48 字数 276 浏览 3 评论 0原文

我有一组“大”的行分隔完整句子，正在使用 Hadoop 进行处理。我开发了一个映射器，其中应用了一些我最喜欢的 NLP 技术。我在原始句子集上映射了几种不同的技术，在减少阶段我的目标是将这些结果收集到组中，以便组中的所有成员共享相同的原始句子。

我觉得用整个句子作为关键词是个坏主意。我觉得由于键的数量有限（不合理的信念），生成句子的一些哈希值可能不起作用。

有人可以推荐为每个句子生成唯一键的最佳想法/实践吗？理想情况下，我想保留顺序。然而，这不是主要要求。

阿凡陀，

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

孤千羽 2024-09-19 05:36:48

标准散列应该可以正常工作。大多数哈希算法的值空间远远大于您可能使用的句子数量，因此发生冲突的可能性仍然极低。

回复收藏 0 原文

当梦初醒 2024-09-19 05:36:48

尽管我已经给了你关于什么是正确的哈希函数的答案，但我真的建议你只使用句子本身作为键，除非你有一个具体的原因来解释为什么这是有问题的。

回复收藏 0 原文

人间☆小暴躁 2024-09-19 05:36:48

尽管您可能希望避免简单的哈希函数（例如，您可以快速想到的任何不成熟的想法），因为它们可能无法充分混合句子数据来避免冲突，但标准加密哈希函数之一可能非常合适，例如 MD5、SHA-1 或 SHA-256。

即使已发现冲突<，您也可以使用 MD5 来实现此目的/a> 并且该算法被认为对于安全密集型目的是不安全的。这不是一个安全关键的应用程序，所发现的冲突是通过精心构造的数据产生的，并且可能不会在您自己的 NLP 句子数据中随机出现。（例如，请参阅 Johannes Schindelin 的解释，解释为什么可能没有必要更改 git 以使用 SHA- 256 个哈希值，以便您可以了解其背后的推理。）

回复收藏 0 原文

~没有更多了~

关于作者

一世旳自豪

暂无简介

文章

24 人气

关注发私信

友情链接

文江博客

使用 Hadoop 解析批量文本：生成密钥的最佳实践

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

毁梦

qq_02ocQH

花期渐远

鞋纸虽美，但不合脚ㄋ〞

adminaaa

yangzhenyu

友情链接

使用 Hadoop 解析批量文本：生成密钥的最佳实践

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

毁梦

qq_02ocQH

花期渐远

鞋纸虽美，但不合脚ㄋ〞

adminaaa

yangzhenyu

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。