当前位置：文江博客话题详情

单速编码Minhash基因组

发布于 2025-01-26 15:57:37 字数 802 浏览 2 评论 0 原文

我对单热编码Minhash基因组有算法，并且正在寻求有关我是否根据Minhashing的性质正确构建它的意见。我自己和合作者之间存在一些分歧，我们正在尝试找到正确的方法。

我已经使用了mash（）以1,000个样本的原始遗传序列读取（FASTQ文件）的数据库。总而言之，对于一个样本，这会产生2000 Hash函数的草图，其中每个哈希函数编码一个21 kmer的等位基因序列（alphabet {atcg}）。

我通过将每个新草图中的哈希函数与先前处理的示例数据库中的哈希函数进行比较来编码这些草图。如果新草图在数据库中具有HASH，则该列中的1个在数据库中获得1，如果Hash在数据库中，我们将在该哈希的数据库中添加一个列，而当前示例为1个，为所有以前的示例添加一个0 。我相信这会产生准确的单次编码。

我的合作者认为草图中的哈希功能的顺序很重要。如果这是正确的，则仅当新样本中的哈希函数与以前的哈希函数与以前的哈希函数相同时，与先前哈希的数据库进行比较才有效。

我对Minhashing的理解是，假设没有哈希碰撞，每个哈希函数都应代表独特的K-mer。按哈希的上升顺序对草图进行排序主要是为了随机分组，因此比较在同一索引上的哈希相并不重要，而是要查看一个草图中是否存在一个草图中的任何哈希。

这感觉很利基，很难以书面形式解释，所以请让我知道是否需要任何澄清。谢谢！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

关于作者

一场春暖

暂无简介

文章

26 人气

关注发私信

友情链接

文江博客

单速编码Minhash基因组

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

关于作者

相关话题

热门标签

推荐作者

十二

飞烟轻若梦

OPleyuhuo

wxb0109

旧城空念

-小熊_

友情链接

单速编码Minhash基因组

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

关于作者

相关话题

热门标签

推荐作者

十二

飞烟轻若梦

OPleyuhuo

wxb0109

旧城空念

-小熊_

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。