根据常见的子模式对短的同质字符串（DNA）进行聚类并提取类别的共识

发布于 2024-08-06 08:39:19 字数 562 浏览 17 评论 0原文

任务：
将大量短 DNA 片段聚类到共享共同子序列模式的类别中，并找到每个类别的共有序列。

泳池：约。 300 个序列片段
每个片段 8 - 20 个字母
4 个可能的字母：a、g、t、c
每个片段由三个区域构成：
1. 5个通用字母
2. 8 个或更多 g 和 c 位置
3. 5个通用字母
  （正则表达式为 [gcta]{5}[gc]{8,}[gcta]{5}）

计划：
执行多重比对（即使用ClustalW2）以查找在区域2中共享公共序列及其共有序列的类。

问题：

我的片段是否太短，增加它们的大小是否有帮助？
区域 2 是否过于同质（只有两种允许的字母类型）无法显示其序列中的模式？
您可以建议哪些替代方法或工具来完成此任务？

最好的问候，

西蒙

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

江南月 2024-08-13 08:39:19

是的，考虑到这是人类基因组，并且您本质上只是在寻找特定的 8 聚体，300 个太少了。基因组中有 65,536 个可能的 8 聚体和 3,000,000,000 个独特碱基（假设您正在查看整个基因组，而不仅仅是基因或编码区域）。你会发现 G/C 包含序列 3,000,000,000 / 65,536 * 2^8 =~ 12,000,000 次（而且可能更多，因为与其他东西相比，基因组充满了 CpG 岛）。为什么只选择300？

您不想使用正则表达式来完成此任务。从 1 号染色体开始，寻找第一个 CG 或 GC，然后延伸，直到找到第一个非 G 或 C。然后获取该序列及其上下文并将其保存（在数据库中）。冲洗并重复。

对于这个项目，Clustal 可能有点矫枉过正——但我不知道你的目标，所以我不能确定。如果您只对 GC 区域感兴趣，那么您可以进行一些简单的聚类，如下所示：