序列比对

发布于 2024-12-20 21:56:37 字数 206 浏览 5 评论 0原文

我有以下关于序列比对的问题：

我们知道，当您想要强制两个序列在其整个长度上比对时，全局比对算法非常有用，而局部比对可以找到两个序列之间具有最高相似性的一个或多个区域，并从那里向外建立比对。

当我们有一个很长的序列和一个小序列库时，找到库中小序列串联的最佳算法是什么，可以最大限度地减少比对成本？

需要登录才能够评论，你可以免费注册一个本站的账号。

江心雾 2024-12-27 21:56:37

令 Σ 为字母表（例如，{A, C, G, T}）。设 L ⊆ Σ* 为短文库序列的集合。计算 L* 的最小状态 DFA (Q, Σ, ∂, q₀, F)。

我们一次扫描一个字母长序列 x ∈ Σ*。令x'为已消耗的x的前缀。对于每个状态 q ∈ Q，我们维持 [每个序列 y ∈ Σ* 上的最小值 c_q(x')，使得 ∂(q₀, y) = x' 和 y 之间的编辑距离 q]。

对于空前缀 ε，对于每个状态 q ∈ Q，都满足 c_q(ε) = min {|y|: y ∈ Σ*, ∂(q₀, y) = q}，因为 y 和 ε 之间的距离是 y 的长度。在转移图上使用广度优先搜索计算初始表。

给定 x' 的表格和字母 s，我们计算 c_q(x) 作为 y 的几种可能性的最小值，其中 x = x' s。

字符串 y = y' sz，对齐 s。本例中的成本为 min_{q', z: ∂(q', sz) = q} (c_q'(x') + |z|)，其中可以通过 |Q| 计算广度优先搜索。
字符串 y = y'，删除 x 中的 s。本例中的成本为 c_q(x') + 1。
字符串 y = y' t，其中 t 是一个字母，用 s 代替 t（反之亦然）。本例中的成本为 min_{q', t： ∂(q', t) = q} (c_q'(x') + 1)。

最后，最优对齐成本为 min_{q ∈ F} c_q(x)。可以按照动态程序的常用方式重建对齐方式。