Tag: 生物信息学

序列比对算法使用一组字符而不是一个字符

我从关于对齐算法的一些细节开始,最后,我问我的问题。 如果你知道对齐算法通过开头。 考虑我们有两个字符串: ACCGAATCGA ACCGGTATTAAC 有一些算法如: Smith-Waterman或Needleman-Wunsch ,它们对齐这两个序列并创建一个矩阵。 看看以下部分的结果: Smith-Waterman Matrix § § ACCGAATCGA § 0 0 0 0 0 0 0 0 0 0 0 A 0 4 0 0 0 4 4 0 0 0 4 C 0 0 13 9 4 0 4 3 9 4 0 C 0 0 9 22 […]

算法帮助! 使用其伙伴搜索字符串的快速算法

我正在寻找一个快速的搜索目的算法用于一个巨大的字符串(它是一个由数亿到数十亿个字符组成的生物基因组序列)。 此字符串中只有4个字符{A,C,G,T},“A”只能与“T”配对,而“C”与“G”配对。 现在我正在寻找两个子串({minLen,maxLen}之间的子串的长度约束,以及{intervalMinLen,intervalMaxLen}之间的间隔长度),它们可以反平行地相互配对。 例如,字符串是:ATCAG GACCA TACGC CTGAT 约束:minLen = 4,maxLen = 5,intervalMinLen = 9,intervalMaxLen = 10 结果应该是 “ATCAG”配对“CTGAT” “TCAG”配对“CTGA” 提前致谢。 更新:我已经有了确定两个字符串是否可以相互配对的方法。 唯一的问题是进行详尽的搜索是非常耗时的。