我有一个包含数百万个序列的 fasta 文件。我只想提取 .txt 文件中名称匹配的内容,我该如何执行此操作?
我一直在对大约 1.5m 的读取 fasta 文件(“V1_6D_contigs_5kbp.fa”)进行排序,以确定哪些读取可能是“病毒式”的。该文件中的读数表示为 Vx_Cz - …
使用biopython的SeqIO模块发现独特的克隆
我正在研究 DNA 的下一代测序 (NGS) 分析。我正在使用 SeqIO Biopython 模块来解析 Fasta 格式的 DNA 库。我只想过滤唯一的克隆(唯一的记录)。为此…
newick 格式:右括号后直接数字?
我有一个 Newick 格式的系统发育树。完整字符串的示例如下所示: “...(tet_rpg.hmm_GCA_000638155.1_seq1:0.001565531,tet_rpg.hmm_GCA_000507745…
将多个 PDB 文件拆分为链并保存为单独的文件
我正在尝试使用 Biopython 拆分大量 pdb 文件,然后将它们保存为名为 pdbid_chain.pdb 的单独文件。到目前为止我还没有成功。另外,我对 python 还很…
有没有办法使用 DeepVirFinder 修复此错误代码?
我会尽我所能提供帮助,但这肯定有点超出我的能力范围。 我正在尝试在 Mac 终端内的 fasta 文件“my_seqs.fa”上运行宏基因组学包“DeepVirFinder”。…
使用 Python 从 FASTA 制作 Blast 数据库
我该怎么做?我使用 Biopython 并已经看过手册。当然,我可以在独立的 NCBI BLAST+ 中使用“makeblastdb”从 FASTA 制作blastdb,但我想在一个程序中…
Biopython 的 calc_dihedral() 需要哪些原子来计算所有 3 个二面角?
我想计算余数中的所有三个二面角。 Biopython 的 calc_dihedral(atom1,atom2,atom3,atom4) 需要四个原子的向量坐标作为参数,并返回单个值的输出。我…
HSExposure() 模块不可调用
from Bio.PDB import * parser=PDBParser() structure=parser.get_structure('cal1','3CLN.pdb') model=structure[0] chain=model["A"] hse=HSExposur…
使用biopython从gb文件中提取数据
我有一个 GB 文件,我需要从该文件中提取一些特定特征:蛋白质编码基因名称和大小。 LOCUS NC_008137 15318 bp DNA linear MAM 15-APR-2009 DEFINITIO…
Biopython 错误 - 系统找不到指定的文件
我遇到了无法解决的错误。 我正在尝试执行最简单的一组命令来执行 tBLASTn 算法, 在数据库(也指定为文件-> cucumber.fasta)中查找序列(指定为“py…
在 python 中查找接下来 10 个字符中的各种字符串重复
因此,我正在解决一个问题,在遇到初始字符串后,我必须找到各种字符串重复,假设我们采用 ACTGAC,因此数据文件的序列如下所示: AAACTGACACCATCGATC…
使用Python检索丢失的序列-'split'命令不起作用
我有一组使用软件找到的(蛋白质)序列,但它们的长度比数据库中原始序列的长度短。我下载了整个数据库,现在我有了这些不完整的序列集找到的以及…
DNA 搜索序列正则表达式中存在多个不匹配
我编写了这个野蛮的脚本来创建字符串的排列,其中在字符串中所有可能的位置组合中包含 n 个(最多 n=4)个 $。我最终将 .replace('$','(\\w)') 用于 d…
如何仅选择某些子字符串
从字符串说 dna = 'ATAGGGATAGGGAGAGAGCGATCGAGCTAG' 我得到了子字符串 dna.format = 'ATAGGGATAG','GGGAGAGAG' 我只想打印长度能被3整除的子字符串 …
如何在Python中从字符串中查找多个子字符串
例如,如果我有一个字符串 'ATGAGGGATAGAGGGTTGGGAGAGATGGATAGGGGATAGATTG' 我必须获取 ATG 和 TTG 之间的子字符串,因为我们可以看到字符串中有两种…