当前位置：文江博客话题详情

运行 BLAST (bl2seq) 而不创建序列文件

发布于 2024-08-21 09:33:15 字数 337 浏览 6 评论 0 原文

我有一个执行 BLAST 查询 (bl2seq) 的脚本

该脚本的工作原理如下：

获取序列a，序列b

将序列a写入文件a

将序列b写入文件b

运行命令“bl2seq -i filea -j fileb -nblastn”

从 STDOUT 获取输出，解析

重复 2000 万次

程序bl2seq不支持管道。有什么方法可以做到这一点并避免写入/读取硬盘？

顺便说一句，我正在使用 Python。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

真心难拥有 2024-08-28 09:33:15

根据您运行的操作系统，您可能可以使用类似的内容bash 的进程替换。我不确定你如何在 Python 中设置它，但你基本上使用命名管道（或命名文件描述符）。如果 bl2seq 尝试在文件中查找，则该方法将不起作用，但如果它只是按顺序读取它们，则应该可以工作。

回复收藏 0 原文

秋叶绚丽 2024-08-28 09:33:15

你怎么知道bl2seq不支持管道？顺便说一句，管道是操作系统的一项功能，而不是程序。如果您的 bl2seq 程序输出某些内容，无论是 STDOUT 还是文件，您应该能够解析输出。检查 bl2seq 的帮助文件以获取输出到文件的选项，例如 -o 选项。然后就可以解析该文件了。

另外，由于您使用的是 Python，因此您可以使用 BioPython 模块。

回复收藏 0 原文

沩ん囻菔务 2024-08-28 09:33:15

这是来自 bl2seq 程序吗？ ="nofollow noreferrer">BioPerl？如果是这样，您似乎无法对其进行管道处理。不过，您可以使用 Bio::Tools::Run::AnalysisFactory::Pise 编写自己的黑客代码，这是推荐的方法。不过，您必须在 Perl 中执行此操作。

如果这是不同的 bl2seq，则忽略该消息。无论如何，您可能应该提供更多细节。

回复收藏 0 原文

橘亓 2024-08-28 09:33:15

哇。我已经弄清楚了。

答案是使用python的子进程模块和管道！

编辑：忘记提及我正在使用blast2，它确实支持管道。

（这是类的一部分）

def _query(self):
    from subprocess import Popen, PIPE, STDOUT
    pipe = Popen([BLAST,
    '-p', 'blastn',
    '-d', self.database,
    '-m', '8'],
    stdin=PIPE,
    stdout=PIPE)
    pipe.stdin.write('%s\n' % self.sequence)
    print pipe.communicate()[0]

其中 self.database 是包含数据库文件名的字符串，即“nt.fa”
self.sequence 是一个包含查询序列的字符串，

这会将输出打印到屏幕上，但您可以轻松地解析它。没有缓慢的磁盘 I/O。没有缓慢的 XML 解析。我将为此编写一个模块并将其放在 github 上。

另外，我还没有做到这一点，但我认为您可以执行多个查询，这样就不需要为每个查询读取blast数据库并将其加载到RAM中。

Wow. I have it figured out.

The answer is to use python's subprocess module and pipes!

EDIT: forgot to mention that I'm using blast2 which does support piping.

(this is part of a class)

def _query(self):
    from subprocess import Popen, PIPE, STDOUT
    pipe = Popen([BLAST,
    '-p', 'blastn',
    '-d', self.database,
    '-m', '8'],
    stdin=PIPE,
    stdout=PIPE)
    pipe.stdin.write('%s\n' % self.sequence)
    print pipe.communicate()[0]

where self.database is a string containing the database filename, ie 'nt.fa'
self.sequence is a string containing the query sequence

This prints the output to the screen but you can easily just parse it. No slow disk I/O. No slow XML parsing. I'm going to write a module for this and put it on github.

Also, I haven't gotten this far yet but I think you can do multiple queries so that the blast database does not need to be read and loaded into RAM for each query.

回复收藏 0 原文

独守阴晴ぅ圆缺 2024-08-28 09:33:15

我使用 R 脚本调用blast2：

....
system("mkfifo seq1")
system("mkfifo seq2")
system("echo  sequence1 > seq1"), wait = FALSE)
system("echo  sequence2 > seq2"), wait = FALSE)
system("blast2 -p blastp -i seq1 -j seq2 -m 8", intern = TRUE)
....

与从硬盘驱动器写入和读取相比，这慢了 2 倍（！）！

I call blast2 using R script:

....
system("mkfifo seq1")
system("mkfifo seq2")
system("echo  sequence1 > seq1"), wait = FALSE)
system("echo  sequence2 > seq2"), wait = FALSE)
system("blast2 -p blastp -i seq1 -j seq2 -m 8", intern = TRUE)
....

This is 2 times slower(!) vs. writing and reading from hard drive!

回复收藏 0 原文

~没有更多了~

关于作者

提笔书几行

暂无简介

0 文章

0 评论

22 人气

关注发私信

友情链接

文江博客

运行 BLAST (bl2seq) 而不创建序列文件

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

1CH1MKgiKxn9p

ゞ记忆︶ㄣ

JackDx

信远

yaoduoduo1995

霞映澄塘

友情链接

运行 BLAST (bl2seq) 而不创建序列文件

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

1CH1MKgiKxn9p

ゞ记忆︶ㄣ

JackDx

信远

yaoduoduo1995

霞映澄塘

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。