匹配某一行并保留大写字母？

发布于 2022-09-02 23:45:54 字数 459 浏览 33 评论 0

输入文件格式

C4 Alignment:
------------
         Query: UN074481
        Target: scaffold9929 [revcomp]
         Model: est2genome
     Raw score: 2379
   Query range: 0 -> 510
  Target range: 1114739 -> 1048547

       1 : CGCACACCACACAACCACTCACGCCATGGAACACACATCACACAACCACCCACCAACTAACACATCCATGGCCACGGAACGCACACCACACAGCCACCCTCCAACACATCCATGGCCGGCGCGGGCAAGCAGGCCATCCGCGGGGGCGGGGAGCAGGGCGGCCGCACTTGGCGGAT :     176

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

明媚如初 2022-09-09 23:45:54

回复收藏 0

芯好空 2022-09-09 23:45:54

回复收藏 0

紙鸢 2022-09-09 23:45:54

回复收藏 0

糖粟与秋泊 2022-09-09 23:45:54

回复收藏 0

您的好友蓝忘机已上羡 2022-09-09 23:45:54

回复收藏 0

韬韬不绝 2022-09-09 23:45:54

回复收藏 0

雪化雨蝶 2022-09-09 23:45:54

回复收藏 0

北方。的韩爷 2022-09-09 23:45:54

回复收藏 0

倒数 2022-09-09 23:45:54

回复收藏 0

幸福不弃 2022-09-09 23:45:54

回复收藏 0

谁的新欢旧爱 2022-09-09 23:45:54

回复收藏 0

一张白纸 2022-09-09 23:45:54

回复收藏 0

你如我软肋 2022-09-09 23:45:54

回复收藏 0

佼人 2022-09-09 23:45:54

回复收藏 0

末が日狂欢 2022-09-09 23:45:54

回复收藏 0

我们的影子 2022-09-09 23:45:54

回复收藏 0

戏舞 2022-09-09 23:45:54

||||||
1114739 : CGCACACCACACAACCACTCACGCCATGGAACACACATCACACAACCACCCACCAACTAACACATCCATGGCCACGGAACGCACACCACACAGCCACCCTCCAACACATCCATGGCCGGCGCGGGCAAGCAGGCCATCCGCGGGGGCGGGGAGCAGGGCGGCCGCACTTGGCGGAT : 1114564

177 : GCACGAGCGGTGAGCAGGGCGGTGCCGCGGGCGGCGCCGCGGGCACGGAGCAGGGCCACCGCGCTGGCAGCGAGCTTGGCGGATGCTCGGGCGACGAGCTTGCCGGACGCGCGGGCGACGAGCATGGCGCGCAGCGGCGGCTCACTCCACCGTCGACTGCTCAGCGCAA >>>> : 346

回复收藏 0

作业与我同在 2022-09-09 23:45:54

回复收藏 0

⒈起吃苦の倖褔 2022-09-09 23:45:54

回复收藏 0

马蹄踏│碎落叶 2022-09-09 23:45:54

回复收藏 0

罪#恶を代价 2022-09-09 23:45:54

回复收藏 0

青春如此纠结 2022-09-09 23:45:54

回复收藏 0

小傻瓜 2022-09-09 23:45:54

回复收藏 0

拧巴小姐 2022-09-09 23:45:54

回复收藏 0

妄想挽回 2022-09-09 23:45:54

回复收藏 0

情定在深秋 2022-09-09 23:45:54

回复收藏 0

燕归巢 2022-09-09 23:45:54

回复收藏 0

鹿港巷口少年归 2022-09-09 23:45:54

回复收藏 0

水溶 2022-09-09 23:45:54

回复收藏 0

您的好友蓝忘机已上羡 2022-09-09 23:45:54

回复收藏 0

柠檬色的秋千 2022-09-09 23:45:54

回复收藏 0

半岛未凉 2022-09-09 23:45:54

回复收藏 0

二货你真萌 2022-09-09 23:45:54

|||||||||+-
1114563 : GCACGAGCGGTGAGCAGGGCGGTGCCGCGGGCGGCGCCGCGGGCACGGAGCAGGGCCACCGCGCTGGCAGCGAGCTTGGCGGATGCTCGGGCGACGAGCTTGCCGGACGCGCGGGCGACGAGCATGGCGCGCAGCGGCGGCTCACTCCACCGTCGACTGCTCAGCGCAAgg..... : 1114392

347 : Target Intron 1 >>>> GGGCGCGACGGATTCTTCCCTCGGGCGCGCGGCAGCCTCTTCGCTCGGGCGCGCGGTGGCATCTTTCCTAGAGCATGGCGCGTGACGGCCACTACAGAGGAGCTCCTCCCTCCGGCGTCGGCCACCCGACACTGCACTGGCGCCCGGCTGTCCC : 499
65682 bp +-||||| | |||

回复收藏 0

最后的乘客 2022-09-09 23:45:54

回复收藏 0

迷离° 2022-09-09 23:45:54

回复收藏 0

口干舌燥 2022-09-09 23:45:54

回复收藏 0

泛泛之交 2022-09-09 23:45:54

|||||| |||| ||| ||||||||

回复收藏 0

晌融 2022-09-09 23:45:54

回复收藏 0

彼岸花似海 2022-09-09 23:45:54

回复收藏 0

原谅过去的我 2022-09-09 23:45:54

回复收藏 0

稍尽春風 2022-09-09 23:45:54

回复收藏 0

故乡的云 2022-09-09 23:45:54

回复收藏 0

最近可好 2022-09-09 23:45:54

| || |||||||
1114391 : ....................aaGGGCGTGGCGGCTTCTTCCCTCGGGCGCGCGGCGGCCTCTTCGCTCGGGCGCGCGGTGGCCTCTTCCCTCGAGCATGGTGCGTGACGGCCACTACAGAGGAGCTCCTCCCTGCGGCGTCGGCCACCCGACACTGCACTGGCGCGCGACTGTCCC : 1048559

500 : CCCCCCCCCCC : 510
|| || | | |
1048558 : CCTCCTCTCTC : 1048548

# --- START OF GFF DUMP ---
#
#
##gff-version 2
##source-version exonerate:est2genome 2.2.0
##date 2016-06-22
##type DNA
#
#
# seqname source feature start end score strand frame attributes
#
scaffold9929 exonerate:est2genome gene 1048548 1114739 2379 - . gene_id 0 ; sequence UN074481 ; gene_orientation +
scaffold9929 exonerate:est2genome utr5 1114395 1114739 . - .
scaffold9929 exonerate:est2genome exon 1114395 1114739 . - . insertions 0 ; deletions 0
scaffold9929 exonerate:est2genome splice5 1114393 1114394 . - . intron_id 1 ; splice_site "GG"
scaffold9929 exonerate:est2genome intron 1048713 1114394 . - . intron_id 1
scaffold9929 exonerate:est2genome splice3 1048713 1048714 . - . intron_id 0 ; splice_site "AA"
scaffold9929 exonerate:est2genome exon 1048548 1048712 . - . insertions 0 ; deletions 0
scaffold9929 exonerate:est2genome similarity 1048548 1114739 2379 - . alignment_id 0 ; Query UN074481 ; Align 1114740 1 345 ; Align 1048713 346 165
# --- END OF GFF DUMP ---
#
-- completed exonerate analysis
Command line: [./exonerate INPUT/UN183704.fa INPUT/scaffold9929.fa --model est2genome --showtargetgff TRUE --showvulgar no --showalignment yes --alignmentwidth 200 --bestn 1 --verbose 2]
Hostname: [node009]

想要匹配竖线（|）下边的行，并保留这一行所有的大写字母
最后的结果
CGCACACCACACAACCACTCACGCCATGGAACACACATCACACAACCACCCACCAACTAACACATCCATGGCCACGGAACGCACACCACACAGCCACCCTCCAACACATCCATGGCCGGCGCGGGCAAGCAGGCCATCCGCGGGGGCGGGGAGCAGGGCGGCCGCACTTGGCGGAT
GCACGAGCGGTGAGCAGGGCGGTGCCGCGGGCGGCGCCGCGGGCACGGAGCAGGGCCACCGCGCTGGCAGCGAGCTTGGCGGATGCTCGGGCGACGAGCTTGCCGGACGCGCGGGCGACGAGCATGGCGCGCAGCGGCGGCTCACTCCACCGTCGACTGCTCAGCGCA
GGGCGTGGCGGCTTCTTCCCTCGGGCGCGCGGCGGCCTCTTCGCTCGGGCGCGCGGTGGCCTCTTCCCTCGAGCATGGTGCGTGACGGCCACTACAGAGGAGCTCCTCCCTGCGGCGTCGGCCACCCGACACTGCACTGGCGCGCGACTGTCCC
CCTCCTCTCTC

回复收藏 0

妳是的陽光 2022-09-09 23:45:54

import re
with open('result.exonerate.txt', 'r') as f:
    a =[]
    for num, line in enumerate(f):
        if '|' in line:
            a.append(num + 1)
        if 'Query:' in line:
            print ">" + line.strip().split()[1],
        elif 'Target:' in line:
            print line.strip().split()[1]
        elif num in a:
            b = re.sub(r'[^A-Z]','', line[2:-2])
            print b

回复收藏 0

~没有更多了~