Blast

Поиск гомологов белка FDNG_ECOLI (P24183) в геноме Xanthomonas campestris: Для поиска гомологов была выбрана программа tblastn пакета BLAST. Были запущены следующие команды: formatdb -i xc_genome.fasta -n index -p F blastall -p tblastn -d index -i fdng_ecoli.fasta -e 0.001 > gomol.txt
Число находок с Е-value<0,001         3
Характеристика лучшей находки:  
   E-value находки  2e-33
Название геномной последовательности  AE008922 Xanthomonas campestris pv. campestris str. ATCC 33913, section 286 of 460 of the complete genome.
Координаты выравнивания(-ий) в найденной последовательности  9939-8431

Нахождение записи EMBL по последовательности с помощью программы BLASTN На сайте EBI (http://www.ebi.ac.uk/Tools/) был запущен поиск этой последовательности в банке "EMBL standard prokaryote". У первой находки (AM920689) был выбран режим "Show Alignments". Была выдана следующая информация:
>EM_PRO:AM920689; AM920689 Xanthomonas campestris pv. campestris complete
            genome, strain B100
        Length = 5,079,002

  Plus Strand HSPs:


 Score = 7545 (1138.1 bits), Expect = 0., P = 0.
 Identities = 1509/1509 (100%), Positives = 1509/1509 (100%), Strand = Plus / Plus

Query:       1 AAACGCACCAAGACGGTATGCACCTATTGCGGGGTGGGGTGCTCGTTCGAGATGTGGACG 60
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1723345 AAACGCACCAAGACGGTATGCACCTATTGCGGGGTGGGGTGCTCGTTCGAGATGTGGACG 1723404

Query:      61 CGCGACCGCCACCTGCTCAAGGTGCAACCGGTGGTAGACGCACCCGCCAACGGCATTTCC 120
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1723405 CGCGACCGCCACCTGCTCAAGGTGCAACCGGTGGTAGACGCACCCGCCAACGGCATTTCC 1723464

Query:     121 ACCTGCGTCAAAGGCAAGTTTGCGTGGGATTTCGTCAACGACCCCAAGCGGCTCACCACG 180
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1723465 ACCTGCGTCAAAGGCAAGTTTGCGTGGGATTTCGTCAACGACCCCAAGCGGCTCACCACG 1723524

Query:     181 CCGTTGATCCGCGAGCACGGCCGCTTCCGCGAGGCAAGTTGGGACGAGGCCTTGGCACTG 240
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1723525 CCGTTGATCCGCGAGCACGGCCGCTTCCGCGAGGCAAGTTGGGACGAGGCCTTGGCACTG 1723584

Query:     241 GTGGCGCGCCGGTTGCTGGAGATCCGCGACCTCCACGGCGCGCAGAGCATCGGCTTCATC 300
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1723585 GTGGCGCGCCGGTTGCTGGAGATCCGCGACCTCCACGGCGCGCAGAGCATCGGCTTCATC 1723644

Query:     301 GGCTCCAGCAAGGCCAGCAATGAAGAGGCCTACCTCACCCAGAAGATCGCGCGCCTGATC 360
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1723645 GGCTCCAGCAAGGCCAGCAATGAAGAGGCCTACCTCACCCAGAAGATCGCGCGCCTGATC 1723704

Query:     361 ATCGGTACCAACAGCGTCGACAACTCCTCGCGCTATTGCCAGAACCCGGCCACCGAGGGT 420
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1723705 ATCGGTACCAACAGCGTCGACAACTCCTCGCGCTATTGCCAGAACCCGGCCACCGAGGGT 1723764

Query:     421 TTGTTCCGCACCGTCGGCTACGGCGGCGACGCCGGCACCATCGCCGATCTGCAGCAGGCC 480
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1723765 TTGTTCCGCACCGTCGGCTACGGCGGCGACGCCGGCACCATCGCCGATCTGCAGCAGGCC 1723824

Query:     481 GAACTGGTGGTCATCGTCGGCAGCAACCTGGCCGAGAACCACCCGGTGATCGCCTCCAAG 540
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1723825 GAACTGGTGGTCATCGTCGGCAGCAACCTGGCCGAGAACCACCCGGTGATCGCCTCCAAG 1723884

Query:     541 CTCAAGGCGGCGCGCAAGCTGCACGGGCAGAAGCTCATCGTGGTAGACCCGCGCAAGCAC 600
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1723885 CTCAAGGCGGCGCGCAAGCTGCACGGGCAGAAGCTCATCGTGGTAGACCCGCGCAAGCAC 1723944

Query:     601 GAGATGGCCGAGCGCGCGGACCTGTTCCTGCGCCCCGTGCCCAGCACCGATATCGTGTGG 660
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1723945 GAGATGGCCGAGCGCGCGGACCTGTTCCTGCGCCCCGTGCCCAGCACCGATATCGTGTGG 1724004

Query:     661 GCGTCGGCGCTGTCGCGCTACATGTTCGACAACGGCTACGCGGATACGCAGTTCCTTGCA 720
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1724005 GCGTCGGCGCTGTCGCGCTACATGTTCGACAACGGCTACGCGGATACGCAGTTCCTTGCA 1724064

Query:     721 CAGCGCGTCAATCAGGTGGACGAATACCGCCAGTCGCTGGAGCCGTTCACGCTGGACTAC 780
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1724065 CAGCGCGTCAATCAGGTGGACGAATACCGCCAGTCGCTGGAGCCGTTCACGCTGGACTAC 1724124

Query:     781 GCGGCGCAGATCACCGGCCTGAGCCGCGAACAGTTGGTGGAAGCGGGCGAGATGATTGGC 840
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1724125 GCGGCGCAGATCACCGGCCTGAGCCGCGAACAGTTGGTGGAAGCGGGCGAGATGATTGGC 1724184

Query:     841 CGCGCGCGCTCGGTCTGCATCGTCTGGGCCATGGGCATCACCCAGCACACGCACGGCGCC 900
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1724185 CGCGCGCGCTCGGTCTGCATCGTCTGGGCCATGGGCATCACCCAGCACACGCACGGCGCC 1724244

Query:     901 GATACCAGCACCGCGCTCTCCAACCTGTTGTTGGTCACCGGCAATTACGGCCGCCCCGGC 960
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1724245 GATACCAGCACCGCGCTCTCCAACCTGTTGTTGGTCACCGGCAATTACGGCCGCCCCGGC 1724304

Query:     961 ACCGGCGGCTACCCGATGCGCGGCCACAACAATGTGCAAGGCGCCAGCGACTTCGGCTGC 1020
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1724305 ACCGGCGGCTACCCGATGCGCGGCCACAACAATGTGCAAGGCGCCAGCGACTTCGGCTGC 1724364

Query:    1021 CTGAAGAACATGTACCCCGGCTACGAAAGCGTCTCTGACCCGGCCGTGCGCAACAAGTGG 1080
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1724365 CTGAAGAACATGTACCCCGGCTACGAAAGCGTCTCTGACCCGGCCGTGCGCAACAAGTGG 1724424

Query:    1081 GCACAGGCCTGGCACGTACCGGCCGAGCAGTTGTCGCTGGAGGTGGGCTCGGACAACTTC 1140
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1724425 GCACAGGCCTGGCACGTACCGGCCGAGCAGTTGTCGCTGGAGGTGGGCTCGGACAACTTC 1724484

Query:    1141 ATGATGGTGCAGCAGGCCGACAAGGGCGAGATCCGCGCCATGTACGTGATCGGCGAGGAA 1200
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1724485 ATGATGGTGCAGCAGGCCGACAAGGGCGAGATCCGCGCCATGTACGTGATCGGCGAGGAA 1724544

Query:    1201 ACCGCGTTTTCCGATGCCGATGCGCGCAATGTGCACCGTGGCTTCTCCAAGCTGGACTTC 1260
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1724545 ACCGCGTTTTCCGATGCCGATGCGCGCAATGTGCACCGTGGCTTCTCCAAGCTGGACTTC 1724604

Query:    1261 ATGGTGGTGCAGGACCTGTTCTTCAGCCGTACCGCCGAATTTGCGGATGTGGTGTTGCCG 1320
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1724605 ATGGTGGTGCAGGACCTGTTCTTCAGCCGTACCGCCGAATTTGCGGATGTGGTGTTGCCG 1724664

Query:    1321 GCGTGCCCCAGCGTCGAGAAGGACGGCACCTTCGTCAACACCGAACGCCGTATCCAACGC 1380
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1724665 GCGTGCCCCAGCGTCGAGAAGGACGGCACCTTCGTCAACACCGAACGCCGTATCCAACGC 1724724

Query:    1381 TTCCACCAGGTGTTTCCACCGCTCGGCCAGAGCCGGCCGGATTGGCAGATCCTCACTGAA 1440
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1724725 TTCCACCAGGTGTTTCCACCGCTCGGCCAGAGCCGGCCGGATTGGCAGATCCTCACTGAA 1724784

Query:    1441 CTCGCCGCGCGCATGGGCCACGATTGGGGCTATACCCACCCCAGCCAGATCATGGACGAG 1500
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1724785 CTCGCCGCGCGCATGGGCCACGATTGGGGCTATACCCACCCCAGCCAGATCATGGACGAG 1724844

Query:    1501 GTGGCCCGC 1509
               |||||||||
Sbjct: 1724845 GTGGCCCGC 1724853

Значит, в записи am920689 последовательность имеет координаты 1723345 - 1724853. Запись EMBL была получена при помощи следующей команды: entret embl:AM920689 -auto О соответствующем участке в поле FT имеется следующая информация:
 
FT   CDS             1722559..1725531                                           
FT                   /transl_table=11                                           
FT                   /gene="fdhA"                                               
FT                   /locus_tag="xcc-b100_1496"                                 
FT                   /product="formate dehydrogenase"                           
FT                   /function="Anaerobic dehydrogenases, typically             
FT                   selenocysteine-containing"                                 
FT                   /EC_number="1.2.1.2"                                       
FT                   /db_xref="GOA:B0RQW1"                                      
FT                   /db_xref="InterPro:IPR001041"                              
FT                   /db_xref="InterPro:IPR001450"                              
FT                   /db_xref="InterPro:IPR006478"                              
FT                   /db_xref="InterPro:IPR006655"                              
FT                   /db_xref="InterPro:IPR006656"                              
FT                   /db_xref="InterPro:IPR006657"                              
FT                   /db_xref="InterPro:IPR006963"                              
FT                   /db_xref="InterPro:IPR009010"                              
FT                   /db_xref="InterPro:IPR017896"                              
FT                   /db_xref="InterPro:IPR017900"                              
FT                   /db_xref="InterPro:IPR019574"                              
FT                   /db_xref="UniProtKB/TrEMBL:B0RQW1"                         
FT                   /protein_id="CAP50846.1"                                   
FT                   /translation="MQHGSHCTVVYDGKTLHGQADIPLIEFLSGHGIDLSHICYHPALG
FT                   APQTCDVCWVEVGGELVRGCTLRSHDGLEVSSTVERAHAARHEGMDRVLAKHELYCTLC
FT                   EHNTGDCTLHNTFADMKMPIQRYAFQRKPYEKDHSNPFYTYDPDQCILCGRCVEACQKV
FT                   EVNETLSIDFSMEHPRVLWDGGKPINASSCVSCGHCVTVCPCNALLEKTMQPDAGPLTA
FT                   LPQELKRPMIDMVKTLENTIGAPPITGVSVLDMHWRQPEIKRTKTVCTYCGVGCSFEMW
FT                   TRDRHLLKVQPVVDAPANGISTCVKGKFAWDFVNDPKRLTTPLIREHGRFREASWDEAL
FT                   ALVARRLLEIRDLHGAQSIGFIGSSKASNEEAYLTQKIARLIIGTNSVDNSSRYCQNPA
FT                   TEGLFRTVGYGGDAGTIADLQQAELVVIVGSNLAENHPVIASKLKAARKLHGQKLIVVD
FT                   PRKHEMAERADLFLRPVPSTDIVWASALSRYMFDNGYADTQFLAQRVNQVDEYRQSLEP
FT                   FTLDYAAQITGLSREQLVEAGEMIGRARSVCIVWAMGITQHTHGADTSTALSNLLLVTG
FT                   NYGRPGTGGYPMRGHNNVQGASDFGCLKNMYPGYESVSDPAVRNKWAQAWHVPAEQLSL
FT                   EVGSDNFMMVQQADKGEIRAMYVIGEETAFSDADARNVHRGFSKLDFMVVQDLFFSRTA
FT                   EFADVVLPACPSVEKDGTFVNTERRIQRFHQVFPPLGQSRPDWQILTELAARMGHDWGY
FT                   THPSQIMDEVARIATLFKGVSYQRLEGWRSLLWPMQDDGRDTPLLYTERFHTDDGKARL
FT                   HPLQWKRPGEEADAQFDLMLDNGRMLEQFQGMNQTGRGPRLWSLAPNWFVEVSPQLAAE
FT                   RGLQEGDWVKLSSRRGSLEVPVVITDRVAGNTLFLPIHQGKPGINLLTGEHHDPDVNTP
FT                   AYKELAVRMEPLGRTGKPPLPAHNFRHGHRTPNDGVPVQQKWAREDYVAPPARAPHPER
FT                   F"  
Координаты CDS: 1722559..1725531 Участок соответствует записи B0RQW1 банка UniProt. Название белка - продукта: formate dehydrogenase (формиатдегидрогеназa).
Поиск гомологов с помощью программы BLASTN
Была взята запись EMBL AE017180, в ней последовательность, кодирующая белок FDNG_ECOLI, имеет координаты CDS 834947..837979. Программой seqret эта последовательность была вырезана в отдельный файл. Программой BLASTN былы найдены гомологи белка FDNG_ECOLI в геноме бактерии Xanthomonas campestris (но на этот раз по нуклеотидной последовательности). Для этого была выполнена команда: blastall -p blastn -d xc -i parta.fasta -o AE017180.out В полученном файле содержится информация о выравниваниях последовательностей(иx 67). Лучшая находка имеет E-value 0.013, причем это уже не та находка, что в первом упражнении(лучшая находка из первого упражнения оказалась на 36 месте). Такой результат связан с тем, что аминокислоты могут быть закодированы не одним триплетом, при поиске по аминокислотной последовательности рассматриваются разные триплеты, при поиске же по нуклеотидной последовательности триплеты заданы однозначно, программа BLASTN плоха для поиска сколько-нибудь удаленных гомологов.
Работа с программой getorf пакета EMBOSS
Вначале был получен файл с последовательностью записи D89965. С помощью команды "tfm getorf" изучил описание программы getorf. Использование бактериального кода задается значением параметра "-table 11", длина открытых рамок данной последовательности более 30 нуклеотидов задается значением параметра "-minsize 30", соответствие начала открытых рамок старт-кодону задается значением параметра "-find 1". Итак, полученная в результате команда:
getorf -table 11 -minsize 30 -find 1 -sequence d89965.entret
Получен файл с открытыми рамками, удовлетворяющими данным условиям. Согласно этому файлу 5-я рамка соответствует приведенной в записи CDS, а 13-я - записи Swiss-Prot (P0A7B8).
Поиск некодирующих последовательностей и анализ результатов

Была дана последовательность всех тРНК, проаннотированных в полном геноме E. coli K12. С помощью программ BlastN и MegaBlast требовалось определить, сколько гомологов каждой из тРНК находится в геноме родственной бактерии Xanthomonas campestris. Для того, чтобы определить это число с помощью программы BlastN была введена следующая команда:
blastall -p blastn -d xc -i trna_ecoli.fasta -m 8 -o trna1.txt
Был получен файл trna1.txt со списком находок в виде таблицы. Для того, чтобы узнать теперь количество находок для каждой последовательности, в Excel был импортирован список названий входных последовательностей. А далее был создан скрипт, подсчитывающий количество находок для каждой последовательности. С помощью скрипта был получен файл blastn.txt. Результат был оформлен в таблице Excel.
Чтобы получить теперь число находок с E-value, меньшим чем 0.001, была введена следующая команда:
blastall -p blastn -d xc -i trna_ecoli.fasta -m 8 -e 0.001 -o trna2.txt
В результате команды был получен файл с находками (в виде таблицы). Далее были проведены те же операции, что и при поиске находок без порога на E-value (соответствующий скрипт был сохранен в файле blastn2.scr, а число находок для каждой последовательности - в файле blastn2.txt). Результат - в той же таблице Excel (на тех же листах, что и при предыдущем поиске).
Получим число гомологов с помощью программмы MegaBlast. Для этого выполним следующую команду:
megablast -d xc -i trna_ecoli.fasta -m 8 -o mega.txt
Полученный файл - mega.txt. Проведем те же операции. Скрипт сохранен в файле blastn3.scr, количество находок - в файле blastn3.txt.
Для получения числа гомологов с помощью discontigous megablast введем команду:
megablast -d xc -i trna_ecoli.fasta -m 8 -D 2 -t 18 -W 11 -N 1 -o mega2.txt
В этой команде параметр -D задает тип выдачи (значение "2" задает стандартную выдачу blast), параметр -t задает длину слов из тРНК, которые будут искаться в геноме бактерии (может принимать значения "16", "18", "21"), параметр -W задает длину слов из генома бактерий, по которым ведется поиск последовательности (может принимать значения "11" и "12"), параметр -N задает тип разрывов в матрице (может принимать значения "0", "1" и "2"). Был получен файл mega2.txt. Скрипт для подсчета находок сохранен в файле blastn4.scr, файл с числом находок - в файле blastn4.txt.
Анализ результатов
Рассмотрим тРНК valV. В выдаче BLASTN была находка из записи AE012509, а в выдаче megablast - нет. Соответствующее выравнивание BLASTN:
>AE012509 AE008922 Xanthomonas campestris pv. campestris str. ATCC  
            33913,  section 417 of 460 of the complete genome.      
          Length = 11465                                            
                                                                    
 Score = 34.2 bits (17), Expect = 0.016                             
 Identities = 20/21 (95%)                                           
 Strand = Plus / Plus                                               
                                                                    
                                                                    
Query: 7    atagctcagttggttagagca 27                                
            ||||||||||||| |||||||                                   
Sbjct: 5002 atagctcagttgggtagagca 5022 

Теперь выравним две последовательности программой needle.
########################################
# Program: needle
# Rundate: Sun 20 Dec 2009 21:22:17
# Commandline: needle
#    [-asequence] valv.fasta
#    [-bsequence] ae012509.fasta
#    [-outfile] valV.needle
# Align_format: srspair
# Report_file: valV.needle
########################################

#=======================================
#
# Aligned_sequences: 2
# 1: valV
# 2: AE012509
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 21
# Identity:      20/21 (95.2%)
# Similarity:    20/21 (95.2%)
# Gaps:           0/21 ( 0.0%)
# Score: 96.0
# 
#
#=======================================

valV               1 atagctcagttggttagagca     21
                     |||||||||||||.|||||||
AE012509           1 atagctcagttgggtagagca     21


#---------------------------------------
#---------------------------------------


Чтобы найти этот участок, пришлось зайти на сайт EBI и найти запись последовательности AE012509, а в ней следующие значения поля:
FT   CDS             3686..4345
FT                   /codon_start=1
FT                   /db_xref="HSSP:1L9G"
FT                   /db_xref="InterPro:IPR005122"
FT                   /db_xref="InterPro:IPR005273"
FT                   /db_xref="UniProt/TrEMBL:Q8P435"
FT                   /note="identified by sequence similarity; putative; ORF
FT                   located using Blastx/Glimmer/Genemark"
FT                   /transl_table=11
FT                   /gene="XCC3881"
FT                   /product="DNA polymerase-related protein"
FT                   /protein_id="AAM43495.1"
FT                   /translation="MPAHRIPSAPTTPLAKPVDTVPSGTLTALRAQAQDCRRCDLWKPA
FT                   TQVVFGAGPARAPLMIIGEQPGDQEDQQGRPFVGPAGQLLGTLMADAGLDPAMAYVTNT
FT                   VKHFKFVPRGKRRLHQRATAGEQAACRPWLAAELLRVRPRIVLALGAMAAQTLFGNAFR
FT                   LTTERGQWRALDGRTTALASWHPSAILRMREPDRTATRALLREDLAQVAAALDNLR"
FT   CDS             5426..6547
FT                   /codon_start=1
FT                   /db_xref="GOA:Q8P434"
FT                   /db_xref="InterPro:IPR001107"
FT                   /db_xref="InterPro:IPR001972"
FT                   /db_xref="UniProt/TrEMBL:Q8P434"
FT                   /note="identified by sequence similarity; putative; ORF
FT                   located using Blastx/Glimmer/Genemark"
FT                   /transl_table=11
FT                   /gene="XCC3882"
FT                   /product="conserved hypothetical protein"
FT                   /protein_id="AAM43496.1"
FT                   /translation="MFWTKKVVIGDGDRGLVYRDRRFARLLMPGVYRLFDPLHRLTITL
FT                   HAVGNGAPVGAEAERLIEALGPQLETHCVLADIGAHQVGLLLRNGVLDGVLPPGSRTLY
FT                   WRGATPVSVQVLPLSDGLQVPTDVQRRLRQLGTLSKVASCVEVPADSVGLVSVDGTLAP
FT                   PLPPGAYAFWNFQNTVVTEVVDLRVQSVEVSGQELLTRDKVSLRVNLAASMRITDAVAM
FT                   RTRVAKAGDLLYRELQYGLRRAVASKTLDELLGDKASLDADIVAHVRSSVHGFGIEVLG
FT                   VGVKDVILPGEMRAILNAVVQAEKQAQANVIRRREEANATRSLLNTAKLIEESSVLMRL
FT                   KELEALEKVTEKIDTLTVFGGLDGVLKQLVTLR"