Пакет BLAST

Поиск гомологов белка MAA_ECOLI (P77791) в геноме Pasteurella multocida

Для поиска гомологов была выбрана программа tblastn (поиск гомологов белка в неаннотированных нуклеотидных последовательностях).
Были использованы следующие команды:

    formatdb -i pm_genome.fasta -n pm -p F
    blastall -p tblastn -d pm -i p77791.fasta -e 0.001 > p77791.out

и получен файл p77791.out

Число находок с Е-value<0,001		2
Характеристика лучшей находки:
	E-value находки	6e-35
	Название геномной последовательности	AE006146 Pasteurella multocida subsp. multocida str. Pm70 section 113
	Координаты выравнивания(-ий) в найденной последовательности	9496 - 10038

Нахождение записи EMBL по последовательности с помощью программы BLASTN

Полученная нами геномная последовательность была вырезана в файл ae006146.fasta
Далее был запущен поиск этой последовательности в банке "EMBL standard prokaryote".
Лучшая находка - AE004439 (совпадение 100%).

>>EM_PRO:AE004439; AE004439 Pasteurella multocida subsp.
multocida str. Pm70, complete genome. (2257487 nt)
rev-comp initn: 2715 init1: 2715 opt: 2715  Z-score: 2179.9  bits: 421.3 E(): 3.3e-115
banded Smith-Waterman score: 2715; 100.0% identity (100.0% similar) in 543 nt overlap (543-1:1244564-1245106)

                                      540       530       520      
AE006-                               TACTTTACATGGATTGCCCACGGCTACACA
                                     ::::::::::::::::::::::::::::::
EM_PRO CTCTCGGTCCTGCGGGCTAATCATTCGTTGTACTTTACATGGATTGCCCACGGCTACACA
       1244540   1244550   1244560   1244570   1244580   1244590   

        510       500       490       480       470       460      
AE006- ATTTGCCGGAATATCTTTTGTGACCACAGAACCCGCCCCAATCACAGTATTGTCACCAAT
       ::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_PRO ATTTGCCGGAATATCTTTTGTGACCACAGAACCCGCCCCAATCACAGTATTGTCACCAAT
       1244600   1244610   1244620   1244630   1244640   1244650   

        450       440       430       420       410       400      
AE006- AGTAACGCCGCCTAAAATCACCACATTGCCCCCAATCCACACATTATTCCCAATCACAAT
       ::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_PRO AGTAACGCCGCCTAAAATCACCACATTGCCCCCAATCCACACATTATTCCCAATCACAAT
       1244660   1244670   1244680   1244690   1244700   1244710   

        390       380       370       360       350       340      
AE006- GGGTAGTGCTTGTTCCCATTCTGCCTTACGCAATTCAGGATCAATTGGATGCCCTACGGT
       ::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_PRO GGGTAGTGCTTGTTCCCATTCTGCCTTACGCAATTCAGGATCAATTGGATGCCCTACGGT
       1244720   1244730   1244740   1244750   1244760   1244770   

        330       320       310       300       290       280      
AE006- GTATAAACTCACATTCGGAGCAAATAACACATCATCGCCAATCTTCACGCCTCCTGTATC
       ::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_PRO GTATAAACTCACATTCGGAGCAAATAACACATCATCGCCAATCTTCACGCCTCCTGTATC
       1244780   1244790   1244800   1244810   1244820   1244830   

        270       260       250       240       230       220      
AE006- TAGGATAGTACAGTGATAATTCGCAAAAAAGTTTTTTCCGACTTCAATAAATTGCCCGTA
       ::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_PRO TAGGATAGTACAGTGATAATTCGCAAAAAAGTTTTTTCCGACTTCAATAAATTGCCCGTA
       1244840   1244850   1244860   1244870   1244880   1244890   

        210       200       190       180       170       160      
AE006- ATCACAATAAAAAGGCGTATTAATGTGAGGTGTATTCGCAGCTTTACCAAGAATAGATAA
       ::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_PRO ATCACAATAAAAAGGCGTATTAATGTGAGGTGTATTCGCAGCTTTACCAAGAATAGATAA
       1244900   1244910   1244920   1244930   1244940   1244950   

        150       140       130       120       110       100      
AE006- GATCAAACGGGCTTTTGTTTGTTTATCTGAAGGGCGAGTTAACACATTATATTCATGCAA
       ::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_PRO GATCAAACGGGCTTTTGTTTGTTTATCTGAAGGGCGAGTTAACACATTATATTCATGCAA
       1244960   1244970   1244980   1244990   1245000   1245010   

         90        80        70        60        50        40      
AE006- TAATTCTTTATTACGTAAACGCATCTCTGCCAATTCCGGATCATAAGGCTGATGCGCTAA
       ::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
EM_PRO TAATTCTTTATTACGTAAACGCATCTCTGCCAATTCCGGATCATAAGGCTGATGCGCTAA
       1245020   1245030   1245040   1245050   1245060   1245070   

         30        20        10                                    
AE006- ACCTAAATGTCGTTTTTCTTTGTCTGTCAACAT                           
       :::::::::::::::::::::::::::::::::                           
EM_PRO ACCTAAATGTCGTTTTTCTTTGTCTGTCAACATCGTTGTTACTCTGTGATTAATGTATGG
       1245080   1245090   1245100   1245110   1245120   1245130   

EM_PRO GTTCTGACATCAAAAACATGCATACCTGCTGCAAGTCCTGCTTGAACACCTAAATCAGCA
       1245140   1245150   1245160   1245170   1245180   1245190   


FT   gene            complement(1244495..1245106)
FT                   /locus_tag="PM1056"
FT   CDS             complement(1244495..1245106)
FT                   /codon_start=1
FT                   /transl_table=11
FT                   /locus_tag="PM1056"
FT                   /product="unknown"
FT                   /db_xref="GOA:Q9CLZ3"
FT                   /db_xref="HSSP:1OCX"
FT                   /db_xref="InterPro:IPR001451"
FT                   /db_xref="UniProtKB/TrEMBL:Q9CLZ3"
FT                   /protein_id="AAK03140.1"
FT                   /translation="MLTDKEKRHLGLAHQPYDPELAEMRLRNKELLHEYNVLTRPSDKQ
FT                   TKARLILSILGKAANTPHINTPFYCDYGQFIEVGKNFFANYHCTILDTGGVKIGDDVLF
FT                   APNVSLYTVGHPIDPELRKAEWEQALPIVIGNNVWIGGNVVILGGVTIGDNTVIGAGSV
FT                   VTKDIPANCVAVGNPCKVQRMISPQDREDYLQRFKPDWND"

Участок (1244563 - 1245106) является частью аннотированной кодирующей последовательности CDS (1244495 - 1245106).
Участок соответствует записи Q9CLZ3 банка UniProt.

Поиск гомологов с помощью программы BLASTN

Была выбрана запись AJ223173 EMBL aj223173.entret.
Координаты CDS в записи: (1, 552).
Кодирующая последовательность была вырезана в файл aj223173.fasta.
Далее была использована команда

blastall -p blastn -d pm -i aj223173.fasta > aj223173.out

и получен файл aj223173.out.

Лучшая находка - AE006074 Pasteurella multocida subsp. multocida str. Pm70 section 41 (E-value - 0.062).
Координаты находки в этой последовательности: (5974, 5990).

По сравнению с результатами поиска по последовательности белка:

1) Количество находок больше (16 против 2х) но и их E-value заметно больше (0.062 против 6e-35 у лучших находок). Большее число находок может объясняться отсутствием ограничения Е-value<0,001, которое мы накладывали в поиске по последовательности белка.
2) Длины соответствующих друг другу находок в поиске по нуклеотидной последовательности гораздо меньше чем в поиске по последовательности белка.

Работа с программой getorf пакета EMBOSS

Была запущена программа getorf, чтобы получить набор трансляций всех открытых рамок данной последовательности длиной более 30 нуклеотидов, считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном, при использовании бактериального кода.
Для этого была выполнена следующая команда:

getorf -minsize 30 -find 1 -table 11

и получен файл d89965.orf.

Наиболее соответствует записи D89965 пятая рамка считывания:

>D89965_5 [19 - 432] Rattus norvegicus mRNA for RSS, complete cds.
MVFWLHHVTVTGDDKRCSFIRDCQQCFKFAQHAIGTPVFCQLNGGFDQMALMHFQFTFKQ
FEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHMAVTAYAYYSCHE
LTPWLRIQSTNPVQKYGA

записи P0A7B8 SwissProt, на которую ссылается данная запись EMBL - тринадцатая.

>D89965_13 [375 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds.
MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL
FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL
IAIGS