На главную страницу третьего семестра

Поиск гомологов белка def_Ecoli в геномах родственных бактерий

Работа с программами пакета BLAST


Задание 2.Поиск ближайшего гомолога белка def_Ecoli в геноме def_Ecoli.

Целью задания 2 являлось нахождение самого лучшего гомолого белка def_Ecoli в геноме бактерии Pasteurella multotida. Посредством программы TBLASN (сравнивая последовательность белка с набором индексных файлов,созданных на основе генома бактерии) я нашла ближайшего гомолога белка.

AC соответсвующей записи EMBL — AE006193

Координаты выравнивания в записи 1-168/3864-4367

Cоответствующий CDS в записи аннотирован, его координаты 3864-4376.

AC белка def_Ecoli в банке UniProtKB — P57948

E-value нахлодки 5е-58. Других гомологов BLAST не нашел.

Команды, использованные при выполнении задания:

1) Так были созданны индексные файлы:

formatdb -i pm_genome.fasta -p F -n pm

2)Так я запустила поиск:

blastall -p tblastn -d pm -i def_ecoli.fasta -e 0.01

Задание 3.Поиск неаннотированных гомологов белка def_Ecoli по трём геномам.

Были созданы индексные файлы для поиска по всем трём геномам сразу (геном бактерии из задания 2, геном холерного вибриона и геном синегнойной палочки).Далее был запущен TBLASTN по трём геномам.Обнаружилось 5 находок с E-value <0,01.

embl|AE004095|AE004095 Vibrio cholerae O1 biovar eltor str. N169...   247   1e-66
embl|AE006193|AE006193 Pasteurella multocida subsp. multocida st...   216   3e-57
embl|AE004441|AE004441 Pseudomonas aeruginosa PAO1, section 2 of...   190   2e-49
embl|AE004356|AE004356 Vibrio cholerae O1 biovar eltor str. N169...   162   3e-41
embl|AE004542|AE004542 Pseudomonas aeruginosa PAO1, section 103 ...    72   8e-18

Заметим, что E-value предыдущей находки из задания 2 составил 3е-57. Лучший же гомолог теперь имеет AC AE004095, E-value 1е-66 , а сама находка из другого генома!!!

Задание 4.Поиск гомологов гена белка def-Ecoli в трёх геномах программой BLASTN.

В рабочей директории BLAST находится fasta-файл с геном белка def_Ecoli, который называется def_ecoli_gene.fasta. Я искала гомологов этого гена в трёх геномах программой BLASTN (параметр –e я задала 0,01).
Нашелся один гомолог из организма Vibrio cholerae с E-value < 0,01. Его AС — AE004095, a E-Value cоставляет 2e-05. BLASTN не должeн подходить для поиска гомологов последовательности( так как он служит для поиска точных совпадений), но в данном случае были получены результаты, подтвержденные предыдущим заданием.

Работа с программами поиска Fasta и Megablast.


Задание1.
Цель – сравнить результаты поиска программами fasta34 и tblastn.


Обе программы однозначно нашли один и тот же гомолог(AC — AE004095).
Следует заметить, что координаты выравнивания (510-10/14510-15100) в случае fasta34
отличаются от ранее полученных только потому, что эта программа выравнивает нуклеотидную последовательность (а не белковую, как tblastn) против нуклеотидного банка.


Задание2.
Цель-обнаружить число минимальных замен таких,чтобы megablast не нашел бы гомолога.


Чтобы сделать наименьшее число замен во фрагменте, заменим, скажем, каждый 28 нуклеотид (при стандартной длине “слова” в 28 нуклеотидов). Проверка показывает, что megablast действительно не находит такой гомолог исходного гена, хотя в нем всего лишь 3 нуклеотидные замены. Это объясняется алгоритмом работы программы.

Исходная последовательность.

atagtcaacaaacagtttgcccgcgaggtgatcgagttcgtgctgtacacagatagccag
taggtcatctgcatcaaactggtactcttgaccattgcgat


Последовательность с заменами


atagtcaacaaacagtttgcccgcgagTtgatcgagttcgtgctgtacacagataTccag
taggtcatctgcatcaaactggtGctcttgaccattgcgat


Задание3.
Поиск гомологов глициновых тРНК E.coli
Цель – изучить влияние параметров длины шаблона разрывного “слова” [-t] и длины “слова” [-W] на работу megablast


С помощью программы discontigous Megablast был произведен поиск гомологов глициновых тРНК E.coli в вышеуказанных трех геномах. В командной строке я записала следущее:

megablast -d 3g -i Gly_tRNA.fasta -W 12 -t X –N 1 -o 3g_megablast_X.out

Где значение переменной X=16, 18 или 21. Прочитав "README for standalone MEGABLAST", я сделала для себя вывод, что значение параметра -W лучше брать кратным 4.

Было найдено следующее число гомологов гена соответствующей тРНК c E-value < 0,01:

1) При значении параметра -t = 16

тРНК с антикодоном GCC – 13 гомологов

тРНК с антикодоном CCC – 2 гомолога

тРНК с антикодоном TCC – 5 гомологов

2) При значении параметра -t = 18

тРНК с антикодоном GCC – 12 гомологов

тРНК с антикодоном CCC – 2 гомолога

тРНК с антикодоном TCC – 5 гомологов


3) При значении параметра -t = 21

тРНК с антикодоном GCC – 7 гомологов

тРНК с антикодоном CCC – 2 гомолога

тРНК с антикодоном TCC – 4 гомолога



Cтановится ясно, что с увеличением значения параметра –t, т.е. длины отдельного слова, число найденных гомологов в целом уменьшается.

© Андреева Мария аka mashik, 2005