PSI-BLAST

Задание 1.

Задание выполнялось с белком YP_002729488 (Refseq ID) бактерии Sulfurihydrogenibium azorense Az-Fu1.
 
Открыв BLAST, я выставил такие параметры запроса: алгоритм - PSI-BLAST, максимальное число выдачи - 5000, наибольшее пороговое значение E-value - 0,001 . Поиск проводился только среди бактерий.
Однако, по прошествии 10 итераций, число выдаваемых последовательностей продолжило увеличиваться, поэтому я решил немного изменить стратегию поиска. Для начала я вернулся в самое начало и задал поиск по алгоритму PSI-BLAST с теми же параметрами. Затем проанализировал результаты в первой выдаче, в которой, помимо различных детиобиотинсинтаз встретились ферменты cobyric acid syntase, участвующие в синтезе витамина В12, а также фосфоацетилтрансферазы. Оба этих типа белков: детиобиотинсинтазы и cobyric acid synthase почти в два раза отличаются по длине (200-250 и 450-500 соответственно), так что ни о какой гомологии белков говорить не приходится, если только о гомологии их участков, возможно, выполняющих сходные функции (по этой же причине я не рассматривал в качестве гомологов фосфоацетилтрансферазы). Поэтому для дальнейших итераций я использовал только детиобиотинсинтазы.
Вторую итерацию я провёл при тех же условиях, что и первую. При этом в данной итерации нашлись новые детиобиотинсинтазы, однако было и большое число лишних последовательностей, поэтому я снизил порог E-value до 5е-16 и запустил третью итерацию.
В третьей итерации уже не нашлось новых детиобиотинсинтаз. Однако, опять же, нашлось некоторое количество лишних последователностей, чьи E-value отличались на 3 порядка, поэтому я уменьшил порог до 3е-18 и запустил четвёртую итерацию.
Четвёртая итерация также не принесла новых детиобиотинсинтаз, и, опять же, нашлось несколько сильно отличающихся по E-value негомологичных последовательностей. Поэтому я опять снизил порог E-value, на этот раз до 2е-19, и запустил пятую итерацию.
Пятая и шестая итерации дали одинаковое количество последовательностей - результат стабилизировался.
В таблице ниже указаны значения E-value лучших и худших находок (среди детиобиотинсинтаз) в каждой итерации.
 

Результаты поиска в Psi-BLAST, максимум выдачи 5000, поиск по бактериям.
Номер итерации Число находок Accession лучшей находки выше порога E-value лучшей находки выше порога Accession худшей находки выше порога E-value худшей находки выше порога
1 351 O66832 6e-65 Q4UQI6 3e-04
2 489 P36572 2e-86 A5U2S7 4e-16
3 248 Q8X821 3e-91 A5U2S7 7e-19
4 219 Q8X821 8e-93 A5U2S7 1е-19
5 210 Q8X821 9е-93 A5U2S7 7e-20
6 210 Q8X821 3е-92 A5U2S7 1е-19

 
Разница E-value между "хорошими" и "плохими" находками.
  Худшая из "хороших" находок Лучшая из "плохих" находок
Accession B3EJS3 Q8YUG9
E-value 2e-19 5e-19

 

Задание 3.

Полученные в Задании №1 последовательности я сохранил в файле seqdump.fasta . Затем, с помощью Putty зайдя на сервер kodomo, я построил множественное выравнивание последовательностей из последней итерации с помощью команды muscle -in seqdump.fasta -out pr_12_task_3.fasta .Выравнивание можно посмотреть как в файле pr_12_3.fasta, так и в проекте JalView (окно "task_3").

Задание 4

Для выполнения этого задания я воспользовался JalView - открыл файл seqdump.fasta, с помощью меню Edit => Remove redundancy задал максимальный процент сходства в 60% и удалил все неподходящие последовательности нажатием клавиши "Remove". Затем выделил все 14 получившихся последовательностей, скопировал их в Text Box и сохранил в файле pr_12_4.fasta . Затем выровнял с помощью алгоритма Muscle в JalView, дал имя окну с выравниванием ("task_4").

Задание 5

На сервере kodomo с помощью команды mafft pr_12_4.fasta > pr_12_5.fasta я выровнял 14 последовательностей из предыдущего задания. Их можно увидеть в файле, либо в проекте JalView в окне "task_5".

Задание 6

На сервере kodomo с помощью программы muscle -profile -in1 pr_12_4.fasta -in2 pr_12_5.fasta -out pr_12_6.fasta я выровнял два выравнивания, полученных в заданиях №4 и №5, после чего открыл их в JalView (окно "task_6_muscle"), покрасил их по ClustalX.
Также я открыл оба выравнивания (из заданий №4 и №5) и попытался выровнять их самостоятельно (окно "task_6_myself").
Выравнивание обоих выравниваний по алгоритму muscle дало не очень хороший результат: последовательности сбились в своём положении друг относительно друга, пропали чёткие и оформленные блоки.
А вот выравнивание этих двух выравниваний вручную дало хороший результат. Вообще эти выравнивания имеют несколко отличий: у последовательности BIOD_NOCFA при выравнивании алгоритмом mafft первые три аминокислотных остатка сильно отстоят от остальной последовательности, тогда как при выравнивании по muscle такого нет. В позициях 284 и 285 стоят гэпы в выравнивании по muscle, и эти же гэпы стоят в позициях 282 и 283. Однако с 286-й позиции выравнивания опять выравниваются. Далее с 294 по 419 позиции выравнивания становится трудно сравнивать, на этом участке ясно видно, что выравнивания строили разные алгоритмы. А вот с 419 позиции похожесть в выравнивания возвращается, и если сдвинуть выравнивание по mafft на три позиции правее (начиная с 419-й), то выравнивания вновь выравниваются. Далее, с 423-й позиции, выравнивания отличаются друг от друга на один гэп. Ситуацию можно изменить в 460-й позиции, добавив в выравнивание по muscle одну гэповую колонку. Однако с 501-й позиции вновь видны различия, а начиная с 553-й позиции сходство между выравниваниями пропадает совсем из-за длинных гэпов, расположенных у этих двух выравниваний по-разному.
В целом, выравнивания оказались очень похожи. Довольно сложно сказать, какой алгоритм оказался лучше. Похоже, выбор конкретного алгоритма выравнивания надо делать исходя из условий в конкретной ситуации.
 
Проект JalView.
 
 
Главная страница

 

© Головачев Ярослав