PSI-BLAST
Задание 1.
Задание выполнялось с белком YP_002729488 (Refseq ID) бактерии
Sulfurihydrogenibium azorense Az-Fu1.
 
Открыв BLAST, я выставил такие параметры запроса: алгоритм - PSI-BLAST,
максимальное число выдачи - 5000, наибольшее пороговое значение E-value - 0,001 .
Поиск проводился только среди бактерий.
Однако, по прошествии 10 итераций, число выдаваемых последовательностей
продолжило увеличиваться, поэтому я решил немного изменить стратегию поиска.
Для начала я вернулся в самое начало и задал поиск по алгоритму PSI-BLAST с
теми же параметрами. Затем проанализировал результаты в первой выдаче, в которой,
помимо различных детиобиотинсинтаз встретились ферменты cobyric acid syntase,
участвующие в синтезе витамина В12, а также фосфоацетилтрансферазы. Оба этих
типа белков: детиобиотинсинтазы и cobyric acid synthase почти в два раза
отличаются по длине (200-250 и 450-500 соответственно), так что ни о какой
гомологии белков говорить не приходится, если только о гомологии их участков,
возможно, выполняющих сходные функции (по этой же причине я не рассматривал в
качестве гомологов фосфоацетилтрансферазы). Поэтому для дальнейших итераций я
использовал только детиобиотинсинтазы.
Вторую итерацию я провёл при тех же условиях, что и первую. При этом в
данной итерации нашлись новые детиобиотинсинтазы, однако было и большое число лишних
последовательностей, поэтому я снизил порог E-value до 5е-16 и запустил третью
итерацию.
В третьей итерации уже не нашлось новых детиобиотинсинтаз. Однако, опять
же, нашлось некоторое количество лишних последователностей, чьи E-value отличались
на 3 порядка, поэтому я уменьшил порог до 3е-18 и запустил четвёртую итерацию.
Четвёртая итерация также не принесла новых детиобиотинсинтаз, и, опять
же, нашлось несколько сильно отличающихся по E-value негомологичных последовательностей.
Поэтому я опять снизил порог E-value, на этот раз до 2е-19, и запустил пятую
итерацию.
Пятая и шестая итерации дали одинаковое количество последовательностей -
результат стабилизировался.
В таблице ниже указаны значения E-value лучших и худших находок
(среди детиобиотинсинтаз) в каждой итерации.
 
Результаты поиска в Psi-BLAST, максимум выдачи 5000, поиск по бактериям.
Номер итерации |
Число находок |
Accession лучшей находки выше порога |
E-value лучшей находки выше порога |
Accession худшей находки выше порога |
E-value худшей находки выше порога |
1 |
351 |
O66832 |
6e-65 |
Q4UQI6 |
3e-04 |
2 |
489 |
P36572 |
2e-86 |
A5U2S7 |
4e-16 |
3 |
248 |
Q8X821 |
3e-91 |
A5U2S7 |
7e-19 |
4 |
219 |
Q8X821 |
8e-93 |
A5U2S7 |
1е-19 |
5 |
210 |
Q8X821 |
9е-93 |
A5U2S7 |
7e-20 |
6 |
210 |
Q8X821 |
3е-92 |
A5U2S7 |
1е-19 |
 
Разница E-value между "хорошими" и "плохими" находками.
  |
Худшая из "хороших" находок |
Лучшая из "плохих" находок |
Accession |
B3EJS3 |
Q8YUG9 |
E-value |
2e-19 |
5e-19 |
 
Задание 3.
Полученные в Задании №1 последовательности я сохранил в файле
seqdump.fasta . Затем, с помощью Putty зайдя на
сервер kodomo, я построил множественное выравнивание последовательностей из
последней итерации с помощью команды
muscle -in seqdump.fasta -out pr_12_task_3.fasta .Выравнивание можно
посмотреть как в файле pr_12_3.fasta,
так и в проекте JalView (окно "task_3").
Задание 4
Для выполнения этого задания я воспользовался JalView - открыл файл
seqdump.fasta, с помощью меню
Edit => Remove redundancy задал максимальный процент сходства в 60% и удалил все
неподходящие последовательности нажатием клавиши "Remove". Затем выделил все 14
получившихся последовательностей, скопировал их в Text Box и сохранил в файле
pr_12_4.fasta . Затем выровнял с помощью алгоритма
Muscle в JalView, дал имя окну с выравниванием ("task_4").
Задание 5
На сервере kodomo с помощью команды mafft pr_12_4.fasta > pr_12_5.fasta
я выровнял 14 последовательностей из предыдущего задания. Их можно увидеть в
файле, либо в проекте JalView в окне "task_5".
Задание 6
На сервере kodomo с помощью программы muscle -profile -in1 pr_12_4.fasta -in2 pr_12_5.fasta -out pr_12_6.fasta
я выровнял два выравнивания, полученных в заданиях №4 и №5, после чего открыл их в JalView (окно "task_6_muscle"), покрасил их
по ClustalX.
Также я открыл оба выравнивания (из заданий №4 и №5) и попытался выровнять
их самостоятельно (окно "task_6_myself").
Выравнивание обоих выравниваний по алгоритму muscle дало не очень хороший
результат: последовательности сбились в своём положении друг относительно друга,
пропали чёткие и оформленные блоки.
А вот выравнивание этих двух выравниваний вручную дало хороший
результат. Вообще эти выравнивания имеют несколко отличий: у последовательности
BIOD_NOCFA при выравнивании алгоритмом mafft первые три аминокислотных остатка
сильно отстоят от остальной последовательности, тогда как при выравнивании по
muscle такого нет. В позициях 284 и 285 стоят гэпы в выравнивании по muscle, и
эти же гэпы стоят в позициях 282 и 283. Однако с 286-й позиции выравнивания
опять выравниваются. Далее с 294 по 419 позиции выравнивания становится трудно
сравнивать, на этом участке ясно видно, что выравнивания строили разные алгоритмы.
А вот с 419 позиции похожесть в выравнивания возвращается, и если сдвинуть
выравнивание по mafft на три позиции правее (начиная с 419-й), то выравнивания
вновь выравниваются. Далее, с 423-й позиции, выравнивания отличаются друг от друга
на один гэп. Ситуацию можно изменить в 460-й позиции, добавив в выравнивание по
muscle одну гэповую колонку. Однако с 501-й позиции вновь видны различия,
а начиная с 553-й позиции сходство между выравниваниями пропадает совсем из-за
длинных гэпов, расположенных у этих двух выравниваний по-разному.
В целом, выравнивания оказались очень похожи. Довольно сложно сказать,
какой алгоритм оказался лучше. Похоже, выбор конкретного алгоритма выравнивания
надо делать исходя из условий в конкретной ситуации.
 
Проект JalView.
 
 
Главная страница
 
© Головачев Ярослав