1.Выравнивание набора гомологов белка GUAD_BACSU


a. Получение гомологов белка GUAD_BACSU, используя BLAST на NCBI.
Постараемся сделать достаточно представительную выборку гомологов из списка найденных BLASTом, то есть выборка не должна состоять только из очень похожих последовательностей.
Теперь проведем поиск гомологов BLASTом. Для этого, запустим его по Swiss-Prot, ограничив выдачу таксоном Bacteria и поставив порог на E-value, равный 0.001.

Видно, что выбранных гомологов не так уж и много (23) и процент идентичности для всех от 33% до 47%. Кроме того, один из гомологов (P17618, RIBD_BACSU) из того же организма, что и GUAD_BACSU, хотя, судя по названию (Riboflavin biosynthesis protein RibD), выполняет другую функцию (биосинтез рибофлавина).

Я смогла выбрать только 4 последовательности, потому что результатов поиска было немного, многие из них совпадали (т.е. один и тот же белок, но, например, разные методы - X-ray или Crystal
sw:GUAD_BACSU
sw:TADA_AQUAE
sw:Y246_BUCAP
sw:RIBD_BACSU
sw:Y1285_RICCN
После выборки последовательностей запишем их в файл myproteins.list.

Выполнив команду
seqret @myproteins.list myproteins.fasta
через Putty, получили файл myproteins.fasta с последовательностями выбранных гомологов.

b. Построение множественного выравнивания белка GUAD_BACSU и всех найденных гомологов.
Откроем программу JalView через web http://www.jalview.org/download.html Откроем файл myproteins.fasta. Чтобы выровнять, после открытия полученного файла с (невыровненными) последовательностями используем программу через меню WebService => Alignment. Мне понравилось название Tcoffee, поэтому я выравнивала этой программой (настройки по умолчанию). Раскрасить я захотела BLOSUM62, которая учитывает функциональные группы остатков (точнее - матрицы весов замен).
Получился вот такой файл выравнивания.

Внесем немного ярких красок: ниже приведено выравнивание, раскрашенное с Clustalx без учета консервативности. Правда, оно не до конца, т.к. продолжается оно длинным хвостом RIBD_BACSU, который выравнен с остальными белками только совсем в конце.

multi1

multi2

c. Описание структуры выравнивания.
Мне кажется, можно отметить три наиболее консервативных участка:

Участки 1 2 2
Координаты по столбцам выравнивания 31-35 59-69 82-89
Координаты по остаткам исследуемого белка 27-31 53-63 76-83
Комментарии Очень консервативный участок, за исключением трех остатков, хотя и те в матрице сходств имеют не отрицательные веса Можно отметить, что столбец, состоящий только из остатков аланина (А) повторяется 3 раза через 3 других столбца (выделено зеленым) Тоже очень консервативный участок

Стоит отметить, что если поставить значение conservation colour increment на 100, то из консервативных участков, подходящих под "личный опыт" ААВ, остается два (первый и второй в таблице).

Если за участки, где выравнивание недостоверно, брать те, где много гэпов, то в моем выравнивании это хвост RIBD_BACSU (170-380, здесь и далее - координаты по столбцам выравнивания) и, например, участок 91-97. А если принять за недостоверное выравнивание такое, где randomly расположены а/о, то подходит участок 118-158. С невысокой высоты моих знаний, мне трудно сказать, несут ли эти участки хоть какой-то биологический смысл или нет.
Ради интреса, я решила построить филогенетическое дерево на основе выравнивания (процент идентичности, среднее расстояние):
tree

d. Функционально консервативные позиции.
Я взяла наиболее выровненный участок и отметила на нем разными цветами более или менее консервативные остатки.
AAA
Наглядно видно, что чаще остальных встречаются аланин (A) и валин (V), а также лейцин (L) и изолейцин (I). Каких-то особенных группировок по 2-3 а/о не вижу, разве что есть A-L и A-I 3 раза, и то не во всех последовательностях.


2. Программа Muscle

1) Чтобы получить последовательности малых дельта-антигенов из банка Swiss-Prot, воспользуемся SRS. По запросу
(([swissprot-Taxonomy:Deltavirus*] & [swissprot-Description:delta*]) & [swissprot-Description:small*]) 
нашлось 17 результатов.
2) Затем сохраним найденные последовательности в fasta-формате delta.fasta.
3) Чтобы выровнять эти последовательности, находящиеся в файле delta.fasta программой muscle, соединимся с kodomo через Putty, а затем выполним команду:
muscle -in delta.fasta -out delta_aligned.fasta
Выходной файл delta_aligned.fasta имеет fasta-формат, но содержит, в отличие от входного, не просто набор последовательностей, а выравнивание.

В задании сказано "Откройте выравнивание в JalView. Это невыровненные последовательности." И что нужно там определить "на глаз" и раскрасить "по вкусу", я не знаю. После действия 3) мы уже получили выровненные последовательности!

Поэтому, просто откроем эти виравнивания в JalView. Раскрасим, например, BLOSUM62. Получился вот такой файл выравнивания.

Видно, что последовательность по всей длине очень консервативна (длины последовательностей совпадают, гэпов мало, несовпадающие а/о в большинстве случаев гомологичны).
delta1

delta2

Gоставим значение conservation colour increment на 100, чтобы увидеть число столбцов, в которых все а/о одинаковы. Видно, что таковых тоже много.

delta1

delta2


Наверх