Поиск гомологичных последовательностей по сходству и построение парных выравниваний

Поиск гомологов пептидогликан гликозилтрансферазы

На сайте NCBI, воспользовавшись программой BLASTP, я собрала выборку гомологов белка пептидогликан гликозилтрансферазы из бактерии Atopobium parvulum из базы Refseq. Скачать параметры поиска.
Число находок равно 100, причём query cover ≥ 37% и ident ≥ 31%. Число находок, гомологичных исследуемому белку по всей длине (query cover > 80%) равно 54. В таблице 1 представлены характеристики трёх находок (лучшей, худшей и средней).

Таблица 1. Характеристики находок
Найденный белок [организм] peptidoglycan glycosyltransferase [Atopobium sp. ICM42b] hypothetical protein [Lachnospiraceae bacterium A4] cell cycle protein [Anaerovibrio sp. RM50]
Длина выравнивания 954 923 419
Bit score 1868 379 307
Процент идентичных и сходных остатков (ident) 97% 31% 45%
E-value 0.0 1e-113 4e-92
Выравнивание, построенное BLAST ссылка 1 ссылка 2 ссылка 3

Из 100 полученных находок 53 можно считать гомологами целой исходной последовательности, используя условный критерий: E-value < 1e-3 и query cover ≥ 70%. Остальные находки имеют высокий процент сходства и тоже могут являтся гомологами. Этот процент хоть и значительно ниже 70% (от 45% до 37%), но он обусловлен в большей степени тем, что белковые последовательности остальных находок в среднем в 2 раза короче, чем пептидогликан гликозилтрансфераза. Таким образом, можно предположить, что в процессе эволюции происходило укорачивание исходной белковой последовательности или наоборот её удлинение в 2 раза. Посмотреть на дерево находок.

Скачать выборку из 30 полных последовательностей гомологов пептидогликан гликозилтрансферазы из бактерии Atopobium parvulum в формате FASTA, которая используется в дальнейшем исследовании.

Построение множественного выравнивания последовательностей из полученной выборки

У 8 из 30 находок на N-концах есть длинные невыровненные участки, отличающиеся от N-концов остальных находок. Аналогично С-концы у половины последовательностей сильно различаются. Ниже приведено изображение начала множественного выравнивания (длинные невыровненные N-концы вырезаны). Чтобы посмотреть полное изображение выравнивания, нажмите на ссылку.

Чтобы скачать весь проект, нажмите на ссылку.

Построение глобального и локального парных выравниваний с гомологом

1) С помощью консольной программы needle на сервере kodomo я построила глобальное парное выравнивание пептидогликан гликозилтрансферазы и худшей находки из выборки (гипотетический белок из Lachnospiraceae bacterium A4). Вы можете скачать выравнивание в FASTA формате или посмотреть его полное изображение, перейдя по ссылке.

2) Удалив из множественного выравнивания все последовательности, кроме двух, я получила другое глобальное парное выравнивание исследуемого белка и худшей находки из выборки. Вы можете скачать выравнивание в FASTA формате или посмотреть его полное изображение, перейдя по ссылке.

3) С помощью консольной программы water на сервере kodomo я построила локальное парное выравнивание предыдущих двух белковых последовательностей. Вы можете скачать выравнивание в FASTA формате или посмотреть его полное изображение, перейдя по ссылке.

4) Программа BLAST на сайте NCBI выдала другое локальное парное выравнивание данных последовательностей, которое вы можете скачать в FASTA формате или посмотреть его полное изображение, перейдя по ссылке.

Во всех вышеупомянутых выравниваниях верхняя строчка изображения относится к пептидогликан гликозилтрансферазе из бактерии Atopobium parvulum, а нижняя - к гипотетическому белку из Lachnospiraceae bacterium A4.

Сравнение глобальных и локальных выравниваний, полученных разными способами

Для того чтобы сравнить полученные в предыдущем пункте парные выравнивания, я выровняла их в программе JalView. Ниже представлено изображение начального фрагмента выравнивания, на котором видно, что группы 1 и 2 местами различаются и что участки, найденные программами water и BLAST (группы 3 и 4 соответственно), немного не совпадают. Чтобы посмотреть полное изображение, перейдите по ссылке.

В целом фрагмент выравнивания, построенный программой water на 27 аминокислотных остатков длиннее, чем у программы BLAST. Всего я обнаружила около 10 участков, на которых выравнивания разных групп существенно различаются.

Чтобы скачать весь проект, нажмите на ссылку.

Построение парных выравниваний двух негомологичных белков

Для работы возьмём последовательности пептидогликан гликозилтрансферазы (идентификатор в Uniprot C8W8H7_ATOPD) из бактерии Atopobium parvulum и металлофосфоэстеразы (идентификатор в Uniprot A3DJ38_CLOTH) из бактерии Clostridium thermocellum. С помощью программы needle я получила следующее глобальное парное выравнивание, а программа water мне выдала локальное парное выравнивание. Ниже представлено изображение фрагмента сравнения парных выравниваний, на котором участок локального выравнивания перекрывается с глобальным. Если посмотреть на полное изображение, то станет очевидным, что последовательности не гомологичны, так как процент консервативных колонок крайне мал, и всё выравнивание построено путём сильного свига второй белковой последовательности (металлофосфоэстераза) относительно первой (пептидогликан гликозилтрансфераза).

Чтобы скачать весь проект, нажмите на ссылку.