Изображение выравниваний


Откуда брал файлы и что с ними делал изначально



Было дано 6 исходных идентификаторов белков, которые нужно было скачать в Fasta-формате. Это можно было сделать несколькими путями, я выбрал самый простой: добавил в корзину все 6 идентификаторов, а потом скачал одним файлом в Fasta-формате (на самом деле ниже я напишу, почему выбрал такой путь скачивания файлов). После установки нужной программы (JalView) и скачивания Fasta-файла я загрузил его и получил на выход то, что видно на рисунке слева (так как файл плохо видно на самой страничке, лучше открыть в новом окне и при помощи зума уже анализировать). На N- и C-концах имеются гэпы (см. рис. ниже), которые точно можно удалить, потому что не играют никакой роли в анализe выравнивания (это также можно понять, если попробовать раскрасить выравнивания со значением порога консервативности в 0%). С помощью последовательности действий Web Service - Alignment - Muscle with Defaults строим множественные выравнивания.

Подытог выравнивания

После построения множественных выравниваний и раскрашивания с помощью разных методов (BLOSUM62 и ClustalX), замечаем, что одна последовательность явно выбивается из общего ряда: HOXKX3_OTOGA (неизвестный белок Otolemur, примата). На самом деле под вопросом был ещё один белок, который достаточно сильно отличался от остальных, однако при выборе порога консервативности в 30%, наиболее консервативные области красились и у этого белка.



Как и писал выше, я не случайно выбрал такой путь скачивания Fasta-файла. При внимательном изучении результатов выравнивания, было достаточно сложно понять, считать ли большое количесто гэпов у белка R7GKS3_9FIRM "отклонением", и как следствие "лишним"? Для решения этой проблемы я воспользовался Tree construction на сайте Uniprot, где и получил убедительный и окончательный ответ. Оказывается, что белок с большим количеством гэпов является азот-регуляторным белком, в то время как 4 белка являются белками, ответственными за расщепление глицина, а один белок представляет собой белок с неизвестной функцией. Итак, давайте запишем всё в табличку:

Таблица 1. Идентификаторы белков, общая информация
Идентификатор белкаНазвание организмаГруппа организмовФункция белка
HOXKX3_OTOGAOtolemur garnettiiAnimaliaНеизвестная функция
R7GKS3_9FIRMCatenibacterium sp.BactreiaАзот-регуляция
R6CPY5_9CLOTClostridium sp.BactreiaРасщепление глицина
L8YD95_TUPCHTupaia chinensisAnimaliaРасщепление глицина в митохондрии
SOGG81_9PORPParabacteroides goldsteiniiBactreriaРасщепление глицина
G2PJV4_MURRDMuricauda ruestringensisBacteriaРасщепление глицина

Рис. 1. Дерево, по результатам Uniprot (Источник).
На рисунке 1 приведено дерево, которое было построено по результатам множественных выравниваний. Видно, что как и предполагалось HOXKX3_OTOGA является "лишним", а белок R7GKS3_9FIRM "ответвляется" почти тогда же, когда и "лишний". Это раннее ответвление хорошо характеризует неоднозначный результат выравнивания.

Необходимые файлы, которые получились в ходе работы

ID "лишней" последовательности: HOXKX3_OTOGA
{ссылка на 6 последовательностей в Fasta-формате}
{ссылка на выравнивание, полученное во 2 задании в формате msf}
{ссылка на выравнивание, полученное во 2 задании в формате fasta}
{ссылка на проект JalView}
*Файлы msf и fasta будут не раскрашены, потому что сам формат файла не предполагает сохранение таких опций как раскраска.