Главная |
Восстановление предкового состояния доменной архитектуры Для работы был выбран арфаптиновый домен. Арфаптин участвует во внутриклеточном транспорте везикул. ID: Arfaptin AC: PF06456 Количество архитектур: 12 Количество последовательностей: 535 Количество видов: 97 Домен представлен среди эукариот. Из 12 доступных архитектур были выбраны первые две. Белки с первой архитектурой (292 последовательности) содержать только арфаптиновый домен. Белки со второй архитектурой (112 последовательностей) содержат также домен c AC PF00595. Выравнивание всех последовательностей, содержащих домен, доступно по ссылке В качастве таксона выбраны Metazoa. В качестве подтаксонов: Chordata и Ecdysozoa. Таблица excel, содержащая информацию о доменной организации всех последовательностей, содержащих арфаптиновый домен, об их таксономии, а также о выбранных для дальнейшей работы последовательностях, доступна по ссылке. Данные листа "domains" получены с помощью скрипта swisspfam-to-xls.py. Таксономию (лист "taxonomy") получили с помощью скрипта uniprot-to-taxonomy.py. Информация о доменной организации была преобразована в удобную форму с помощью скрипта Пензара Д. Было выбрано 14 последовательностей арфаптинового домена с первой архитектурой (только арфаптиновый домен) для Chordata и 15 для Ecdysozoa (соответствующие мнемоники - Ar1Ch и Ar1Ec). Было выбрано по 15 последовательностей для арфаптинового домена со вторым типом архитектуры для Chordata и Ecdysozoa (соответсвующие мнемоники - Ar2Ch и Ar2Ec). Из общего выравнивания с помощью скрипта filter-alignment.py получили вырвивание выбранных последовательностей. Методом Neighbor-Joining с использованием процента идентичности cо 100 Bootstrap репликами было построено филогенетическое дерево выбранных последовательностей (рис.1). Дерево в скобочной форме можно скачать по ссылке. Как видно на рис.1, происходит чёткоре разделение последовательностей арфаптиновых доменов в группы согласно их таксономии и архитуктуре. При этом ветви Ar2Ch и Ar2Ec расположены ближе друг к другу, чем соответсвующие ветви последовательностей с однодоменной архитектурой. Видимо, белки с доменной организацией арфаптин-домен-PF00595 выполняют сходные функции в обоих подтаксонах, что накладывает определённые ограничение на возможные мутации. Возможно, функции белков, соответсвующих ветвям Ar1Ch и Ar1Ec несколько отличаются, что опять же может отражаться в возможности преобретения тех или иных мутаций. Из построенного дерева можно сделать вывод о том, что предковая форма всех последовательностей имела двухдоменую архитектуру. В ходе эволюции произошло разделение на двухдоменные и однодоменные архитектуры. Далее в ходе эволюции последовательности внутри каждой группы разделяются по таксонам. Для дальнейшего анализа было выбрано подсемейство Ar1Ch последовательностей арфаптиновых доменов. Был построен профиль для данного подтаксона. Профиль откалибровали и применили к fasta-файлу с последовательностями всех белков, содержащих арфаптин. Всего было найдено 470 последовательностей. E-value принимает значения от 4*10-122 до 6.8. Для определения порога E-value, с которого следует отбирать последовательности, была построена ROC-кривая (рис. 2). Таблица, содержащая результаты применения профиля, а также расчёты для построения ROC-кривой, доступна по ссылке. При выбраном пороге E-value 9.3*10-29 (специфичность 0.85, чувствительность 0.875) получаются следующие результаты - таблица 1.
Учитывая большое количество находок, не принадлеждащих семейству, а также малую площадь ROC-кривой, данный профиль не слишком эффективен в поиске членов семейства Ar1Ch. |
||||||||||||||||
Обо мне | |||||||||||||||||
Семестры | |||||||||||||||||
Ссылки | |||||||||||||||||