На данной странице содержатся практикумы блока 4.
Выравнивание представителей домена Pfam белков с разной доменной архитектурой
Для работы был выбран домен BAG (ID: BAG, AC: PF02179), встречающийся в белках, модулирующих активность шаперонов. Этот домен содержит 1922 последовательности из 667 видов организмов, домен входит в 38 разных архитектур, 5 из которых представлены более чем десятью последовательностями, для 73 последовательностей известны 3D-структуры. Таким образом, выбранный домен полностью соответствует данным в задании ограничениям и подходит для работы.
Все архитектуры, содержащие выбранный домен, доступны по ссылке, а для дальнейшей работы были выбраны две самые "богатые" на последовательности архитектуры, представленные на Рис. 1:
- BAG - встречается в 955 последовательностях;
- ubiquitin, BAG - встречается в 428 последовательностях.
Рис 1. Выбранные доменные архитектуры белков, содержащие домен BAG. Изображения получены из БД Pfam.
Первая выбранная архитектура (слева на Рис. 1) содержит только домен BAG, а вторая (справа на Рис. 2) - также белок убиквитин, небольшой консервативный белок эукариот, участвующий в регуляции процессов внутриклеточной деградации других белков, а также их функций.
Далее в Jalview было получено выравнивание доменных участков всех белков, содержащих выбранный домен. К выравниванию также была добавлена 3D-структура одного домена. Для этого последовательность с ID BAG1_MOUSE была ассоциирована со структурой с PDB ID 1I6Z (соответствие между Uniprot ID и PDB кодами было найдено во вкладке "Structures" на странице BAG в Pfam). Проект JalView можно скачать по ссылке.
Затем при помощи скрипта swisspfam-to-xls.py (команда: python swisspfam_to_xls.py -z /srv/databases/pfam/swisspfam.gz -p PF02179 -o PF02179.xls) была получена таблица с информацией об архитектуре всех последовательностей, содержащих выбранный домен (лист "PF02179").
Была построена сводная таблица, содержащая данные о том, к какой архитектуре принадлежит каждая последовательность, и таксономия для нее (листы "summary", "taxonomy"). Для получения таксономии список АС последовательностей был помещен в UniProt, после чего результат поиска был сохренен в текстовом формате. При помощи скрипта uniprot_to_taxonomy.py (команда: python uniprot_to_taxonomy.py -i list -o list1) была получена сама таблица с таксономией, добавленная в основной Excel-файл.
Для дальнейшей работы было выбрано два подтаксона Eukaryota: Metazoa и Viridiplantae. Для каждой из выбранных архитектур было отобрано по 43 последовательности из выбранных подтаксонов (лист "selected").
Excel-файл, содержащий все указанные выше листы, доступен по ссылке.
Далее при помощи скрипта filter-alignment.py (команда: python filter_alignment.py -i aligned_all.fasta -m 1 -o new.fasta -a "/") из общего выравнивания были оставлены только выбранные последовательности. В выборке присутствует и последовательность BAG1_MOUSE, для которой ренее была получена 3D-структура. Идентификаторы последовательностей были модифицированы для более легкого отнесения их к различным группам (вместо * стоят AC последовательностей):
- v1_* - представители Viridiplantae с архитектурой BAG
- m1_* - представители Metazoa с архитектурой BAG
- v2_* - представители Viridiplantae с архитектурой ubequitin, BAG
- m2_* - представители Metazoa с архитектурой ubequitin, BAG
Соответствие между ID последовательностей и их модифицированными ID приведено в Excel-файле (лист "selected"). Идентификатор последовательности с известной 3D-структурой изменился на m2_Q60739.
Далее полученное выравнивание было открыто в JalView. В выравнивании были созданы 2 группы в соответствии с выбранными архитектурами, последовательности были отсортированы по группам, была добавлена разметка по вторичной структуре, исходя из последовательности с известной 3D-структурой. Далее были удалены пустые колонки, плохо выровненные последовательности и участки с N- и C-концов последовательностей. JalView проект и выравнивание в формате fasta доступны по ссылкам: проект, выравнивание.
Филогенетическое дерево последовательностей домена
На основе полученного выравнивания в программе MEGA методом Maximum Likelihood + bootstrap 100 было построено филогенетическое дерево последовательностей домена. Дерево представлено на Рис. 2. Для наглядности на Рис. 3 изображено оно же, но в круговом виде. Скобочная формула построенного дерева доступна по ссылке.
Рис. 2. Филогенетическое дерево последовательностей домена, построенное в программе MEGA методом Maximum Likelihood + bootstrap 100. Разными цветами на дереве обозначены: зеленые ветви - представители Metazoa, голубые ветви - представители Viridiplantae; темно-зеленые листья - m1, светло-зеленые - m2, синие - v1, розовые - v2 (значения сокращений v1, v2, m1, m2 указаны выше).
Рис 3. Круговое филогенетическое дерево последовательностей домена, построенное в программе MEGA методом Maximum Likelihood + bootstrap 100. Обозначения такие же, как на Рис. 2.
На Рис. 2-3 видно, что последовательности четко разделились по таксонам. Поддерево представителей Metazoa получилось "идеальным" - его последовательности разделились на две клады, соответствующие двум выбранным архитектурам. С поддеревом представителей Viridiplantae все не так хорошо, т.к. здесь нет такого же точного разделения на клады, как в первом случае. Однако, скорее всего, это связано не с ошибкой при построении выравнивания, т.к. оно и внутри архитектур, и в целом неплохое, а плохо выровненные последовательности были удалены. Наиболее вероятный сценарий эволюции домена таков, что последний общий предок двух таксонов имел белок с архитектурой 2 (ubequitin, BAG), домен наследовался вертикально, и архитектура 1 (BAG) возникала несколько раз на разных ветвях (ветви, где происходили соответствующие перестройки, хорошо видны - это ветви, выделяющие клады с листьями одинаковых цветов; соответственно, число перестроек доменной архитектуры на дереве в построенной модели равняется 7: один раз произошло деление на таксоны, затем один раз в Metazoa возникла архитектура 1, и 6 раз эта архитектура возникала в Viridiplantae).
Построение и характеристика профиля подсемейства
В качестве удачного подсемейства для построения профиля было выбрано подсемейство, изображенное на Рис. 4. Представители подсемейства были извлечены из выравнивания и помещены в отдельный файл.
Рис 4. Выбранное для дальнейшей работы подсемейство m1.
Далее при помощи пакета HMMER (программы hmm2build и hmm2calibrate) был построен и откалиброван профиль по выравниванию отобранных последовательностей. С использованием построенного профиля программой hmm2search (команда: hmm2search hmm_profile list.fasta >> result) был проведен поиск по всем белкам UniProt, содержащим домен BAG. Результат доступен по ссылке.
Данные о всех находках из файла и их e-value были перенесены в таблицу Excel (лист "profile"), после чего к таблице был добавлен стоблец "Profile", в котором были отмечены последовательности, по которым строился профиль ("1"), и все остальные ("0"). На основании данных из полученной таблицы была построена ROC-кривая, представленная на Рис. 5 (в таблице она находится на листе "ROC").
Файл Excel, содержащий описанные выше листы, доступен по ссылке.
Рис 5. ROC-кривая, построенная по результатам поиска по профилю.
При помощи ROC-кривой был выбран порог e-value, по которому можно судить о принадлежности последовательности подсемейству. Пороговым значением было выбрано то, при котором разность (чувствительность - (1 - специфичность)) является максимальной, и, следовательно, значения чувствительности и специфичности попарно максимальны. При таком критрии выбора порог e-value = 2.7e-36, а чувствительность и специфичность равны соответственно ~0,95 и ~0,89. Исходя из таких значений можно предположить, что профиль работает хорошо, и его можно использовать для выделения подсемейства. Результаты выбранном пороге представлены в Таблице 1.
Таблица 1. Результаты при выбранном пороге | |||
---|---|---|---|
Принадлежит подсемейству | Не принадлежит | Сумма | |
Выше порога по профилю | 20 | 174 | 194 |
Ниже порога | 0 | 1358 | 1358 |
Сумма | 20 | 1532 | 1552 |