Поиск блоков во множественном выравнивании

Подборка множественного выравнивания

С помощью базы данных Pfam я нашла домены белка CYB_HUMAN (Cytochrome b), который я использовала во множественном выравнивании практикума 11. Оказалось, что последовательность этого белка содержит 2 домена: Cytochrome_B и Cytochrom_B_C. Поиск проводился по всем последовательностям, содержащим первый домен. Затем я перешла во вкладку Alignments и загрузила выравнивания 4012 последовательностей в формате fasta c параметрами All upper case и Gaps as "-" (dashes).

Корректировка полученных данных

Загруженное выравнивание я открыла в программе Jalview. 4012 последовательностей непросто анализировать, поэтому я уменьшила их число следущими действиями:

Sort > by paiwise identity (для наглядности). Потом Edit > remove redundancy (90%) - команда сократила число последовательностей примерно до 150! Следом я точечно удалила последовательности с протяженными вставками и делециями в середине (тогда их осталось 117). Затем удалила невыровненные участки последовательностей с N и C концов. С помощью команды Edit > Paste > To New Alignment я добавила 7 из них в новое окно для последующего анализа. В конце я удалила колонки из гэпов (Edit > remove empty columns). Проект в формате jvp можно загрузить по ссылке .

Точных критериев понятия "блок" не существует (как и критериев гомологичности белков). Блоком я считала участок последовательности длиной более 6 а.к. с большой концентрацией абсолютно консервативных колонок (почти половина и больше). Отсутствие гэпов в блоке было обязательным условием. На участке с выравниванием я выделила 6 блоков, при этом осталось довольно много и единичных консервативных колонок. На Рисунке 1 представлено 2 из найденных блоков.

alignment
Рисунок 1. Участок выравнивания с блоками 4 и 5

Итоги

Сложно сказать, гомологичны ли сами белки, но их части (домены) гомологичны. Об этом свидетельствует наличие блоков с высокой концентрацией консервативных колонок, расположенных близко друг другу (сравнимо с их длиной). Также хотелось бы добавить, что поиск гомологов по доменам оказался достаточно трудоёмким процессом. Возможно сам домен не очень консервативен, поэтому непросто было найти белки с убедительными доказательствами гомологии во множественном выравнивании.

Вернуться на главную