С помощью базы данных Pfam я нашла домены белка CYB_HUMAN (Cytochrome b), который я использовала во множественном выравнивании практикума 11. Оказалось, что последовательность этого белка содержит 2 домена: Cytochrome_B и Cytochrom_B_C. Поиск проводился по всем последовательностям, содержащим первый домен. Затем я перешла во вкладку Alignments и загрузила выравнивания 4012 последовательностей в формате fasta c параметрами All upper case и Gaps as "-" (dashes).
Корректировка полученных данных
Загруженное выравнивание я открыла в программе Jalview. 4012 последовательностей непросто анализировать, поэтому я уменьшила их число следущими действиями:
Sort > by paiwise identity (для наглядности). Потом Edit > remove redundancy (90%) - команда сократила число последовательностей примерно до 150! Следом я точечно удалила последовательности с протяженными вставками и делециями в середине (тогда их осталось 117). Затем удалила невыровненные участки последовательностей с N и C концов. С помощью команды Edit > Paste > To New Alignment я добавила 7 из них в новое окно для последующего анализа. В конце я удалила колонки из гэпов (Edit > remove empty columns). Проект в формате jvp можно загрузить по ссылке .
Точных критериев понятия "блок" не существует (как и критериев гомологичности белков). Блоком я считала участок последовательности длиной более 6 а.к. с большой концентрацией абсолютно консервативных колонок (почти половина и больше). Отсутствие гэпов в блоке было обязательным условием. На участке с выравниванием я выделила 6 блоков, при этом осталось довольно много и единичных консервативных колонок. На Рисунке 1 представлено 2 из найденных блоков.
Нетрудно заметить, что блок 4 имеет длину 8 аминокислотных остатков с 3 абсолютно консервативными колонками, лишён гэпов (в моей работе 3 колонки из 8 считалось достаточной концентрацией консервативных колонок). На 96 позиции наблюдается чередование гутамина и глутаминовой кислоты (но аргинин в последней последовательности сильно выбивается). На 98 позиции в последней последовательности также возник тирозин, тогда как в остальных последовательностях на этом месте глутамин.
Блок 2 и блок 3 также имеют длину 8 а.о. с 3 консервативными колонками. На 50, 63 и 66 позициях происходили замены изолейцина, лейцина и валина.
Блок 1 имеет длину 10 а.о. с 4 абсолютно консервативными колонками. Остальные аминокислоты совсем не похожи друг на друга функционально.
Блок 5 - самый длинный и, наверное, самый убедительный. Я его сделала длиной в 13 колонок, среди которых 10 абсолютно консервативны. Однако 2 колонки перед блоком практически консервативны за исключением замены аминокислоты в одной из последовательностей. Замену триптофана на тирозин в 121 колонке можно назвать функционально консервативной.
Блок 6 - 8 колонок, из которых 4 абсолютно консерватвны. На 163 позиции в одной из белковых последовательностей аргинин заменился на изолейцин, эти аминокислоты очень различаются функционально. На 165 позиции происходили замены функционально схожих тирозина и фенилаланина.
Рисунок 1.
Участок выравнивания с блоками 4 и 5
Итоги
Сложно сказать, гомологичны ли сами белки, но их части (домены) гомологичны. Об этом свидетельствует наличие блоков с высокой концентрацией консервативных колонок, расположенных близко друг другу (сравнимо с их длиной). Также хотелось бы добавить, что поиск гомологов по доменам оказался достаточно трудоёмким процессом. Возможно сам домен не очень консервативен, поэтому непросто было найти белки с убедительными доказательствами гомологии во множественном выравнивании.