Матрица весов | Штрафы за открытие инделя | Штрафы за удлинение инделя | Штраф за открытие концевого гэпа | Штраф за удлинение концевого гэпа | |
needle | EBLOSUM62 | 10.0 | 0.5 | 10.0 | 0.5 |
water |
Таблица 1 показывает параметры программ needle и water. Оба алгоритма используют схожие стандартные штрафы и матрицы весов.
Для построения глобального и локального выравниваний была взята пара последовательностей белков из семейства HSP70. Их идентификаторы: A6LRN4 и HSPA1A. Первый белок был найден в Clostridium beijerinckii, а второй в Homo sapiens.
Из таблицы 2 видно, что обе программы, с использованием стандартных параметров, при построении локального и глобального выравниваний дают почти одинаковый результат.
Имя | Длина последовательности | Длина выравнивания | Число абсолютно консервативных позиций | Процент абсолютно консервативных позиций | Число функционально консервативных позиций | Процент функционально консервативных позиций | Число колонок с гэпами | Число инделей | |
Множественное выравнивание | Clostridium_beijerinckii_DNAK_CLOB8_1-614 | 614 | 739 | 132 | 21,5 | 229 | 30,99 | 20 | 125 |
Homo_sapiens_HS71A_HUMAN_1-641 | 641 | 738 | 132 | 20,59 | 229 | 31,03 | 13 | 97 | |
Локальное выравнивание | Clostridium_beijerinckii_DNAK_CLOB8_1-614 | 599 | 647 | 306 | 47,3 | 417 | 64,45 | 10 | 48 |
Homo_sapiens_HS71A_HUMAN_1-641 | 634 | 647 | 306 | 47,3 | 417 | 64,45 | 4 | 13 | |
Глобальное выравнивание | Clostridium_beijerinckii_DNAK_CLOB8_1-614 | 614 | 664 | 308 | 46,39 | 419 | 63,1 | 11 | 50 |
Homo_sapiens_HS71A_HUMAN_1-641 | 641 | 654 | 308 | 47,09 | 419 | 64,07 | 4 | 13 |
Таблица 2 показывает параметры консервативности трёх выравниваний, построенных тремя разными способами. Выравнивания 1, 2, показанные ниже, имеют разную длину, количество абсолютно консервативных позиций, число гэпов и пр. Но, если сравнить напрямую, видно, что локальный участок, представленный в выравнивании 2, выровнен совершенно одинаково как алгоритмом needle, так и water. Видно, что алгоритм локального выравнивания не учитывает "фланкирующие" участки последовательностей, выравнивая лишь гомологичное "ядро". Это позволяет получть больший вес выравнивания, так как концевые участки делают его ниже за счёт большого количества гэпов, несмотря на наличие двух абсолютно и одной функционально консервативной позиции вначале.
Получилось два идентичных выранивания. Попробуем изменить штрафы за открытие (20) и удлинение (8) гэпа. Таблица 3 и выравнивания 3, 4 демонстрируют полученный результат.
Имя | Длина последовательности | Длина выравнивания | Число абсолютно консервативных позиций | Процент абсолютно консервативных позиций | Число функционально консервативных позиций | Процент функционально консервативных позиций | Число колонок с гэпами | Число инделей | |
Локальное выравнивание | Clostridium_beijerinckii_DNAK_CLOB8_1-614 | 450 | 457 | 241 | 52,74 | 328 | 71,77 | 4 | 7 |
Homo_sapiens_HS71A_HUMAN_1-641 | 453 | 457 | 241 | 52,74 | 328 | 71,77 | 1 | 4 | |
Глобальное выравнивание | Clostridium_beijerinckii_DNAK_CLOB8_1-614 | 614 | 631 | 272 | 43,11 | 391 | 61,97 | 8 | 17 |
Homo_sapiens_HS71A_HUMAN_1-641 | 641 | 645 | 272 | 42,17 | 391 | 60,62 | 1 | 4 |
Становятся видны минорные отличия в выравниваниях: начиная с позичии 561 первого выравнивания и соответствующей ей позиции 450 второго выравнивания заметно несовпадение. Needle использует гэпы для создания следующего блока, тогда как water избегает их, завершая локальное выравнивание. Замечания о концевых гэпах, приведённые под таблицей 2, здесь так же справедливы.
В целом, локальные и глобальные выравнивания работают одинаково при стандартных параметрах запуска. Однако лучшим для отыскания гомологичных участков последовательностей, на мой взгляд, являестся алгоритм локального выравнивания. При его использовании закономерно процент функционально и абсолютно консервативных позиций будет больше такового в глобально выровненной последовательности, а процент гэпов будет сравнительно меньше.
Для выравниваний использованы белки из таблицы 4. Последовательности были локально выровнены с помощью программы water и оценены программой infoalign. Для water значения параметров открытия гэпа и его удлинения были приняты по умолчанию. Для оценки параметров выравнивания с помощью infoalign использовались команды -only -name -seqlength -alignlength -idcount -gaps -gapcount -identity 100.0. Также использовался скрипт, приложенный к прошлому заданию.
Имя организма | Идентификатор |
Clostridium beijerinckii | A6LRN4 |
Saccharomyces cerevisiae | Q05931 |
Bacillus cereus | ANE87960.1 |
Burkholderia sp. CCGE1001 | ADX55361.1 |
Corynebacterium pseudotuberculosis 31 | AFH90293.1 |
Salmonella enterica subsp. enterica serovar Anatum str. USDA-ARS-USMARC-1735 | AKF91842.2 |
Streptomyces globisporus C-1027 | ALU92050.1 |
Из данных, представленных в таблице 5, можно сделать вывод о качестве выравниваний гомологичных и негомологичных последовательностей. Локальное выравнивание белков теплового шока Clostridium beijerinckii и Saccharomyces cerevisiae демонстрирует более высокий процент консервативных позиций, тогда как выравнивание первого белка с заведомо негомологичными открывается меньшими числами. Длина выравниваний разнится от 45 у негомологичных до 614 у гомологичных последовательностей. Сравнимые с полученными для выравнивания гомологичных последовательностей значения длин наблюдаются для белков Salmonella enterica (451) и Burkholderia (533). Они же, вместе с Bacillus cereus, демонстрируют наибольшее среди неродственных белков значения абсолютной косервативности. Процент функчионально корнсервативных позиций в Bacillus cereus самый высокий- 51,11, но ни один из остальных параметров для "неродственных" выравниваний не превосходит 50%.
Имя | Длина выравнивания | Число абсолютно консервативных позиций | Число консервативных позиций | Процент консервативных позиций | Число функционально консервативных позиций | Процент функционально консервативных позиций | Число колонок с гэпами | Число инделей |
Saccharomyces_cerevisiae | 614 | 614 | 614 | 100 | 614 | 100 | 0 | 0 |
Bacillus cereus | 36 | 45 | 14 | 31,11 | 23 | 51,11 | 9 | 2 |
Burkholderia sp. CCGE1001 | 391 | 533 | 96 | 31,11 | 162 | 30,39 | 142 | 12 |
Streptomyces globisporus C-1027 | 135 | 172 | 34 | 18,01 | 57 | 33,14 | 37 | 7 |
Salmonella enterica subsp. enterica serovar Anatum str. USDA-ARS-USMARC-1735 | 359 | 451 | 93 | 20,62 | 155 | 34,37 | 92 | 15 |
Corynebacterium pseudotuberculosis 31 | 316 | 342 | 73 | 21,35 | 127 | 37,13 | 26 | 6 |
Данная череда выравниваний чрезвычайно разнится в параметрах, потому сравнивать внутренние показатели достаточно трудно. Можно оценивать их несхожесть по разметке "Conservation". Вывод о родстве можно сделать, оценивая длину, качество выравнивания (наличие гэпов, количество гэпов, размер блоков, их наличие). Действительно, видно, что даже локальное выравнивание с трудом справляется с выравниванием негомологичных последовательностей, не имеющим биологического смысла.
Было сделано три выравнивания одинаковых последовательностей различными способами: Парное выравнивание, полученное из множественного путем удаления всех последовательностей, кроме двух Глобальное выравнивание. Программа needle (EMBOSS), параметры по умолчанию Локальное выравнивание. Программа water (EMBOSS)
Было проведено выравнивыние групп, в результате которого удалось найти крупный блок, имеющийся во всех трёх выравниваниях (165-298). Видно, что возможно образование и второго крупного блока, но, в силу группового выравнивания, создать его можно лишь в ущерб первому. Думаю, что, следуя определённой логике, можно вставлять гэпы в группы. Вряд ли я смог выровнять полностью, но тогда выравнивание 11 имеет больший смысл, и описывать лучше его.
Алгоритм локального выравнивания построил такое для двух крупных центральных блоков. Начать описание стоит с него, так как выравнивания, полученные с момощью множественного выравнивания и гобального выравнивания, сильно различаются в несхожих коцах.
Я считаю более правдоподобным множественное выравнивание, так как оно строилось с учетом других последовательностей. Оно содержит больше информации. Также в множественном выравнивании представлены полные последовательности, по которым можно судить о значимости концевых участков. Думаю, что локальное выравнивние (умозрительное) с покрытием более 80% может также быть очень правдоподобными.
© Кравченко Павел
2017