На главную

На страницу семестров

Назад

Оптимальное парное выравнивание. Алгоритмы



Задание 1. Сравнение параметров глобального и локального выравнивания пары гомологичных белков

В практикуме использованы два алгоритма из программы EMBOSS: needle и water. Программы имеют широкий список задаваемых параметров. Например, для того чтобы получить выравниване в формате fasta, нужно использовать параметр -aformat3 со значением fasta.



Таблица 1. Параметры команд
Матрица весовШтрафы за открытие инделяШтрафы за удлинение инделя Штраф за открытие концевого гэпаШтраф за удлинение концевого гэпа
needleEBLOSUM6210.00.510.00.5
water


Таблица 1 показывает параметры программ needle и water. Оба алгоритма используют схожие стандартные штрафы и матрицы весов.



Построение и анализ выравниваний

Для построения глобального и локального выравниваний была взята пара последовательностей белков из семейства HSP70. Их идентификаторы: A6LRN4 и HSPA1A. Первый белок был найден в Clostridium beijerinckii, а второй в Homo sapiens.

Из таблицы 2 видно, что обе программы, с использованием стандартных параметров, при построении локального и глобального выравниваний дают почти одинаковый результат.

Таблица 2. Параметры консервативности последовательностей белков
Имя Длина последовательностиДлина выравнивания Число абсолютно консервативных позиций Процент абсолютно консервативных позиций Число функционально консервативных позицийПроцент функционально консервативных позиций Число колонок с гэпами Число инделей
Множественное выравниваниеClostridium_beijerinckii_DNAK_CLOB8_1-61461473913221,522930,9920125
Homo_sapiens_HS71A_HUMAN_1-64164173813220,5922931,031397
Локальное выравниваниеClostridium_beijerinckii_DNAK_CLOB8_1-61459964730647,341764,451048
Homo_sapiens_HS71A_HUMAN_1-64163464730647,341764,45413
Глобальное выравниваниеClostridium_beijerinckii_DNAK_CLOB8_1-61461466430846,3941963,11150
Homo_sapiens_HS71A_HUMAN_1-64164165430847,0941964,07413


Таблица 2 показывает параметры консервативности трёх выравниваний, построенных тремя разными способами. Выравнивания 1, 2, показанные ниже, имеют разную длину, количество абсолютно консервативных позиций, число гэпов и пр. Но, если сравнить напрямую, видно, что локальный участок, представленный в выравнивании 2, выровнен совершенно одинаково как алгоритмом needle, так и water. Видно, что алгоритм локального выравнивания не учитывает "фланкирующие" участки последовательностей, выравнивая лишь гомологичное "ядро". Это позволяет получть больший вес выравнивания, так как концевые участки делают его ниже за счёт большого количества гэпов, несмотря на наличие двух абсолютно и одной функционально консервативной позиции вначале.

Выравнивание 1. Результат работы программы needle


Выравнивание 2. Результат работы программы water


Получилось два идентичных выранивания. Попробуем изменить штрафы за открытие (20) и удлинение (8) гэпа. Таблица 3 и выравнивания 3, 4 демонстрируют полученный результат.

Таблица 3. Параметры консервативности последовательностей белков при выравнивании с изменёнными штрафами
Имя Длина последовательностиДлина выравнивания Число абсолютно консервативных позиций Процент абсолютно консервативных позиций Число функционально консервативных позицийПроцент функционально консервативных позиций Число колонок с гэпами Число инделей
Локальное выравниваниеClostridium_beijerinckii_DNAK_CLOB8_1-61445045724152,7432871,7747
Homo_sapiens_HS71A_HUMAN_1-64145345724152,7432871,7714
Глобальное выравниваниеClostridium_beijerinckii_DNAK_CLOB8_1-61461463127243,1139161,97817
Homo_sapiens_HS71A_HUMAN_1-64164164527242,1739160,6214


Становятся видны минорные отличия в выравниваниях: начиная с позичии 561 первого выравнивания и соответствующей ей позиции 450 второго выравнивания заметно несовпадение. Needle использует гэпы для создания следующего блока, тогда как water избегает их, завершая локальное выравнивание. Замечания о концевых гэпах, приведённые под таблицей 2, здесь так же справедливы.

Выравнивание 3. Результат работы программы needle с изменёнными штрафами


Выравнивание 4. Результат работы программы water с изменёнными штрафами


Вывод

В целом, локальные и глобальные выравнивания работают одинаково при стандартных параметрах запуска. Однако лучшим для отыскания гомологичных участков последовательностей, на мой взгляд, являестся алгоритм локального выравнивания. При его использовании закономерно процент функционально и абсолютно консервативных позиций будет больше такового в глобально выровненной последовательности, а процент гэпов будет сравнительно меньше.

Ссылки на выравнивания

Без изменения штрафов С изменёнными штрафами



Задание 2. Сравнение параметров локального выравнивания пары гомологичных белков и пяти пар не гомологичных белков

Для выравниваний использованы белки из таблицы 4. Последовательности были локально выровнены с помощью программы water и оценены программой infoalign. Для water значения параметров открытия гэпа и его удлинения были приняты по умолчанию. Для оценки параметров выравнивания с помощью infoalign использовались команды -only -name -seqlength -alignlength -idcount -gaps -gapcount -identity 100.0. Также использовался скрипт, приложенный к прошлому заданию.



Таблица 4. Белки, использованные для построения выравниваний
Имя организмаИдентификатор
Clostridium beijerinckiiA6LRN4
Saccharomyces cerevisiaeQ05931
Bacillus cereusANE87960.1
Burkholderia sp. CCGE1001ADX55361.1
Corynebacterium pseudotuberculosis 31AFH90293.1
Salmonella enterica subsp. enterica serovar Anatum str. USDA-ARS-USMARC-1735AKF91842.2
Streptomyces globisporus C-1027ALU92050.1


Из данных, представленных в таблице 5, можно сделать вывод о качестве выравниваний гомологичных и негомологичных последовательностей. Локальное выравнивание белков теплового шока Clostridium beijerinckii и Saccharomyces cerevisiae демонстрирует более высокий процент консервативных позиций, тогда как выравнивание первого белка с заведомо негомологичными открывается меньшими числами. Длина выравниваний разнится от 45 у негомологичных до 614 у гомологичных последовательностей. Сравнимые с полученными для выравнивания гомологичных последовательностей значения длин наблюдаются для белков Salmonella enterica (451) и Burkholderia (533). Они же, вместе с Bacillus cereus, демонстрируют наибольшее среди неродственных белков значения абсолютной косервативности. Процент функчионально корнсервативных позиций в Bacillus cereus самый высокий- 51,11, но ни один из остальных параметров для "неродственных" выравниваний не превосходит 50%.



Таблица 5. Сравнение параметров локального выравнивания последовательностей белков
Имя Длина выравнивания Число абсолютно консервативных позиций Число консервативных позицийПроцент консервативных позиций Число функционально консервативных позицийПроцент функционально консервативных позицийЧисло колонок с гэпами Число инделей
Saccharomyces_cerevisiae61461461410061410000
Bacillus cereus36451431,112351,1192
Burkholderia sp. CCGE10013915339631,1116230,3914212
Streptomyces globisporus C-10271351723418,015733,14377
Salmonella enterica subsp. enterica serovar Anatum str. USDA-ARS-USMARC-17353594519320,6215534,379215
Corynebacterium pseudotuberculosis 313163427321,3512737,13266


Выравнивание 3. Выравнивание Clostridium beijerinckii с Saccharomyces cerevisiae


Выравнивание 4. Выравнивание Clostridium beijerinckii с Bacillus cereus


Выравнивание 5. Выравнивание Clostridium beijerinckii с Burkholderia sp. CCGE1001


Выравнивание 6. Выравнивание Clostridium beijerinckii с Salmonella enterica subsp. enterica serovar Anatum str. USDA-ARS-USMARC-1735


Выравнивание 7. Выравнивание Clostridium beijerinckii с Corynebacterium pseudotuberculosis 31


Выравнивание 8. Выравнивание Clostridium beijerinckii с Streptomyces globisporus C-1027

Данная череда выравниваний чрезвычайно разнится в параметрах, потому сравнивать внутренние показатели достаточно трудно. Можно оценивать их несхожесть по разметке "Conservation". Вывод о родстве можно сделать, оценивая длину, качество выравнивания (наличие гэпов, количество гэпов, размер блоков, их наличие). Действительно, видно, что даже локальное выравнивание с трудом справляется с выравниванием негомологичных последовательностей, не имеющим биологического смысла.

Ссылки на выравнивания c Clostridium beijerinckii



Задание 3. Отличия между тремя выравниваниями одних и тех же двух последовательностей, построенных разными программами

Было сделано три выравнивания одинаковых последовательностей различными способами:
Парное выравнивание, полученное из множественного путем удаления всех последовательностей, кроме двух
Глобальное выравнивание. Программа needle (EMBOSS), параметры по умолчанию
Локальное выравнивание. Программа water (EMBOSS)



Выравнивание 9. Отличия между тремя выравниваниями


Выравнивание 10. Выравнивание групп

Было проведено выравнивыние групп, в результате которого удалось найти крупный блок, имеющийся во всех трёх выравниваниях (165-298). Видно, что возможно образование и второго крупного блока, но, в силу группового выравнивания, создать его можно лишь в ущерб первому. Думаю, что, следуя определённой логике, можно вставлять гэпы в группы. Вряд ли я смог выровнять полностью, но тогда выравнивание 11 имеет больший смысл, и описывать лучше его.



Выравнивание 11. Выравнивание групп

Алгоритм локального выравнивания построил такое для двух крупных центральных блоков. Начать описание стоит с него, так как выравнивания, полученные с момощью множественного выравнивания и гобального выравнивания, сильно различаются в несхожих коцах.



Отличия внутри блоков между первой и остальными группами



Я считаю более правдоподобным множественное выравнивание, так как оно строилось с учетом других последовательностей. Оно содержит больше информации. Также в множественном выравнивании представлены полные последовательности, по которым можно судить о значимости концевых участков.
Думаю, что локальное выравнивние (умозрительное) с покрытием более 80% может также быть очень правдоподобными.






© Кравченко Павел
2017