Учебный сайт Полины Байкузиной

Главная Семестры О себе Ссылки

Предсказание парных выравниваний

Для выполнения заданий было взято множественное выравнивание №09, последовательность 6 белков, которые представлены в данном fasta-файле. Последовательности были отсортированы с помощью дерева методом Neighbour Joining Using BLOSUM62. Затем были получены изображения выравнивания с раскраской BLOSUM62 с порогом консервативноcти 30. Проект в формате .jvp можно скачать по ссылке.

Из исходного множественного выравнивания (рис.1) были выбраны 2 наименее схожие последовательности: OCEIH; GEOKA. Последовательности были выбраны с помощью метода главных компонент (Principal component analysis) по наибольшему расстоянию между точками, соответствующими последовательностям. Полученное парное выравнивание последовательностей представлено на рисунке 2.

Рис.1. Исходное множественное выравнивание последовательностей из файла align_09.fasta с раскраской BLOSUM62 с порогом консервативности 30.

Рис.2. Полученное парное выравнивание последовательностей OCEIH и GEOKA; раскраска ClustalX.


Далее с помощью программ needle и water были построены парные выравнивания выбранных последовательностей. Needle строит глобальное выравнивание, water - локальное. На рисунках 3 и 4 представлены глобальное и локальное выравнивания соответственно (стандартные параметры: матрица BLOSUM62, gap opening penalty = 10.0, gap extension penalty = 0.5. Gap opening penalty - штраф за открытие гэпа; gap extension penalty - штраф за длину гэпа).

Выравнивания в fasta-формате: needle; water.

Рис.3. Глобальное парное выравнивание последовательностей OCEIH и GEOKA, полученное с помощью программы needle с параметрами gap opening penalty = 10.0, gap extension penalty = 0.5; раскраска ClustalX.

Рис.4. Локальное парное выравнивание последовательностей OCEIH и GEOKA, полученное с помощью программы water с параметрами gap opening penalty = 10.0, gap extension penalty = 0.5; раскраска ClustalX.


Затем я изменила параметры характеристик gap opening penalty и gap extension penalty. Для глобального выравнивания я уменьшила штраф за открытие гэпа (gap opening penalty = 1.0). Полученное выравнивание представлено на рисунке 5, fasta-формат.

Рис.5. Глобальное парное выравнивание последовательностей OCEIH и GEOKA, полученное с помощью программы needle с параметрами gap opening penalty = 2.0, gap extension penalty = 0.5; раскраска ClustalX.


Для локального выравнивания был уменьшен штраф за длину гэпа (gap extension penalty = 0.2), но получившееся выравниваниие ничем не отличалось от представленного на рисунке 4. Поэтому я уменьшила штраф и за открытие гэпа (gap opening penalty = 4.0). Полученное выравнивание представлено на рисунке 6, fasta-формат.

Рис.6. Локальное парное выравнивание последовательностей OCEIH и GEOKA, полученное с помощью программы water с параметрами gap opening penalty = 4.0, gap extension penalty = 0.2; раскраска ClustalX.


Далее я построила выравнивания последовательностей двух заведомо негомологичных белков. Были взяты последовательности с идентификаторами в базе данных UniProt: B8D2N2 (НАД-зависимая эпимераза-дегидратаза) и R4T2E1 (дУТФ (дезоксиуридин-трифосфат) пирофосфатаза). Последовательности в fasta-формате: B8D2N2, R4T2E1. Выравнивания были построены с помощью программ needle и water со стандартными параметрами. Изображения глобального и локального выравниваний последовательностей представлены на рисунках 7 и 8 соответственно. Также выравнивания представлены в fasta-формате: needle, water.

Рис.7. Глобальное парное выравнивание последовательностей белков с идентификаторами B8D2N2 и R4T2E1 в базе данных UniProt, полученное с помощью программы needle с параметрами gap opening penalty = 10.0, gap extension penalty = 0.5; раскраска ClustalX.

Рис.8. Локальное парное выравнивание последовательностей белков с идентификаторами B8D2N2 и R4T2E1 в базе данных UniProt, полученное с помощью программы water с параметрами gap opening penalty = 10.0, gap extension penalty = 0.5; раскраска ClustalX.


На рисунке 9 представлено сравнение выравнивания последовательностей OCEIH и GEOKA, полученное из множественного выравнивания(рис.2), с выравниванием, построенным с помощью программы needle с параметрами gap opening penalty = 2.0, gap extension penalty = 0.5 (рис.5).

Рис.9. Сравнение парных выравниваний последовательностей OCEIH и GEOKA: верхнее, построенное с помощью программы needle с параметрами gap opening penalty = 2.0, gap extension penalty = 0.5; нижнее, полученное из множественного выравнивания; раскраска ClustalX.

Из сравнения видно, что имеется несколько участков различия. Один из них (позиции с 97 по 109), окруженный с обеих сторон совпадающими колонками обоих выравниваний, представлен на рисунке 10. Всего 82 различающиеся позиции.

Рис.10. Участок различия сравниваемых выравниваний с 97 по 109 позиции; раскраска BLOSUM62 Score.


В таблице 1 представлена информация о числе и проценте консервативных колонок, колонок со сходными аминокислотными остатками, числе гэпов в выравнивании, полученном из множественного, в выравниваниях, построенных для гомологичных последовательностей OCEIH и GEOKA при помощи программ needle и water, а также в выравниваниях, построенных для негомологичных последовательностей.

Выравнивание Длина выравнивания Число консервативных колонок Процент консервативных колонок Число колонок со сходными остатками Процент колонок со сходными остатками Число гэпов
Полученное из множественного 270 156 57,78% 48 17,78% 1
Глобальное для OCEIH и GEOKA 270 156 57,78% 48 17,78% 1
Локальное для OCEIH и GEOKA 264 156 59,09% 48 18,18% 1
Глобальное для OCEIH и GEOKA с измененными параметрами 281 160 56,94% 47 16,73% 11
Локальное для OCEIH и GEOKA с измененными параметрами 267 158 59,18% 47 29,75% 3
Глобальное для последовательностей белков с идентификаторами B8D2N2 и R4T2E1 в базе данных UniProt 376 35 9,31% 14 3,72% 8
Локальное для последовательностей белков с идентификаторами B8D2N2 и R4T2E1 в базе данных UniProt 97 25 25,78% 13 13,4% 3
Данные для таблицы получены при помощи программы infoalign (EMBOSS).

По данным таблицы и по выравниваниям можно сделать некоторые выводы:

  • процент консервативных колонок в выравниваниях гомологичных последовательностей OCEIH и GEOKA достигает порядка 60%, по чему можно судить о гомологичности последовательностей, а в выравниваниях негомологичных последовательностей - колеблется от 9% до 25%;
  • можно считать, что локальное выравнивание в целом лучше, чем глобальное. Наиболее значительные отличия возникают при выравнивании негомологичных последовательностей: при глобальном выравнивании процент консервативных колонок равен 9,31%, а при локальном это значение достигает 25,78%. Это вызвано тем, что при построении локального выравнивания гомологичные участки ищутся не во всей последовательности, а только в ее части;
  • в выравниваниях негомологичных последовательностей гэпов гораздо больше, а консервативных и сходных позиций мало. Поэтому для таких последовательностей наиболее подходит локальное выравнивание, т.к. найти случайные совпадения на небольшом участке гораздо проще;
  • из таблицы 1 видно влияние изменения параметров при построении парных выравниваний. Так уменьшение штрафа за открытие гэпа в глобальном выравнивании привело к увеличению чила гэпов. Важно отметить, что не смотря на большое количество гэпов, количество позиций, занятых гэпами, равно 23, т.к. штраф за продолжение гэпа достаточно большой. А при изменении параметров локального выравнивания, а именно уменьшении штрафа за продолжение гэпа, появилось небольшое количество более длинных гэпов.

© Полина Байкузина, 2014