A picture of DNA should be here

Понятие о выравнивании. Работа с Needle и Water

Первым заданием было получить парное выравнивание последних двух последовательностей из множественного . Проект с двумя окнами: исходным множественным выравниванием и парным выравниванием вы можете скачать здесь.

Рис.1 Фрагмент парного выравнивания

Следующим заданием было построить глобальное выравнивание последних двух последовательностей в формате fasta с помощью программы needle и локальное выравнивание с помощью программы water. И использовала следующие команды:

needle -aformat3 fasta prot1.fasta prot2.fasta needlepairalign.fasta

water -aformat3 fasta prot1.fasta prot2.fasta waterpairalign.fasta

Полученные выравнивание в форматах по умолчанию и fasta вы можете скачать здесь: (глобальное выравнивание в формате fasta, глобальноее выравнивание в формате needle (по умолчанию), локальное выравнивание в формате fasta , локальное выравнивание в формате water (по умолчанию) )

Рис.2. Фрагмент парного глобального выравнивания белков

Аналогично было выполнено следующее задание по построению парного выравнивания последовательностей двух заведомо негомологичных белков. В качестве объектов исследования я взяла белки с идентификаторами Uniprot Q9HLD9 и O28271.

Полученные выравнивание в формаах по умолчанию и fasta вы можете скачать здесь: (глобальное выравнивание в формате fasta, глобальноее выравнивание в формате needle (по умолчанию), локальное выравнивание в формате fasta , локальное выравнивание в формате water (по умолчанию) )

Рис.3. Фрагмент парного локального выравнивания негомологичных белков

Результаты табл.1 были получены с помощью команды infoalign и опций -alignlength -idcount -simcount -gapcount -gaps и вручную

needlepairalign: 159 длина выравнивания 45 идентичных (infoalign показал другое значение — 132 для 1BFG и 71 для 2P39) Процент совпадений: 45+8 похожих при совпадении более 70%. (infoalign показал 0 для 1BFG и 21 для 2P39) Число открытий гэпов — 5 для 1BFG и 7 для 2P39 (совпадает с данными infoalign, хотя можно интерпретировать количество гэпов в 1BFGA как 7, т. к. программа явно не учитывает гэпы на концах) Число гэпов — 7+13 или 27+13, если считать гэпы на концах последовательности гэпами Процент гэпов - Длина выр 116
Длина выравнивания Кол-во идентичных аминокислот Процент совпадений: Кол-во похожих аминокислот (не идентичных) Число открытий гэпов Число гэпов Процент гэпов
Глобальное выравнивание 1BFG и 2P39 159 45(infoalign показал другое значение — 132 для 1BFG и 71 для 2P39) 28,3% 8 похожих при похожести более 70% (infoalign показал 0 для 1BFG и 21 для 2P39) 5 для 1BFG и 7 для 2P39 (совпадает с данными infoalign, хотя можно интерпретировать количество гэпов в 1BFGA как 7, т. к. программа явно не учитывает гэпы на концах) 20 или 40, если считать гэпы на концах последовательности гэпами 12,6%
Локальное выравнивание 1BFG и 2P39 116 41 (по версии infoalign 45) 35,3% 7 8 10 8,6%
Глобальное выравнивание негомологичных белков 190 38 20% 16 29 15,2%
Локальное выравнивание негомологичных белков 108 41 38% 8 17 26 24%

Табл.1

Из данных табл.1 можно заключить, что два последних белка исходного выравнивания не гомологичны, т. к. полученные данные похожи на данные, которые можно было извлечь, анализируя два негомологичных белка.

Проект вышеизложенных заданий вы можете найти здесь

Следующим заданием было найти и описать различающиеся участки исходного парного выравнивания и выравнивания, сделанного с помощью программы needle.

На рис. 4 видно, что в выравнивании с помощью needle (нижнее выравнивание) гораздо больше открытий гэпов (в глобальном выравнивании на этом участке 4 открытия гэпа, а в исходном — 3), но самих гэпов меньше, а так же в глобальном выравнивании больше совпадающих аминокислот. Это может быть обусловлено небольшим штрафом за открытие гэпа относительно его продолжения и веса совпадения аминокислот. Различающийся участок находится на позициях 87-91 в исходном выравнивании и 89-94 в полученном программой Needle. К сожалению, при простом добавлении последовательностей другого выравнивания с помощью (File => add sequences) достаточно наглядной картинки, иллюстрирующей пять совпадающих колонок двух выравниваний с каждого из концов от участка с различиями сравниваемых выравниваний не получилось, т. к. в глобальном (нижнем на рис.1) происходит сдвиг и показать совпадения без внесения дополнительного гэпа в глобальное выравнивание не получится. Но я прилагаю получившуюся картинку на рис. 5

Рис. 4 Участок с различиями в выравнивании

Рис. 5 Участок с различиями в выравнивании, полученный добавлением выравнивания с помощью программы needle к исходному (из файла с множественными выравниваниями)

Также мной была выполнена проверка правильности исходного парного выравнивания (из файла с множественными выравниваниями) и глобального выравнивания, полученного с помощбю программы needle (см. рис 6, 7). Задание было выполнено в двух разных окнах JalView из-за неудобства работы с совмещенным выравниванием, обусловленное невозможностью найти сходство только двух из 4 последовательностей. Я отметила плюсами на каждом выравнивании область, на которой наблюдается значительное сходство последовательностей на протяженном участке (см. Correct alignment). C помощью программы SupCheck и RasMol я нашла и отметила буквой S колонки, которые соотвествуют совмещению пространственных структур. Буквой A отмечены колонки, в которых 3D структуры очевидно совмещабтся, но в выравнивании находятся на некотором расстоянии. Единицами отмечены ошибки 1 рода, двойками отмечены ошибки 2 рода, вопросом отмечены участки, на которых совмещаемые структуры отмечены буквой A, но не являются достоверными в выравнивании. Также в парном выравнивании, выполненном с помошью needle присутствует структура, в которой есть участок, отмеченный буквой A, но находящийся между явно совмещаемыми структурами (буква S). Я сочла, что данный сдвиг в выравнивании не играет большой роли и приняла этот участок за совмещаемый. В результате было найдено: 1) в парном выравнивании 8 ошибок первого рода и 6 ошибок 2 рода, 2) во множественном выравнивании 21 ошибка 2 рода и 9 ошибок 1 рода, 7 вопросных ошибок.

Полученные резульаты указывают на то, что парное выравнивание needle намного более достоверно, чем вырезанное из множественного выравнивания, даже с учетом размытости критериев совместимости структур и совместимости выравниваний. Например, критерий совместимости пространственных структур играет немаловажную роль в определении количества ошибок, но в данном случае 1 рода. Я оценивала совместимость структур на глаз, при касании, частичном или полном перекрывании С альфа атомов, видимых как сферы заданного автором скрипта диаметра. Можно заметить, что довольно большое количество ошибок находятся на границе достоверности или совместимости структур, что делает их менее значимыми.

Рис.6 Работа с RasMol. Выявление похожести третичных структур

Рис. 7 Результат выполнения задания. Проект задания