Программы выравнивания

Для выполнения данного практикума были подготовлены три файла с аминокислотными последовательностями, эти файлы находятся в папке Term2/Practices/Practice7:

P12996.fasta	—	Аминокислотная последовательность белка BIOB_Ecoli (Биотинсинтаза из кишечной палочки)
Q66D67.fasta	—	Аминокислотная последовательность белка Q66D67_YERPS (Биотинсинтаза из организма Yersinia pestis)
thirdprot.fasta	—	Искусственная аминокислотная последовательность состоящая из 12 а.о. из P12996 и 12 а.о. из Q66D67.

Выравнивание последовательностей со схожей функцией (возможных гомологов).
К последовательностям P12996 и Q66D67 были применены два алгоритма Нидельмана-Вунша и Ватермана-Смита, результат выравнивания в файлах 1to2.needle и 1to2.water соответственно.

Первый алгоритм выравнивания направлен на построение глобального выравнивания, т.е. выравнивания наилучшим образом обеих последовательностей по всей их длине. Второй алгоритм строил локальное выравнивание, т.е. нахождение похожих участков в последовательности и выравнивания их. Параметры, передаваемые в обе программы, были одинаковыми: штраф за открытие гэпа – 10; штраф за продолжения гэпа – 0,5.

В виду того, что последовательности были очень похожими (совпадений более 80%) глобальное и локальное выравнивание получились очень похожими.

Отличие локального выравнивания состоит лишь в том, что в конце обеих последовательностей были вырезаны несколько аминокислотных остатков (2 из P12996 и 1 из Q66D67). Это произошло, потому что последние а.о. не совпадали в выравнивании и поэтому не представляли интерес для локального выравнивания. Из-за этой вырезки незначительно увеличился процент совпедений (identity) и процент сходства (similarity). Вес глобального и локального выравниваний оказался одинаковым. Кроме того в локальном выравнивании исчез гэп, присутствовавший в глобальном выравнивании в виде того, что первая последовательность была длиннее второй на 1 а.о.
Выравнивание последовательностей, содержащих общие участки.
В этом задании использовались 2 файла P12996.fasta и thirdprot.fasta содержащие аминокислотные последовательности. К ним были применены программы для построения глобального и локального выравнивания, результаты описаны ниже.
- Глобальное выравнивание (программа needle).
  Штраф за открытие гэпа – 10; штраф за продолжение гэпа – 0,5. (файл 1to3.needle)
  
  При построении выравнивания с такими параметрами программа совместила участки последовательностей размером в 12 а.о., оставшиеся 11 а.о. второй последовательности, программа совместила с участком первой последовательности, находящимся от первого участка на расстоянии 2 а.о. Таким образом, первый участок был совмещен абсолютно правильно (исходный участок P12996, которой был вставлен в thirdprot) с высоким весом выравнивания, а второй участок не соответствовал наилучшему выравниванию в данных последовательностях (впереди можно было бы выровнять с идентичным участком). Очевидно данную проблему можно решить уменьшив штраф за продолжение гэпа.
  
  Штраф за открытие гэпа – 10; штраф за продолжение гэпа – 0,1. (файл 1to3m.needle)
  
  Как и ожидалось, проблема была решена. Процент совпадений увеличился. Теперь между двумя отдельными участками последовательности thirdprot имеется длинный гэп вместо короткого, зато вес выравнивания увеличился. Данный пример свидетельствует о том, что для каждого конкретного случая необходимо подбирать пару Gap_penalty/ Extend_penalty (штраф за открытие гэпа / штраф за продолжение гэпа) эмпирическим путем с учетом различных факторов и желаемых результатов. Таким образом, при определенном подборе пары Gap_penalty/ Extend_penalty можно получить биологически осмысленное выравнивание.
- Локальное выравнивание (программа water).
  Штраф за открытие гэпа – 10; штраф за продолжение гэпа – 0,5. (файл 1to3.water)
```
				P12996           64  SRYKTGLEAERLM   76
						     ||||||||||||:
				Mixed             1  SRYKTGLEAERLI   13
						
```
  Программа выровняла участки из 13 а.о., причем первые 12 а.о. это действительно те остатки, которые изначально были взяты из этой последовательности, а на последней позиции в выравнивании стоят аминокислоты, вес замен которых положителен. В нашем случае биологически осмысленными являются только первые 12 позиций данного выравнивания, 13 позиция является случайной.
- Локальное выравнивание (программа matcher).
  Штраф за открытие гэпа – 14; штраф за продолжение гэпа – 4. (файл 1to3.water)
  
  Данная программа получает на входе те же два файла, кроме того, в программу передается количество наилучших локальных выравниваний на выходе (в нашем случае 3).
  Первое выравнивание соответствует выравниванию с помощью программы water.
  Второе выравнивание соответствует выравниванию второй части thirdprot, взятой из последовательности Q66D67_YERPS, со схожим участком последовательности P12996.
  Третье выравнивание очевидно появилось вследствие случайного совпадения некоторых аминокислотный остатков в наших последовательностях, поэтому его вес значительно меньше весов двух предыдущих выравниваний.
Параметры программ построения выравнивания.
Для последовательностей P12996.fasta и thirdprot.fasta трижды применили алгоритм глобального выравнивания Нидельмана – Вунша с различными параметрами штраф за открытие гэпа, при этом параметр штраф за продолжение гэпа оставался неизменным (1). С помощью этого можно установить, как полученные выравнивания зависят от параметра штраф за открытие гэпа.

Штраф за открытие гэпа – 10; штраф за продолжение гэпа – 1. (файл 1to3_10_1.needle)

В данном случае первая часть последовательности thirdprot (первые 12 а.о.) была выровнена с соответствующим участком последовательности P12996 (т.е. тем участком из которого она была изначально взята), далее в последовательности thirdprot программой был вставлен единственный гэп длинной в 2 а.о., после которого были выровнены оставшиеся 11 а.о. (Процент совпадений = 4,0%; процент сходства = 4,9%; вес выравнивания = 53,0)

Штраф за открытие гэпа – 5; штраф за продолжение гэпа – 1. (файл 1to3_5_1.needle)

Ситуация с расстановкой гэпов несколько изменилась по сравнению с предыдущим выравниванием. Первая часть thirdprot (первые 12 а.о.) выровнена абсолютно аналогично предыдущему выравниванию, однако теперь к ней «примкнул» тринадцатый а.о. Далее в thirdprot следует гэп длинной 1 а.о., после которого располагаются оставшиеся 10 а.о. Однако гэп длинной 3 а.о. присутствует и в первой последовательности (P12996). Таким образом, в отличии от первого случая, внутри выравнивания присутствует уже два гэпа. (Процент совпадений = 4,3%; процент сходства = 4,9%; вес выравнивания = 59,0)

Штраф за открытие гэпа – 1; штраф за продолжение гэпа – 1. (файл 1to3_1_1.needle)

Данное выравнивание схоже с предыдущими только выравниванием первого участка thirdprot (первые 12 а.о.), который выровнен аналогично двум предыдущим случаям. Однако, далее в выравнивании наблюдается обилие гэпов, как в первой, так и во второй последовательностях. (Процент совпадений = 4,6%; процент сходства = 5,4%; вес выравнивания = 76,0)

Подводя итог всему выше сказанному, следует заметить, что параметр «штраф за открытие гэпа» (Gap_penalty) влияет на количество гэпов в последовательности. При высоком значении gap_penalty, программа старается строить выравнивание с наименьшим числом гэпов. Это явление связано с самим алгоритмом Нидельмана – Вунша. Когда в схеме переходов увеличивается штраф за открытие гэпа, то это сказывается на оптимальном пути выравнивания. Меняя параметры штраф за открытие гэпа / штраф за продолжение гэпа мы фактически меняем оптимальный путь выравнивания. При выборе параметров слудет учитывать следующее замечание. Мы выравнивает не бессмысленные последовательности букв, а "биологические тексты", поэтому, очевидно, что большое количество одиночных гэпов в обоих последовательностях не очень осмысленно, даже если такое выравнивание ведет к высокому проценту совпадений. Также отстутствие гэпов, при низком проценте сходства последовательностей, плохо. Поэтому необходимо выбирать альтернативный вариант выравнивания, ориентируясь на биологически-осмысленное выравнивание и на здравый смысл.
Таким образом, меняя параметры работы алгоритма можно влиять на само выравнивание – увеличивать (уменьшать) процент совпадений, процент сходства, а также вес выравнивания.
Также, хотелось бы заметить, что ни один из рассмотренных случаев ни дал выравнивания, когда обе части последовательности thirdprot оказались бы выровненными с соответствующими участками P12996.
Карта локального сходства.
С помощью программы dotmatcher построили несколько карт локального сходства для последовательностей P12996.fasta и thirdprot.fasta. При построении выбирали разный набор параметров размер окна (windowsize) и порог на суммарный вес (threshold). Для изучения действия параметров применим следующий прием: зафиксируем размер порога на значении 23 и будем последовательно менять значение размера окна, после чего сделаем наоборот.
- Параметр размер окна (windowsize)
  Фиксируем порог на суммарный вес выравнивания (далее просто порог) на значении 23. Последовательно изменяет размер окна на значения 4, 7, 13, 16, 20. В итоге получили 5 карт локального выравнивания для наших последовательностей. Все эти карты можно посмотреть в файле threshold_fixed.jpg.
  На первой карте с окном = 4, имеется только один отрезок в районе между 50 – 100 а.о. последовательности P12996 и 0 – 12 последовательности thirdprot.
  На второй карте отрезок имевшийся на предыдущей карте остался, более того стал длиннее, и также появился второй отрезок длинны равной первому в районе 180 – 200 а.о. последовательности P12996 и 13 – 23 последовательности thirdprot.
  На последующих картах эти отрезки увеличивались, достигнув максимальной длинны при размере окна равной 23.
  Параметр окно означает то количество аминокислот, для которого программа строит локальное выравнивание, и именно для этого окна программа ждет превышения порога на суммарный вес выравнивания, тогда и только тогда на карте появится отрезок.
  Ввиду того, что вторая последовательность достаточно мала, набрав суммарный вес превышающий порог при размере окна равного 7, при увеличении окна отрезок обозначающий длину выравнивания просто увеличивается пропорционально размеру окна, пока не достигнет максимального значения (размер окна 23).
- Параметр порог на суммарный вес выравнивания (threshold)
  Фиксируем размер окна на значении 10. Последовательно меняет значение порога на значения 3, 8, 13, 15, 23. В итоге получили 5 карт локального выравнивания для наших последовательностей. Все эти карты можно посмотреть в файле windowsize_fixed.jpg.
  На первой карте можно видеть большое количество отрезков, обозначающих выравнивания, в которых набран суммарный вес не менее 3. Из того, что отрезков очень много, можно сделать вывод, что порог 3 недостаточен, чтобы найти биологически осмысленное локальное выравнивание.
  На второй карте (порог = 8) количество отрезков все равно велико, что позволяет судить о том, что порог все равно достаточно мал, и получается большое число случайных совпадений.
  Только на четвертой карте набран достаточный порог (15), чтобы получать не случайные, а биологически осмысленные выравнивания.
  На пятой карте (порог = 23) существенных отличий от 4 карты нет.
  Тем не менее бесконечно увеличивать порог нельзя, при достаточно больших значениях порога все отрезочки исчезнут с карты.
  Таким образом, параметр порог на суммарный вес выравнивания определяет тот минимальный вес выравнивания, который необходим, чтобы это выравнивание могло быть отображено на карте.
  
  Из всего вышесказанного следует вывод, что при правильном подборе пары параметров windowsize / threshold можно получить хорошее, биологически осмысленное, выравнивание, которое будет отображено на карте.