На страницу II-ого семестра

Программы выравнивания

Для выполнения данного практикума были подготовлены три файла с аминокислотными последовательностями, эти файлы находятся в папке Term2/Practices/Practice7:

P12996.fasta Аминокислотная последовательность белка BIOB_Ecoli (Биотинсинтаза из кишечной палочки)
Q66D67.fasta Аминокислотная последовательность белка Q66D67_YERPS (Биотинсинтаза из организма Yersinia pestis)
thirdprot.fasta Искусственная аминокислотная последовательность состоящая из 12 а.о. из P12996 и 12 а.о. из Q66D67.
  1. Выравнивание последовательностей со схожей функцией (возможных гомологов).

    К последовательностям P12996 и Q66D67 были применены два алгоритма Нидельмана-Вунша и Ватермана-Смита, результат выравнивания в файлах 1to2.needle и 1to2.water соответственно.

    Первый алгоритм выравнивания направлен на построение глобального выравнивания, т.е. выравнивания наилучшим образом обеих последовательностей по всей их длине. Второй алгоритм строил локальное выравнивание, т.е. нахождение похожих участков в последовательности и выравнивания их. Параметры, передаваемые в обе программы, были одинаковыми: штраф за открытие гэпа – 10; штраф за продолжения гэпа – 0,5.

    В виду того, что последовательности были очень похожими (совпадений более 80%) глобальное и локальное выравнивание получились очень похожими.

    Отличие локального выравнивания состоит лишь в том, что в конце обеих последовательностей были вырезаны несколько аминокислотных остатков (2 из P12996 и 1 из Q66D67). Это произошло, потому что последние а.о. не совпадали в выравнивании и поэтому не представляли интерес для локального выравнивания. Из-за этой вырезки незначительно увеличился процент совпедений (identity) и процент сходства (similarity). Вес глобального и локального выравниваний оказался одинаковым. Кроме того в локальном выравнивании исчез гэп, присутствовавший в глобальном выравнивании в виде того, что первая последовательность была длиннее второй на 1 а.о.

  2. Выравнивание последовательностей, содержащих общие участки.

    В этом задании использовались 2 файла P12996.fasta и thirdprot.fasta содержащие аминокислотные последовательности. К ним были применены программы для построения глобального и локального выравнивания, результаты описаны ниже.

  3. Параметры программ построения выравнивания.

    Для последовательностей P12996.fasta и thirdprot.fasta трижды применили алгоритм глобального выравнивания Нидельмана – Вунша с различными параметрами штраф за открытие гэпа, при этом параметр штраф за продолжение гэпа оставался неизменным (1). С помощью этого можно установить, как полученные выравнивания зависят от параметра штраф за открытие гэпа.

    Штраф за открытие гэпа – 10; штраф за продолжение гэпа – 1. (файл 1to3_10_1.needle)

    В данном случае первая часть последовательности thirdprot (первые 12 а.о.) была выровнена с соответствующим участком последовательности P12996 (т.е. тем участком из которого она была изначально взята), далее в последовательности thirdprot программой был вставлен единственный гэп длинной в 2 а.о., после которого были выровнены оставшиеся 11 а.о. (Процент совпадений = 4,0%; процент сходства = 4,9%; вес выравнивания = 53,0)

    Штраф за открытие гэпа – 5; штраф за продолжение гэпа – 1. (файл 1to3_5_1.needle)

    Ситуация с расстановкой гэпов несколько изменилась по сравнению с предыдущим выравниванием. Первая часть thirdprot (первые 12 а.о.) выровнена абсолютно аналогично предыдущему выравниванию, однако теперь к ней «примкнул» тринадцатый а.о. Далее в thirdprot следует гэп длинной 1 а.о., после которого располагаются оставшиеся 10 а.о. Однако гэп длинной 3 а.о. присутствует и в первой последовательности (P12996). Таким образом, в отличии от первого случая, внутри выравнивания присутствует уже два гэпа. (Процент совпадений = 4,3%; процент сходства = 4,9%; вес выравнивания = 59,0)

    Штраф за открытие гэпа – 1; штраф за продолжение гэпа – 1. (файл 1to3_1_1.needle)

    Данное выравнивание схоже с предыдущими только выравниванием первого участка thirdprot (первые 12 а.о.), который выровнен аналогично двум предыдущим случаям. Однако, далее в выравнивании наблюдается обилие гэпов, как в первой, так и во второй последовательностях. (Процент совпадений = 4,6%; процент сходства = 5,4%; вес выравнивания = 76,0)

    Подводя итог всему выше сказанному, следует заметить, что параметр «штраф за открытие гэпа» (Gap_penalty) влияет на количество гэпов в последовательности. При высоком значении gap_penalty, программа старается строить выравнивание с наименьшим числом гэпов. Это явление связано с самим алгоритмом Нидельмана – Вунша. Когда в схеме переходов увеличивается штраф за открытие гэпа, то это сказывается на оптимальном пути выравнивания. Меняя параметры штраф за открытие гэпа / штраф за продолжение гэпа мы фактически меняем оптимальный путь выравнивания. При выборе параметров слудет учитывать следующее замечание. Мы выравнивает не бессмысленные последовательности букв, а "биологические тексты", поэтому, очевидно, что большое количество одиночных гэпов в обоих последовательностях не очень осмысленно, даже если такое выравнивание ведет к высокому проценту совпадений. Также отстутствие гэпов, при низком проценте сходства последовательностей, плохо. Поэтому необходимо выбирать альтернативный вариант выравнивания, ориентируясь на биологически-осмысленное выравнивание и на здравый смысл.
    Таким образом, меняя параметры работы алгоритма можно влиять на само выравнивание – увеличивать (уменьшать) процент совпадений, процент сходства, а также вес выравнивания.
    Также, хотелось бы заметить, что ни один из рассмотренных случаев ни дал выравнивания, когда обе части последовательности thirdprot оказались бы выровненными с соответствующими участками P12996.

  4. Карта локального сходства.

    С помощью программы dotmatcher построили несколько карт локального сходства для последовательностей P12996.fasta и thirdprot.fasta. При построении выбирали разный набор параметров размер окна (windowsize) и порог на суммарный вес (threshold). Для изучения действия параметров применим следующий прием: зафиксируем размер порога на значении 23 и будем последовательно менять значение размера окна, после чего сделаем наоборот.


© Sedliarov Vitaliy