Учебный сайт

Бредихина Данилы

Учебный сайт Бредихина Данилы

Занятие 8: Множественное выравнивание последовательностей

Выравнивание набора гомологов белка CDD_BACSU

C помощью BLAST на NCBI составим выборку из нескольких гомологов белка CDD_BACSU (AC P19079), учитывая при этом следующие моменты:

  • E-value < 0.001 (можно установить такой порог при поиске);
  • процент идентичности выравнивания - от 40% до 80%;
  • отсутствие одинаковых белков из слишком родственных организмов;
  • желательно ограничение выдачи таксоном Bacteria.

Полученную выборку можно представить в виде файла myproteins.list, содержащего адреса последовательностей:

sw:cdd_bacpy
sw:cdd_mycpi
sw:cdd_human
sw:cdd_mouse
sw:cdd_dicdi
sw:cdd_schpo
sw:cdd_yeast

Чтобы получить последовательности в fasta-формате, выполним следующую команду (знак @ указывает программе, что входной файл следует рассматривать как лист-файл):

seqret @myproteins.list myproteins.fasta

В результате получим файл myproteins.fasta, содержащий указанные выше последовательности в fasta-формате.


Пользуясь возможностями программы JalView построим множественное выравнивание отобранных последовательностей, например, с помощью Clustral:

shot

Изображение (1) в оригинальном размере.

shot

Изображение (2) в оригинальном размере.

В структуре выравнивания можно выделить некоторые особенности:

  • Наблюдаются участки с повышенной долей консервативных позиций.
    Координаты этих участков по столбцам выравнивания: 37 - 39, 58 - 66 (в частности, наиболее консервативны 58, 60, 62 - 63 и 66 столбцы), 71 - 74, 104 - 111 (в частности, 105 - 107 и 109 - 111), 141 - 143 (к тому же, имеются "одиночные" консервативные позиции: 41, 66, 76, 84, 115, 146 и 151 столбцы).
    Участки с повышенной долей консервативных позиций в координатах по остаткам белка CDD_BACSU:
    20 - 22, 40 - 48, 53 - 56, 84 - 91, 120 - 122.
    (Если производить выделение участков с меньшей точностью, то можно выделить 4 основных участка с повышенной долей консервативных позиций, которые (участки) хорошо различимы на изображении множественного выравнивания: 34 - 48, 58 - 84, 104 - 115, 141 - 146 в координатах по столбцам выравнивания.)
  • С определённой долей вероятности можно утверждать, что на участках 1 - 17 и 156 - 166 в координатах по столбцам выравнивания оно не имеет биологического смысла.
  • Функционально консервативные позиции в представленном выравнивании образуют группы (в скобках указано число таких групп в выравнивании) QE (2), TS (2), VI (4), FY (2), ML (2), LVIM (2), RK (2), FW (1), LIM (3), DN (1). Наибольшее число раз среди функционально консервативных позиций встречается группа VI, а также группа LIM.
  • Если к группам сходных аминокислот добавить DE (аспартат и глутамат), то можно обозначить консервативную позицию по столбцу 21 (4 остаток в белке CDD_BACSU), а также по столбцу 149 (128 остаток в белке CDD_BACSU).

Загрузить файл с выравниванием в формате .msf.

Дополнение в связи с изменением задания

Нахождение функционально консервативных позиций наиболее удобно при рассмотрении выравнивания с раскраской по консервативности (при этом порог консервативности ≈50) с использованием схемы раскраски BLOSUM62, что демонстрирует следующее изображение:

shot

Изображение (3) в оригинальном размере.

Функционально консервативные позиции в выравнивании образуют следующие группы сходных аминокислот (в скобках указано число таких групп в выравнивании): AS (1), VI (1), LIV (3), LV (1), IV (2), ST (2).

Таким образом, среди функционально консервативных позиций наибольшее число раз встретилась группа LIV, которая встречается в выравнивании 3 раза. Второе место по частоте встречаемости разделяют группы IV и ST - они встречаются в выравнивании по 2 раза.

Загрузить файл с выравниванием в формате .jar.

Работа с программой Muscle

С помощью SRS осуществим поиск последовательностей малых дельта-антигенов в банке Swiss-Prot:

shot

Сохранив полученные результаты поиска, получим файл delta.fasta, содержащий последовательности малых дельта-антигенов в fasta-формате.

Выровнять последовательности можно программой muscle. Для этого выполним следующую команду:

muscle -in delta.fasta -out delta_aligned.fasta

В результате получим файл delta_aligned.fasta, содержащий выравнивание последовательностей из файла delta.fasta.

Получить аналогичное выравнивание программой Muscle можно также в программе JalView:

shot

Пользуясь возможностями JalView, выберем необходимый тип окраски позиций (BLOSUM62 - по функциональным группам остатков, т.е. с учётом матрицы весов замен, By Conservation - по степени консервативности):

shot

Рассмотрим подробнее изображение выравнивания последовательностей малых дельта-антигенов, полученного с помощью программы JalView (File → Export Image → PNG):

shot

Изображение в оригинальном размере.

Непосредственно под выровненными последовательностями малых дельта-антигенов расположены 3 разметки.
Conservation наглядно изображает оценку консервативности соответствующей колонки. Conservation измеряется как числовой индекс, отражающий консервативность (сохранение) физико-химических свойств выравнивания: учитываются вес идентичности (Identities score) и замены аминокислот из тех же физико-химических классов. Соответственно, цифры под гистограммой, отражающей консервативность, соответствуют указанному индексу; знак
+ соответствует индексу 10.0, * - индексу 11.0.
Цвета колонок гистограммы и соответствующих им цифр также зависят от индекса: от тёмно-коричневого до ярко-жёлтого по мере увеличения индекса.
Quality показывает в виде гистограммы качество колонки, зависящее от суммы весов замен по матрице BLOSUM62.
Consensus наглядно изображает наиболее часто встречаемую букву в соответствующей колонке выравнивания. При наведении курсора мыши на столбец гистограммы можно узнать процент встречаемости наиболее частой буквы в соответствующей колонке выравнивания. Если несколько разных букв встречаются в колонке одинаковое число раз, то под соответствующим столбцом гистограммы ставится знак +, а при наведении курсора мыши на этот столбец отображаются наиболее частые буквы с указанием процента встречаемости.

Загрузить файл с выравниванием в формате .msf.

Загрузить файл с выравниванием в формате .jar.

Формат jalview (.jar) позволяет сохранять выравнивания с дополнительной информацией, такой как окраска, аннотации и деревья ("whole sets of coloured and annotated alignments and trees can be read from").

Отображение консервативных участков последовательности на структуре

Используя средства JalView, свяжем последовательность белка CDD_BACSU с файлом PDB (в задании используется выравнивание, полученное при изучении последовательностей гомологов белка CDD_BACSU в первом задании текущего занятия):

shot

Затем раскрасим выравнивание по консервативности, используя схему раскраски BLOSUM62:

shot

Заметим, что раскраска последовательности отображается на структуре (но не наоборот).

shot

Значительная часть консервативных остатков расположена на поверхности глобулы. Они также присутствуют в ядре глобулы. Консервативные участки наблюдаются как в петлях, так и в элементах вторичной структуры (в α-спиралях и β-листах). Остатки, связывающие лиганд, относительно неконсервативны (значение индекса консервативности - 5).

Загрузить файл с выравниванием в формате .jar.

Другие программы множественного выравнивания

mafft

Информацию об использовании программы множественного выравнивания mafft можно получить, например, выполнив команду

mafft -help

Программа mafft имеет несколько вариантов (опций) исполоьзования: построение выравнивания с высокой скоростью, с высокой точностью, а также автоматический выбор опции (на тот случай, когда мы не уверены, какую опцию стоит использовать в конкретном случае).

Среди параметров программы mafft следует выделить следующие:

  • --op - штраф за открытие гэпа (по умолчанию равен 1.53);
  • --ep - компенсация (фактически, штраф за продление гэпа; по умолчанию 0.0);
  • --maxiterate - максимальное число повторных улучшений (по умолчанию 0.0);
  • --clustalout - выходной формат файла выравнивания (по умолчанию .fasta);
  • --reorder - порядок выровненных последовательностей в выходном файле (по умолчанию в том порядке, в котором они были введены);
  • --quiet - отключение сообщений о текущем прогрессе процесса выравнивания;
  • --thread - число потоков; оно не должно быть больше числа физических ядер.

Используем программу mafft, например, для построения выравнивания последовательностей белка CDD_BACSU и его гомологов. Для этого воспользуемся файлом myproteins.fasta и выполним следующую команду:

mafft --auto myproteins.fasta > mafft_alignment.fasta

Программа mafft автоматически выбрала медленный, но самый точный алгоритм для построения выравнивания. В результате мы получили файл mafft_alignment.fasta.

edialign

Описание программы edialign можно найти в разделе пакет EMBOSS страницы с описаниями программ:

edialign

С помощью программы edialign построим выравнивание последовательностей, записанных в файле myproteins.fasta:

edialign myproteins.fasta myproteins.edialign editalign_alignment.fasta

В результате мы получим файл edialign_alignment.fasta,содержащий выравнивание последовательностей и файл myproteins.edialign, в котором записана информация о выравнивани.

Сравнивая полученные файлы, мы можем сделать вывод о несовпадении выравниваний (впрочем, имеется большое количество сходных выровненных участков). Причиной этому может быть различие в алгоритмах построения выравнивания, а также различие в используемых параметрах по умолчанию.

Изображение послученных выравниваний, открытых в программе JalView:

shot

Изображение в оригинальном размере.

Знакомство с некоторыми программами обработки множественных выравниваний

Раздел пакет EMBOSS страницы с описаниями программ дополнен описаниями следующих программ:

consambig distmat plotcon

Некоторые возможности программы JalView

Краткая информация о некоторых возможностях программы JalView представлена на соответствующей странице.

Ссылки

  1. Файл myproteins.list, содержащий идентификаторы последовательностей белка CDD_BACSU и найденных гомологов.
  2. Файл myproteins.fasta, содержащий последовательности белка CDD_BACSU и найденных гомологов.
  3. Файл jalview_alignment1.msf, содержащий множественное выравнивание последовательностей белка CDD_BACSU и найденных гомологов.
  4. Файл delta.fasta, содержащий последовательности малых дельта-антигенов.
  5. Файл delta_aligned.fasta, содержащий множественное выравнивание последовательностей малых дельта-антигенов.
  6. Файл delta.msf, содержащий множественное выравнивание последовательностей малых дельта-антигенов, выполненное в программе JalView.
  7. Файл delta.jar, содержащий множественное выравнивание последовательностей малых дельта-антигенов, выполненное в программе JalView, с раскраской по консервативности с использованием схемы раскраски BLOSUM62.
  8. Файл jalview_alignment1_withstructure.jar, содержащий множественное выравнивание последовательностей белка CDD_BACSU и найденных гомологов с раскраской по консервативности с использованием схемы раскраски BLOSUM62, при этом последовательность белка CDD_BACSU связана с файлом структуры белка.
< На страницу семестра ∧ Наверх