Выравнивание последовательностей

1. Вручную строю выравнивание фрагментов последовательности двух родственных белков.

Копирую пару коротких последовательностей в FASTA-формате из таблицы в файл shortseqs.fasta:

>seq1

ERDGWKVCLGKVGSMDAHKVVAA

>seq2

IERDWKYCTGKVGSMKVVAA

Запускаю программу GeneDoc и импортирую этот файл. Для этого создаю новый файл, а потом импортирую в него файл в формате FASTA, т.к. открыть можно файлы только в MSF формате. Выравниваю последовательности, стараясь, чтобы было сопоставлено максимальное число одинаковых букв. Сохраняю выравнивание под именем alignment1.msf.

Изображение выравнивания:

Получилось 17 колонок с одинаковыми буквами, колонок с буквами, отвечающими похожим остаткам нет (для V/Y, L/T в таблице BLOSUM62 нахожу -1), а общее число колонок выравнивания - 24. Т.е. процент идентичности и процент сходства двух последовательностей равны друг другу и рассчитываются как (17/24)×100=70.83%.

2. Пользуясь возможностями Excel строю карту локального сходства последовательностей из задания 1.

Результат: alignment1.xlsx.

Для введения последовательностей по букве использована функция ПСТР (MID) - возвращает указанное число знаков из текстовой строки, начиная с указанной позиции. Можно было также использовать Тект по столбцам, а дальше при необходимости транспонировать его - Специальная вставка.

Для отметки совпадающих букв числом "1" использованы функции ЕСЛИ (IF) и СОВПАД (EXACT).

Первая последовательность (seq1) на карте представлена по горизонтали, вторая (seq2) - по вертикали. Первый а.о. seg1 совпадает со вторым а.о. seq2, соответственно при выравнивании, в начале seq1 следует gap. Путь оптимального выравнивания, который при полном совпадении без сдвигов располагался бы на главной диагонали, сдвигается на ячейку вниз. Затем по диагонали - совпадение трех а.о. Теперь gap в seq2, поэтому путь сдвигается на ячейку вправо, далее по главной диагонали совпадение двух а.о. В следующей строке ячейки не закрашены, в выравнивании - несовпадающие а.о. И т.д.

Т.е. при отсутствии закрашенной ячейке в строке или в столбце - в выравнивании в данной позиции стоят несовпадающие а.о. или присутствует gap.

3. Пользуясь программой bl2seq, выравниваю первый фрагмент из задания 1 с последовательностью HutP_Bacsu.

Программа bl2seq строит частичные выравнивания; ее следует применять для выравнивания одинаковых или очень сходных последовательностей. bl2seq стоит на kodomo и реализована как сервис на сайте NCBI BLAST. Перехожу по гиперссылке Align внизу страницы, выбираю вкладку blastp (это вариант для выравнивания белковых последовательностей), определяю с помощью этого сервиса координаты последовательности фрагмента в полной последовательности белка:

начало - 31, конец - 53.

Выравнивание, которое строит сервис bl2seq:

4. Пользуясь сервисом bl2seq, выравниваю последовательность HutP_Bacsu с последовательностью гомологичного (родственного) HutP_Geosw.

ID HUTP_BACSU HUTP_GEOSW
Accession number P10943 C5D4K0
Organism species Bacillus subtilis Geobacillus sp. WCH70
Процент идентичности (Identities) 63%
Процент сходства (Positives) 80%
Число символов разрыва (Gaps) 1 0
Число идущих подряд символов разрыва 0 0
Суммарное число гэповых колонок 1
Координаты выровненного участка 8-148 8-149

Выравнивание, которое строит сервис bl2seq:

Карта локального сходства (Dot Matrix View):

Доп. 1. Для последовательностей из задания 1 создаю матрицу, в ячейке которой стоит вес замены соответствующих остатков в строке и столбце.

Matrix1.xlsx.

Доп. 2. Сравниваю выравнивания последовательностей из задания 4, построенные с разными параметрами программы bl2seq.

Открываю вкладку Algorithm parameters и пробую менять параметры. Установка матрицы PAM30, например, изменяет процент сходства с 80% до 70%, а BLOSUM45 - на 82%.

При изменении штрафов за гепы результаты не изменяются.

Принцип сравнивания двух разных выравниваний одних и тех же последовательностей: столбцы из двух выравниваний согласованы, если в них одни и те же буквы (не только по названию остатка, но и по номерам в последовательностях). Число (или процент) согласованных столбцов двух выравниваний относительно числа столбцов в каждом из выравниваний характеризуют насколько одинаковы два выравнивания. В данном случае это отношение 90/142, откуда идентичность 63%.

Доп. 3. Импортирую последовательности, которые выравнивала в обязательном упражнении 4, в GeneDoc. Пробую вручную воспроизвести выравнивание, полученное программой bl2seq.

Увеличенная версия.

Гэпов, как видно, в моем выравнивании получилось гораздо больше. 93 колонки с одинаковыми буквами, колонок с буквами, отвечающими похожим остаткам - 15, а общее число колонок выравнивания - 154. Т.е. процент идентичности равен (93/154)×100=60.39% , а процент сходства двух последовательностей равен (93+15/154)×100=70.13%.


© Eugenia Prokhorova 2011