Выравнивание последовательностей
1. Вручную строю выравнивание фрагментов последовательности двух родственных белков.
Копирую пару коротких последовательностей в FASTA-формате из таблицы в файл shortseqs.fasta:
ERDGWKVCLGKVGSMDAHKVVAA
>seq2
IERDWKYCTGKVGSMKVVAA
Запускаю программу GeneDoc и импортирую этот файл. Для этого создаю новый файл, а потом импортирую в него файл в формате FASTA, т.к. открыть можно файлы только в MSF формате. Выравниваю последовательности, стараясь, чтобы было сопоставлено максимальное число одинаковых букв. Сохраняю выравнивание под именем alignment1.msf.
Изображение выравнивания:
Получилось 17 колонок с одинаковыми буквами, колонок с буквами, отвечающими похожим остаткам нет (для V/Y, L/T в таблице BLOSUM62 нахожу -1), а общее число колонок выравнивания - 24. Т.е. процент идентичности и процент сходства двух последовательностей равны друг другу и рассчитываются как (17/24)×100=70.83%.
2. Пользуясь возможностями Excel строю карту локального сходства последовательностей из задания 1.
Результат: alignment1.xlsx.
Для введения последовательностей по букве использована функция ПСТР (MID) - возвращает указанное число знаков из текстовой строки, начиная с указанной позиции. Можно было также использовать Тект по столбцам, а дальше при необходимости транспонировать его - Специальная вставка.
Для отметки совпадающих букв числом "1" использованы функции ЕСЛИ (IF) и СОВПАД (EXACT).
Первая последовательность (seq1) на карте представлена по горизонтали, вторая (seq2) - по вертикали. Первый а.о. seg1 совпадает со вторым а.о. seq2, соответственно при выравнивании, в начале seq1 следует gap. Путь оптимального выравнивания, который при полном совпадении без сдвигов располагался бы на главной диагонали, сдвигается на ячейку вниз. Затем по диагонали - совпадение трех а.о. Теперь gap в seq2, поэтому путь сдвигается на ячейку вправо, далее по главной диагонали совпадение двух а.о. В следующей строке ячейки не закрашены, в выравнивании - несовпадающие а.о. И т.д.
Т.е. при отсутствии закрашенной ячейке в строке или в столбце - в выравнивании в данной позиции стоят несовпадающие а.о. или присутствует gap.
3. Пользуясь программой bl2seq, выравниваю первый фрагмент из задания 1 с последовательностью HutP_Bacsu.
Программа bl2seq строит частичные выравнивания; ее следует применять для выравнивания одинаковых или очень сходных последовательностей. bl2seq стоит на kodomo и реализована как сервис на сайте NCBI BLAST. Перехожу по гиперссылке Align внизу страницы, выбираю вкладку blastp (это вариант для выравнивания белковых последовательностей), определяю с помощью этого сервиса координаты последовательности фрагмента в полной последовательности белка:
начало - 31, конец - 53.
Выравнивание, которое строит сервис bl2seq:
4. Пользуясь сервисом bl2seq, выравниваю последовательность HutP_Bacsu с последовательностью гомологичного (родственного) HutP_Geosw.
ID | HUTP_BACSU | HUTP_GEOSW |
Accession number | P10943 | C5D4K0 |
Organism species | Bacillus subtilis | Geobacillus sp. WCH70 |
Процент идентичности (Identities) | 63% | |
Процент сходства (Positives) | 80% | |
Число символов разрыва (Gaps) | 1 | 0 |
Число идущих подряд символов разрыва | 0 | 0 |
Суммарное число гэповых колонок | 1 | |
Координаты выровненного участка | 8-148 | 8-149 |
Выравнивание, которое строит сервис bl2seq:
Карта локального сходства (Dot Matrix View):
Доп. 1. Для последовательностей из задания 1 создаю матрицу, в ячейке которой стоит вес замены соответствующих остатков в строке и столбце.
Доп. 2. Сравниваю выравнивания последовательностей из задания 4, построенные с разными параметрами программы bl2seq.
Открываю вкладку Algorithm parameters и пробую менять параметры. Установка матрицы PAM30, например, изменяет процент сходства с 80% до 70%, а BLOSUM45 - на 82%.
При изменении штрафов за гепы результаты не изменяются.
Принцип сравнивания двух разных выравниваний одних и тех же последовательностей: столбцы из двух выравниваний согласованы, если в них одни и те же буквы (не только по названию остатка, но и по номерам в последовательностях). Число (или процент) согласованных столбцов двух выравниваний относительно числа столбцов в каждом из выравниваний характеризуют насколько одинаковы два выравнивания. В данном случае это отношение 90/142, откуда идентичность 63%.
Доп. 3. Импортирую последовательности, которые выравнивала в обязательном упражнении 4, в GeneDoc. Пробую вручную воспроизвести выравнивание, полученное программой bl2seq.
Гэпов, как видно, в моем выравнивании получилось гораздо больше. 93 колонки с одинаковыми буквами, колонок с буквами, отвечающими похожим остаткам - 15, а общее число колонок выравнивания - 154. Т.е. процент идентичности равен (93/154)×100=60.39% , а процент сходства двух последовательностей равен (93+15/154)×100=70.13%.
© Eugenia Prokhorova 2011