Учебная страница курса биоинформатики,
год поступления 2012
6. Алгоритмы парного выравнивания
Работы по этому практикуму немало. Практически все, что вы в нем делаете, в виде сравнения с результатами предыдущего практикума, будет либо отражено на проверяемой web-странице, либо потребуется для зачета. Дедлайны указаны в конце текста задания; на оформление web-странички дается (?) 2 недели, но я советуют закончить ее побыстрее.
В заданиях после синего текста "ДЛЯ САЙТА" указано, что требуется выложить на сайт по результатам этого и предыдущего практикума. Проверяться будет наличие результатов (может быть, предварительных) в файле Excel со стандартным названием "Surname_pr6.xls" или "Surname_pr6.xlsx", который должен будет лежать в директории ...block2/credits.
Задание №1: Реконструкция матрицы BLOSUM62
В этом задании вам надо будет построить матрицу BLOSUM62 самостоятельно, исходя из таблицы частот встречаемости всех пар аминокислот (fij из презентации). Для получения этой таблицы была загружена последняя версия базы данных BLOCKS (доступна тут, архив blocks.tar.gz, основной файл с базой blocks.dat), и использована программа pairs_count.exe, которая лежит на диске P: в папке P:\y04\Term2\Practices\Practice4. Параметром к программе был задан порог кластеризации 62.
Таблицу можно скачать тут.
Используя формулы, приведенные в презентации, вычислите значения для матрицы BLOSUM. Используйте возможности Excel; некоторые советы приведены в подсказках.
Сохраните этот файл Excel и постарайтесь сделать его понятным для самих себя. Этот файл будет основным предметом разговора по матрицам аминокислотных замен на зачете. Вам надо будет объяснять преподавателю на основании своего файла алгоритм реконструкции матрицы от и до, знать, что означают все цифры. Поэтому лучше всего уделить созданию этого файла и его комментированию (для себя же) время сейчас, а не перед зачетом. Убедительно прошу НЕ использовать чужие файлы. В случае обнаружения одинаковых ошибок дополнительные вопросы к донору и реципиенту гарантированы..
Важное замечание: все матрицы должны быть отсортированы НЕ в алфавитном порядке, как "по умолчанию", а так, чтобы функционально похожие аминокислоты были сгруппированы вместе. Для единообразия при проверке ОБЯЗАТЕЛЬНЫМ является порядок, приведенный в таблице 1.
Таблица 1. |
Принятый порядок аминокислот в матрицах |
№ |
Остаток |
1 |
G |
2 |
P |
3 |
C |
4 |
S |
5 |
T |
6 |
N |
7 |
Q |
8 |
D |
9 |
E |
10 |
H |
11 |
R |
12 |
K |
13 |
A |
14 |
M |
15 |
I |
16 |
L |
17 |
V |
18 |
F |
19 |
W |
20 |
Y |
Задание №2: Сравнение нескольких матриц аминокислотных замен
В этом задании вам надо сравнить между собой три матрицы аминокислотных замен:
"Классическую" матрицу BLOSUM62 (скачать);
Матрицу PHAT_T75_B73 (скачать);
- Матрицу, которую Вы восстановили в предыдущем задании.
В таблице 2 приведено соответствие между студентом и аминокислотой. Вам надо будет сравнивать величины замены выданной аминокислоты на все остальные аминокислоты (и конечно на саму себя).
Для сравнения скопируйте на два отдельных листа в Excel-файле матрицы BLOSUM62 и PHAT_T75_B73. На еще один лист вынесите данные из каждой матрицы для вашей аминокислоты. Сравнение должно включать следующие пункты, но может описывать также любые интересные факты, которые хотелось бы описать:
- Как отличаются в разных матрицах величины для замены выданной аминокислоты на саму себя? Почему?
- Как отличаются в разных матрицах величины замен выданной аминокислоты на аминокислоты близкие по химическим свойствам (если такие есть)? Почему?
- Как отличаются в разных матрицах замены выданной аминокислоты на аминокислоты из других функциональных групп (хотя бы 2 примера)? Почему?
Таблица 2. |
Студенты и аминокислоты, с которыми предстоит работать |
№ |
Студент из группы №1 |
Студент из группы №2 |
Аминокислота |
1 |
Абдрахманов Алибек |
Анфимова Екатерина |
Аланин |
2 |
Андреева Анна |
Ашниев Герман |
Валин |
3 |
Анисимова Александра |
Беседина Елизавета |
Изолейцин |
4 |
Белов Леонид |
Бикметов Дмитрий |
Лейцин |
5 |
Галкин Фёдор |
Босхомджиева Баина |
Метионин |
6 |
Гафуров Азамат |
Вакуленко Юлия |
Фенилаланин |
7 |
Гусев Филипп |
Дёмин Олег |
Тирозин |
8 |
Дудина Дарья |
Дианов Дмитрий |
Триптофан |
9 |
Ежова Маргарита |
Евстафьева Диана |
Серин |
10 |
Елисеев Алексей |
Козлова Мария |
Треонин |
11 |
Карпова Алла |
Ляпунов Александр |
Аспарагин |
12 |
Котлов Никита |
Меерсон Марк |
Глутамин |
13 |
Малеева Александра |
Новикова Мария |
Аспартат (аспарагиновая кислота) |
14 |
Медведев Дмитрий |
Носикова Екатерина |
Глутамат (глутаминовая кислота) |
15 |
Нуждина Екатерина |
Образцова Анна |
Лизин |
16 |
Панкевич Евгения |
Попов Ярослав |
Аргинин |
17 |
Струнилин Илья |
Севастьянова Виктория |
Аргинин |
18 |
Сутормин Дмитрий |
Травин Дмитрий |
Гистидин |
19 |
Тишина Софья |
Трушина Наталия |
Глицин |
20 |
Фёдорова Алла |
Шафиков Радик |
Цистеин |
21 |
Ходыкина Наталья |
Шеботинова Елена |
Пролин |
22 |
Климчук Олеся |
Рябых Григорий |
Пролин |
ДЛЯ САЙТА: |
- Создайте новую страницу, озаглавленную "Парные выравнивания белков. Применение алгоритмов парных выравниваний к белку XXX", где XXX - идентификатор белка, с которым вы работаете (вашего белка, SMTH_BACSU).
- На этой странице создайте раздел и озаглавьте его "Сравнение матриц аминокислотных замен".
Напишите кратко, чем отличаются друг от друга матрицы по сути типа BLOSUM и матрицы типа PHAT. Что означает цифра 62 в названии матрицы BLOSUM? По каким исходным данным была реконструирована третья матрица? Есть ли у вас какие-то общие комментарии относительно третьей матрицы? Помимо ответа на эти вопросы перенесите на сайт сравнение величин в матрице для выданной аминокислоты (план см. выше). Обязательно приведите таблицу, содержащую 5 строк: трехбуквенные обозначания аминокислот, однобуквенные обозначения аминокислот, величины замен выданной аминокислоты (в заголовке к таблице укажите, какой) для трех матриц. Этой таблицей вы проиллюстрируете свои выводы.
Задание №3: Программы парного выравнивания needle и water
Возьмите те же 3 пептида из 20 аминокислот, с которыми вы работали в Задании №1 практикума №6. Постройте оптимальное глобальное выравнивание для каждого из них и вашего белка с помощью программы needle из пакета EMBOSS при стандартных параметрах (выясните, какие параметры считаются стандартными и запишите). Сделайте для тех же трех пептидов запуски программы water при стандартных параметрах (при желании можете их изменить, объяснив причину).
Сравните выданные программой величины identity и similarity с теми, которые были получены в прошлом практикуме вручную (!!! Не надо, пожалуйста, подгонять одно под другое специально). Если величины отличаются, опишите, почему.
ДЛЯ САЙТА: |
- На рабочей странице создайте раздел и озаглавьте его "Сравнение выравниваний, полученных для коротких мутантов вручную и построенных классическими алгоритмами Нидлмана-Вунша и Смита-Ватермана".
- Опишите кратко своими словами, какие программы из пакета EMBOSS реализуют алгоритмы Нидлмана-Вунша и Смита-Ватермана, для чего предназначены эти алгоритмы а также в чем ключевая разница между этими алгоритмами.
- Кратко и своими словами сформулируйте, какие параметры использует каждый алгоритм, каковы значения этих параметров по умолчанию.
Опишите результаты сравнения Вашего выравнивания "вручную" и выравнивания, построенного программами needle и water. Приведите сравнения величин identity и similarity, а также веса выравнивания исходя из матрицы аминокислотных замен. Приведите выровненные фрагменты (вручную и программами, в любом удобном для читателя формате - должно быть ясно видно, какое выравнивание как было получено), чтобы проиллюстрировать свои выводы.
Задание №4 (*, необязательное)
ДЛЯ САЙТА: |
- На рабочей странице создайте раздел и озаглавьте его "Сравнение выравниваний, полученных для полноразмерных мутантов вручную и построенных классическими алгоритмами Нидлмана-Вунша и Смита-Ватермана".
- Опишите результаты выполнения необязательного задания из предыдущего практикума.
Выберите один любой полноразмерный мутант (укажите, какой). Для него проведите запуск программ needle и water, и сравните результаты с Вашими полученными вручную результатами по величине identity, а также по общему виду выравнивания.
Задание №5 (*, необязательное)
Выберите из выравнивания, построенного алгоритмом needle для любого из полноразмерных мутантов участок длиной 6-7 остатков, содержащий несколько очевидно выровненных позиций, по крайней мере 1 гэп и по крайней мере 1 несовпадающий остаток. Этот участок должен быть также обнаружен программой water. Укажите, с выравниванием какого мутанта вы будете сейчас работать работать. Постройте две матрицы, которые сделали бы алгоритмы Нидлмана-Вунша и Смита-Ватермана для данных последовательностей аминокислот (пример оформления матрицы можно видеть в презентации к этому заданию). Используйте для построения матриц величину штрафа за вставку гэпа -2, штраф за несовпадение -1 и бонус за совпадение 1.
ДЛЯ САЙТА: |
- На рабочей странице создайте раздел и озаглавьте его "Иллюстрация работы алгоритмов Нидлмана-Вунша и Смита-Ватермана на примере короткого участка выравнивания".
Приведите выбранный участок выравнивания так, как восстановили его программы needle и water и построенные матрицы, на которых стрелками показан обратный путь. Восстановите по нему соответствующее каждой матрице выравнивание. Совпадает ли оно с построенным алгоритмами? Если нет, то опишите отличия. С чем они могут быть связаны?
DEADLINE по наличию excel-файла в директории ...block2/credits:
- Для группы 2 (лекция 20 марта) = 27 марта
- Для группы 1 (лекция 22 марта) = 29 марта
DEADLINE для оформления web-страницы:
- Для группы 2 (лекция 20 марта) = 3 апреля
- Для группы 1 (лекция 22 марта) = 5 апреля