Учебная страница курса биоинформатики,
год поступления 2022
Практикум 9. Выравнивание последовательностей
Результаты — в виде отдельной страницы на своём сайте, со ссылкой со страницы семестра. Срок без штрафа — 11 апреля, с минимальным штрафом — 18 апреля.
При затруднениях см. указания.
0. Установите себе Jalview
Для работы из дома необходимо установить на своём компьютере программу Jalview. Инструкции см. здесь.
1. Глобальное парное выравнивание гомологичных белков
Скачайте из Uniprot два списка идентификаторов (ID) записей: всех аннотированных (Reviewed, то есть из Swiss-Prot) записей, чей идентификатор кончается на _ECOLI (то есть из штамма K12 кишечной палочки) и всех аннотированных записей, чей идентификатор кончается на _BACSU (то есть из штамма 168 сенной палочки).
Определите пары белков из двух списков, чьи идентификаторы Swiss-Prot имеют одинаковую мнемонику функции (например, в идентификаторе ENO_ECOLI мнемоникой функции является ENO). Выберите три пары белков. Выровняйте последовательности каждой пары программой needle при параметрах по умолчанию. Создайте и заполните таблицу вида:
Таблица 1. Характеристики глобального парного выравнивания трёх пар белков
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Столбцы таблицы: рекомендованное полное имя (если таковые различаются в двух записях Swiss-Prot, в таблицу вставляйте то, что приведено для кишечной палочки, но в сноске под таблицей обязательно укажите на разночтение!), идентификаторы двух белков в Swiss-Prot, вес выравнивания, процент совпадающих букв, процент сходных букв, число гэпов, число инделей.
Замечания: 1) не выбирайте мнемоники функций, начинающиеся на букву Y — это, как правило, белки с неизвестной функцией и скорее всего даже при совпадении мнемоник белки из разных организмов не будут гомологичны; 2) не выбирайте мнемонику ENO.
2. Локальное парное выравнивание гомологичных белков
Те же пары белков выровняйте программой water, тоже при параметрах по умолчанию. Создайте и заполните таблицу вида:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Дополнительные столбцы: проценты покрытия первого и второго белка выравниванием (с округлением до десятых процента).
3. Результат применения программ выравнивания к неродственным белкам
Выберите какую-нибудь случайную пару белков c разными мнемониками функций. Проведите глобальное и локальное выравнивание. В отчёте приведите характеристики выравниваний и свои комментарии.
4. Множественное выравнивание белков и импорт в Jalview
Для одной из мнемоник функций, выбранных в упр.1, найдите в Swiss-Prot все белки, чьи идентификаторы начинаются с этой мнемоники. Укажите в отчёте, сколько таких белков нашлось. Выберите пять из них (помимо белков из ECOLI и BACSU). Выполните множественное выравнивание этих пяти белков вместе с соответствующими белками из ECOLI и BACSU (то есть всего в выравнивании должно быть семь последовательностей). Запустите Jalview и импортируйте выравнивание в него. В Jalview закройте все лишние окна, никаких окон, кроме окна с выравниванием, внутри окна Jalview оставаться не должно. Раскрасьте колонки выравнивания по проценту идентичности. Сохраните проект Jalview (см. в кратком руководстве: https://kodomo.fbb.msu.ru/wiki/Main/JalView ).
В отчёте приведите: (а) что за мнемоника, рекомендованное полное имя белка из ECOLI, сколько белков нашлось, какие были выбраны; (б) как делалось выравнивание; (в) гиперссылку на файл с проектом Jalview; (г) комментарии к выравниванию: все ли белки хорошо выровнялись, все ли они, по вашему мнению, гомологичны, есть ли у выравнивания выраженная структура: более консервативные и менее консервативные участки (желательно с указанием на номера столбцов выравнивания).
Дополнительные задания
Для дополнительных заданий дедлайнов нет (точнее есть естественный — конец семестра), но если сделаете любое из них после 19 апреля, напишите про это письмо на sas@fbb.msu.ru .
5. (*) Параметры программ needle и water
Выясните, значения каких параметров запрашивают программы needle и water, будучи запущены без опции -auto, и каков смысл этих параметров. Попробуйте подобрать пример, когда изменение этих параметров повлияет на результаты работы программы, и опишите эти результаты при разных значениях параметров.
Важно: под разными результатами понимаются разные выравнивания, а не просто разные значение веса одного и того же выравнивания! Выравнивания разные, если хотя бы одна пара букв, сопоставленная в одном выравнивании, не сопоставлена в другом.
6. (*) Подсчёт инделей
Напишите программу, которая принимает в командной строке имя файла, содержащего результат работы needle или water, и печатает на stdout три строки:
- название первой последовательности, после него число инделей в этой последовательности
- название второй последовательности, после него число инделей в этой последовательности
- слово Total, после него суммарное число инделей.
Напомню, что инделем мы называем несколько подряд идущих гэпов в одной последовательности.
Программу поместите в файл ~/term2/indels/indels.py.