Учебная страница курса биоинформатики,
год поступления 2023
Практикум 9. Выравнивание последовательностей
Результаты заданий 2–5 оформите в виде отдельной страницы на своём сайте, со ссылкой со страницы семестра. Срок без штрафа — 16 апреля, с минимальным штрафом — 23 апреля.
При затруднениях см. указания.
0. Установите себе Jalview
Для работы из дома необходимо установить на своём компьютере программу Jalview. Инструкции см. здесь.
1. Программа подсчёта инделей
Напишите программу, которая принимает в командной строке имя файла, содержащего результат работы программ needle или water, и печатает на stdout три строки:
- название первой последовательности, после него число инделей в этой последовательности
- название второй последовательности, после него число инделей в этой последовательности
- слово Total, после него суммарное число инделей.
Напомню, что инделем мы называем один или несколько подряд идущих гэпов в одной последовательности.
Программу поместите в файл ~/term2/indels/indels.py. Программа должна вызываться так:
python indels.py <файл с выравниванием>
и не требовать больше никаких действий от пользователя (никаких input!)
2. Глобальное парное выравнивание гомологичных белков
Скачайте из Uniprot два списка идентификаторов (ID) записей: всех аннотированных (Reviewed, то есть из Swiss-Prot) записей, чей идентификатор кончается на _ECOLI (то есть из штамма K12 кишечной палочки) и всех аннотированных записей, чей идентификатор кончается на _BACSU (то есть из штамма 168 сенной палочки).
Определите пары белков из двух списков, чьи идентификаторы Swiss-Prot имеют одинаковую мнемонику функции (например, в идентификаторе ENO_ECOLI мнемоникой функции является ENO). Выберите три пары белков. Выровняйте последовательности каждой пары программой needle при параметрах по умолчанию. Создайте и заполните таблицу вида:
Таблица 1. Характеристики глобального парного выравнивания трёх пар белков
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Столбцы таблицы: рекомендованное полное имя (если таковые различаются в двух записях Swiss-Prot, то в таблицу внесите то, что приведено для кишечной палочки, но в сноске под таблицей обязательно укажите на разночтение!), идентификаторы двух белков в Swiss-Prot, вес выравнивания, процент совпадающих букв, процент сходных букв, число гэпов, число инделей.
Замечания: 1) не выбирайте мнемоники функций, начинающиеся на букву Y — это, как правило, белки с неизвестной функцией и скорее всего даже при совпадении мнемоник белки из разных организмов не будут гомологичны; 2) не выбирайте мнемонику ENO.
3. Локальное парное выравнивание гомологичных белков
Те же пары белков выровняйте программой water, тоже при параметрах по умолчанию. Создайте и заполните таблицу вида:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Дополнительные столбцы: проценты покрытия первого и второго белка выравниванием (с округлением до десятых процента).
4. Результат применения программ выравнивания к неродственным белкам
Выберите какую-нибудь случайную пару белков c разными мнемониками функций. Проведите глобальное и локальное выравнивание. В отчёте приведите характеристики выравниваний и свои комментарии.
5. Множественное выравнивание белков и импорт в Jalview
Для одной из мнемоник функций, выбранных в упр.1, найдите в Swiss-Prot все белки, чьи идентификаторы начинаются с этой мнемоники. Укажите в отчёте, сколько таких белков нашлось. Выберите пять из них (помимо белков из ECOLI и BACSU). Выполните множественное выравнивание этих пяти белков вместе с соответствующими белками из ECOLI и BACSU (то есть всего в выравнивании должно быть семь последовательностей). Запустите Jalview и импортируйте выравнивание в него. В Jalview закройте все лишние окна, никаких окон, кроме окна с выравниванием, внутри окна Jalview оставаться не должно. Раскрасьте колонки выравнивания по проценту идентичности. Сохраните проект Jalview (см. в кратком руководстве: https://kodomo.fbb.msu.ru/wiki/Main/JalView ).
В отчёте приведите: (а) что за мнемоника, рекомендованное полное имя белка из ECOLI, сколько белков нашлось, какие были выбраны; (б) как делалось выравнивание; (в) гиперссылку на файл с проектом Jalview; (г) комментарии к выравниванию: все ли белки хорошо выровнялись, все ли они, по вашему мнению, гомологичны, есть ли у выравнивания выраженная структура: более консервативные и менее консервативные участки (желательно с указанием на номера столбцов выравнивания).
Дополнительное задание
Для дополнительного задания дедлайна нет (точнее есть естественный — конец семестра), но если сделаете после 23 апреля, напишите про это письмо на sas@fbb.msu.ru .
6. (*) Параметры программ needle и water
Выясните, значения каких параметров запрашивают программы needle и water, будучи запущены без опции -auto, и каков смысл этих параметров. Попробуйте подобрать пример, когда изменение этих параметров повлияет на результаты работы программы, и опишите эти результаты при разных значениях параметров.
Важно: под разными результатами понимаются разные выравнивания, а не просто разные значение веса одного и того же выравнивания! Выравнивания разные, если хотя бы одна пара букв, сопоставленная в одном выравнивании, не сопоставлена в другом.