Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2023

Практикум 9. Выравнивание последовательностей

Результаты заданий 2–5 оформите в виде отдельной страницы на своём сайте, со ссылкой со страницы семестра. Срок без штрафа — 16 апреля, с минимальным штрафом — 23 апреля.

При затруднениях см. указания.

0. Установите себе Jalview

Для работы из дома необходимо установить на своём компьютере программу Jalview. Инструкции см. здесь.

1. Программа подсчёта инделей

Напишите программу, которая принимает в командной строке имя файла, содержащего результат работы программ needle или water, и печатает на stdout три строки:

Напомню, что инделем мы называем один или несколько подряд идущих гэпов в одной последовательности.

Программу поместите в файл ~/term2/indels/indels.py. Программа должна вызываться так:

python indels.py <файл с выравниванием>

и не требовать больше никаких действий от пользователя (никаких input!)

2. Глобальное парное выравнивание гомологичных белков

Скачайте из Uniprot два списка идентификаторов (ID) записей: всех аннотированных (Reviewed, то есть из Swiss-Prot) записей, чей идентификатор кончается на _ECOLI (то есть из штамма K12 кишечной палочки) и всех аннотированных записей, чей идентификатор кончается на _BACSU (то есть из штамма 168 сенной палочки).

Определите пары белков из двух списков, чьи идентификаторы Swiss-Prot имеют одинаковую мнемонику функции (например, в идентификаторе ENO_ECOLI мнемоникой функции является ENO). Выберите три пары белков. Выровняйте последовательности каждой пары программой needle при параметрах по умолчанию. Создайте и заполните таблицу вида:

Таблица 1. Характеристики глобального парного выравнивания трёх пар белков

 
Protein Name

 
ID 1

 
ID 2

 
Score

 
% Identity

 
% Similarity

 
Gaps

 
Indels

 
Enolase

 
ENO_ECOLI

 
ENO_BACSU

 
1351.0

 
62.1%

 
74.8%

 
20

 
5

Столбцы таблицы: рекомендованное полное имя (если таковые различаются в двух записях Swiss-Prot, то в таблицу внесите то, что приведено для кишечной палочки, но в сноске под таблицей обязательно укажите на разночтение!), идентификаторы двух белков в Swiss-Prot, вес выравнивания, процент совпадающих букв, процент сходных букв, число гэпов, число инделей.

Замечания: 1) не выбирайте мнемоники функций, начинающиеся на букву Y — это, как правило, белки с неизвестной функцией и скорее всего даже при совпадении мнемоник белки из разных организмов не будут гомологичны; 2) не выбирайте мнемонику ENO.

3. Локальное парное выравнивание гомологичных белков

Те же пары белков выровняйте программой water, тоже при параметрах по умолчанию. Создайте и заполните таблицу вида:

 
Protein Name

 
ID 1

 
ID 2

 
Score

 
% Identity

 
% Similarity

 
Gaps

 
Indels

 
Coverage 1

 
Coverage 2

 
Enolase

 
ENO_ECOLI

 
ENO_BACSU

 
1359.0

 
64.1%

 
77.2%

 
7

 
3

 
98.1%

 
97.9%

Дополнительные столбцы: проценты покрытия первого и второго белка выравниванием (с округлением до десятых процента).

4. Результат применения программ выравнивания к неродственным белкам

Выберите какую-нибудь случайную пару белков c разными мнемониками функций. Проведите глобальное и локальное выравнивание. В отчёте приведите характеристики выравниваний и свои комментарии.

5. Множественное выравнивание белков и импорт в Jalview

Для одной из мнемоник функций, выбранных в упр.1, найдите в Swiss-Prot все белки, чьи идентификаторы начинаются с этой мнемоники. Укажите в отчёте, сколько таких белков нашлось. Выберите пять из них (помимо белков из ECOLI и BACSU). Выполните множественное выравнивание этих пяти белков вместе с соответствующими белками из ECOLI и BACSU (то есть всего в выравнивании должно быть семь последовательностей). Запустите Jalview и импортируйте выравнивание в него. В Jalview закройте все лишние окна, никаких окон, кроме окна с выравниванием, внутри окна Jalview оставаться не должно. Раскрасьте колонки выравнивания по проценту идентичности. Сохраните проект Jalview (см. в кратком руководстве: https://kodomo.fbb.msu.ru/wiki/Main/JalView ).

В отчёте приведите: (а) что за мнемоника, рекомендованное полное имя белка из ECOLI, сколько белков нашлось, какие были выбраны; (б) как делалось выравнивание; (в) гиперссылку на файл с проектом Jalview; (г) комментарии к выравниванию: все ли белки хорошо выровнялись, все ли они, по вашему мнению, гомологичны, есть ли у выравнивания выраженная структура: более консервативные и менее консервативные участки (желательно с указанием на номера столбцов выравнивания).


Дополнительное задание

Для дополнительного задания дедлайна нет (точнее есть естественный — конец семестра), но если сделаете после 23 апреля, напишите про это письмо на sas@fbb.msu.ru .

6. (*) Параметры программ needle и water

Выясните, значения каких параметров запрашивают программы needle и water, будучи запущены без опции -auto, и каков смысл этих параметров. Попробуйте подобрать пример, когда изменение этих параметров повлияет на результаты работы программы, и опишите эти результаты при разных значениях параметров.

Важно: под разными результатами понимаются разные выравнивания, а не просто разные значение веса одного и того же выравнивания! Выравнивания разные, если хотя бы одна пара букв, сопоставленная в одном выравнивании, не сопоставлена в другом.

2023/2/pr9 (последним исправлял пользователь sas 2024-04-09 08:35:58)