Учебная страница курса биоинформатики,
год поступления 2011

Указания к занятию 8

К упражнению 1

a.

Ваша задача — набрать несколько белков, чьи последовательности выравниваются (например, BLAST'ом) с последовательностью вашего белка так, что:
1. E-value сходства по данным выравниваниям — не более одной тысячной (тем самым эти белки являются достоверными гомологами)
2. Выравнивания имеют процент идентичности не более 90 (то есть белки не слишком близки к вашему)
3. Кроме того, желательно, чтобы найденные последовательности были не слишком близки и друг к другу тоже.
Ваши белки имеют разное количество гомологов в Swiss-Prot, с разной степенью сходства. Предлагается действовать по следующей общей схеме:
1. Запустите BLAST по Swiss-Prot, ограничив выдачу таксоном Bacteria и поставив порог на E-value, равный 0.001.
2. Если число найденных гомологов невелико, берите все, следя только за тем, чтобы не попадались одинаковые белки из слишком родственных организмов (например, если вы взяли белок с идентификатором XXXX_SALTY, то уже не берите XXXX_SALEP — родовое название организма отражается первыми тремя буквами второй части идентификатора). Если же выдача большая, то можно поступить двояко: либо просмотреть выравнивания и выбрать несколько последовательностей различной удалённости (желательно, чтобы в выборке присутствовали последовательности с процентами идентичности от 40 до 80), либо запустить BLAST несколько раз, ограничивая выдачу различными таксонами бактерий, в которые не входит B.subtilis, и взять по одной-две находки из каждой выдачи.
3. Создайте в рабочей директории файл со списком идентификаторов (можно и номеров доступа) отобранных белков, перед которыми стоит "sw:", например:

sw:wecb_ecoli
sw:wecb_salty
sw:wecb_yerpe
sw:mnaa_bacsu
sw:rfbc_salbo

Желательно назвать файл "myproteins.list" — это так называемый "лист-файл", то есть файл со списком "адресов" последовательностей. Выполните (в своей рабочей директории на kodomo-count) команду:

seqret @myproteins.list myproteins.fasta

чтобы получить в файле myproteins.fasta последовательности в fasta-формате. Знак "@" указывает программе seqret, что входной файл надо рассматривать как лист-файл, а не как файл с последовательностями.

b.

Постройте выравнивание любой из известных вам программ. В том числе, можно открыть полученный файл с (невыровненными) последовательностями с помощью JalView и использовать программу через меню WebService => Alignment

c. Как установить консервативность участка множественного выравнивания

Трактовать здесь термин “множественное выравнивание” надо так: в выравнивании присутствуют не менее 3-5 существенно разных последовательностей. Формальное определение (в выравнивании 3 или более последовательностей) здесь не проходит, так как можно взять 100 совпадающих последовательностей и одну отличающуюся; построенное множественное выравнивание 101 последовательности, по существу, будет парным!
Можно говорить о консервативности и предположительной гомологичности, если длина участка во множественном выравнивании не менее 4-5 остатков!
Подразумевается, конечно, что крайние позиции рассматриваемого участка – функционально консервативны!
Критерии сходства зависят от длины участка:
- длина 4 – все позиции функционально консервативны
- длина 5 – не менее 3х функционально консервативных позиций, нет символов пропуска “-”
- длина 10 – не менее 50% функционально консервативных позиций, нет символов пропуска “-” или есть не более, чем в одной колонке
- длина 100 – содержит, по крайней мере, несколько коротких консервативных участков
Эти критерии не являются законом природы или общепринятыми среди сообщества биоинформатиков. Приведены ориентиры из личного опыта. (ААл)
Для парных выравниваний критерии сходства последовательностей, убеждающего в гомологии, существенно строже, чем для множественного! Дело в том, что совпадение букв в 4-х идущих подряд колонках парного выравнивания может получиться случайно.

d.

Используйте раскраску BLOSUM62. Она устроена так: подкрашены те остатки, которые совпадают с консенсусом в данной колонке (см. нижнюю строку разметки в JalView) или имеют положительные вес в BLOSUM62 с ним; интенсивность цвета зависит от веса в матрице, т.е. максимальная - для остатков, совпадающих с консенсусом.
Минимальная степень консервативности - процент окрашенных остатков в колонке, - регулируется в меню Color => Consrvation
В ответе ожидается
- перечисление самих функциональных групп, т.е. их аминокислотного состава (а не их позиций в выравнивании! например, группа серин-треонин [ST]); можно ограничиться 5-ю группами;
- указание самой часто встречающейся группы в вашем выравнивании, и число ее встреч

К упражнению 2

Чтобы получить последовательности малых дельта-антигенов из банка Swiss-Prot, воспользуйтесь SRS. Все дельта-антигены происходят из вирусов рода"Deltavirus" и имеют в описании слово "delta"; малые дельта-антигены в описании имеют ещё слово "small". Поэтому в SRS можно создать запрос к банку Swiss-Prot, написав эти слова в соответствующих полях и соединив их соответствующими операторами, а затем сохранить найденные последовательности в fasta-формате (кнопка Save). Рекомендуем назвать файл с последовательностями "delta.fasta".
Чтобы выровнять несколько последовательностей, находящихся в файле "delta.fasta" программой muscle, надо соединиться с kodomo, сделать активной рабочую директорию, а затем выполнить команду:
muscle -in delta.fasta -out delta_aligned.fasta

(после -out должно стоять имя выходного файла, которое, конечно, может быть любым; желательно, однако, по возможности давать файлам с результатами "говорящие" имена, как в приведённом примере). Выходной файл (по умолчанию) имеет fasta-формат, но содержит, в отличие от входного, не просто набор последовательностей, а выравнивание.

Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2011

Указания к занятию 8

К упражнению 1

a.

b.

c. Как установить консервативность участка множественного выравнивания

d.

К упражнению 2

Kodomo

Пользователь

Учебная страница курса биоинформатики, год поступления 2011

Указания к занятию 8

К упражнению 1

a.

b.

c. Как установить консервативность участка множественного выравнивания

d.

К упражнению 2

Учебная страница курса биоинформатики,
год поступления 2011