Учебная страница курса биоинформатики,
год поступления 2011
Указания к занятию 7
К упражнению 1
Банк nr (Non-redundant protein sequences) — своеобразный "виртуальный" банк, существующий только как область поиска программой BLAST на сайте NCBI. По замыслу, включает в себя все белковые последовательности из всевозможных источников (в первую очередь Swiss-Prot и аннотации кодирующих участков генов в GenBank). При этом как nr, так и другие банки последовательностей на сайте NCBI подвергнуты "кластеризации": записи с одинаковой последовательностью (часто таковыми являются, например, белки из разных штаммов одного вида бактерий) объединены в одну и будут показаны в списке находок одной строкой. Тем самым, указанный в первом столбце таблицы находок "Accession" может не совпасть с AC белка, поданного на вход. Чтобы понять, найден ли исходный белок, часто имеет смысл посмотреть в той части выдачи BLAST, где приведены выравнивания — там будут приведены все ID и AC записей, попавших в кластер. Если же кластер очень большой, то часть идентификаторов последовательностей может быть даже скрыта в выпадающем меню!
- Чтобы узнать номер находки в списке описаний, наведите курсор мыши на "Accession" (гиперссылку в левом столбце таблицы). В "строке состояния" (внизу окна браузера) отобразится гиперссылка, в которой среди прочего будет указано "blast_rank=19", значит, курсор на 19-ой находке.
- Для перехода со списка находок к конкретному выравниванию можно щёлкнуть по числу в третьем столбце ("Max score").
- Для ответа на последний вопрос надо знать, каковы по умолчанию пороговое значение E-value и предельный размер выдачи. Чтобы узнать это, на странице запроса щёлкните по "Algorithm parameters": появятся список параметров и значения по умолчанию.
К упражнению 2
Проведите поиск гомологов заданного белка по Swiss-Prot, при этом введите название таксона в окошко "Organism".
Если начать набирать название таксона, то интерфейс тут же начнёт подсказывать варианты; чтобы согласиться с одним из них, просто щёлките по нужному названию.
Если гомолог не найден, то вернитесь на страницу запроса (гиперссылка "blastp suite" в левом верхнем углу), введите название следующего таксона и т.д.
К упражнению 3
- Выравнивание, выданное BLAST, сравните с оптимальным выравниванием, построенным при той же функции веса; функция веса определяется: матрицей весов замен, штрафами за создание и удлинение гэпа. Поэтому прежде всего загляните в меню "Algorithm parameters" на странице запроса BLASTp и извлеките необходимую информацию. Затем постройте оптимальные локальное и глобальное выравнивания полных последовательностей соответствующих белков при тех же параметрах.
- Программы needle и water при запуске без опции -auto запрашивают значения штрафов. Чтобы задать значения штрафов программе stretcher или matcher, надо либо запустить её с опцией -options, тогда она запросит значения, либо явно указать значения в командной строке в следующей форме:
stretcher -gapopen a -gapextend b
(вместо a и b должны стоять целые числа; для matcher имена параметров те же).
Сравните значения Score, длины выравниваний, проценты совпадения и сходства, а также сами выравнивания.
Сравнение двух выравниваний одних и тех же последовательностей.
Выравнивание - способ сказать какие остатки из двух последовательностей, предположительно, гомологичны - те, которые стоят в одной колонке. Если в колонке стоит буква и гэп, то предполагается, что для соответствующего остатка нет (или не найден) гомологичный в другой последовательности.
Если колонка первого выравнивания содержит те же остатки (или остаток и гэп), что и какая-то колонка второго выравнивания, то, значит, эта колонка согласована со вторым выравниванием. Те же - значит остатки с теми же номерами в последовательности, например, 15-й остаток из первой последовательности и 7-й - из второй.
Мерой совпадения двух выравниваний служит процент согласованных колонок первого выравнивания относительно общего числа колонок: аналогично определяется этот процент для второго выравнивания.
В случае сравнения локальных выравниваний или локального выравнивания и глобального следует ограничиться выравниваниями фрагментов, входящих в оба выравнивания. Стоит охарактеризовать также какую чать выравниваний занимают эти фрагменты.
====
Вычисление указанных выше мер различия приветствуется. Однако можно ограничиться кратким описанием различий выравниваний типа:
- "... все сопоставления в двух выравниваниях одинаковы, кроме пяти на участке от ... до ... (по последовательности XXX)"
- "... большая часть сопоставлений различается — выравнивания различны почти везде, за исключением участка ..."
От вас ожидается проявление умения описывать наблюдаемый феномен в понятных выражениях, что может потребовать определённых мыслительных усилий!