Учебная страница курса биоинформатики,
год поступления 2019
Указания по выполнению заданий практикума 13
См. видео запись
Скачать и установить редактор выравнивания Genedoc.
Он только под Windows. Genedoc download
Инструкция по использованию To appear
При составлении отчёта подумайте о том, как сделать его интересным и удобным для читателя. Например, для проверяющего - вашего покорного слуги :) По 1. полезно поставить ссылку на страницу домена. По 2. полезно продемонстрировать блоки рисунком или выделив их в файле из редактора (как - поищите возможности в редакторах). На рисунке нужно видеть не только блоки, но и достаточно большие фланки - участки выравнивания до блока и после блока, т.к. границы блока можно определить только в контексте. Консервативный блок - НЕ ТОТ, КОТОРЫЙ состоит ТОЛЬКО из консервативных позиций. Блок консервативный, если достаточно оснований считать, что он состоит из позиций с гомологичными аминокислотными остатками. По другому, вы убеждены, что программа множественного выравнивания не могла бы соорудить блок такого или лучшего качества из случайных последовательностей. Точных критериев не могу предложить. Если между какими-то консервативными позициями блока стоят несколько неконсервативных позиций без гэпов, то это, свидетельствует о мутациях гомологичных остатков. Посмотрите мотивы в RdRP из презентации. Например, DXXXXD (X - любой а/к остаток). Найти такую последовательность в одной случайно выбранной последовательности белка - да запросто! НО, DXXXXD найдено программой выравнивания (или глазами опытного человека, возможно, знаю кого) примерно на одном и том же месте в сотнях полимераз RdRP из очень далеких организмов!!! Да, что вы, вероятность такого события ничтожна. Вероятности независимых случайных событий перемножаются. Значит, вероятность такого наблюдения в случайно выбранных 100 последовательностях равна p^100 (сотая степень) где p<<1 - вероятность наблюдать DXXXXD в одной последовательности. Попробуйте даже p=0.9 возвести в сотую степень. По 3. Наверное, надо поставить ссылку на полученную таблицу. И, наверное, надо привести запрос. Этот текст решил написать по просмотру одной работы. ААл
1. Описать информацию, доступную в Pfam по одному домену
- Выбрать домен. Можно взять любимый белок, определить его доменную архитектуру в Pfam и взять один из доменов.
Брать только домены из раздела аннотированных доменов (PfamA); это те, у которых AC начинается c PF
Не стоит брать домены встречающиеся в сотнях тысяч белков - наплачитесь :) Тысячи - годится.
- Поиск доменной архитектуры последовательности. Jump to ... по AC или ID
- Поиск по ключевым словам
- .
- Включите в отчёт название, ID, AC и функцию домена (коротко)
- Укажите число последовательностей (full) и число последовательностей в выравнивании seed
- Укажите число доменных архитектур с этим доменом
- Укажите другие домены, приятели данного, и покажите одну или несколько доменных архитектур, включающих домен и его приятеля. Приятелем назовем домен, часто встречающийся с данным, и возможно в разных доменных архитектурах. Определяется на глазок и по функции.
- Укажите число 3D структур доменов из разных последовательностей. Разные структуры одного и того же белка (по Uniprot ID) считать за одну.
- Укажите число белков с доменом по таксонам самого высокого ранга. Типично - по суперцарствам(они же домены жизни) - бактерии, археи, эукариоты.Если все белки, например, из Firmicutes, то берите след. по рангу таксоны.
- Посмотрите на HMM профиль выравнивания и укажите дату последнего изменения профиля (в начале файла, поле DATE) и число позиций (номера позиций указаны в первой колонке профиля).
На странице домена => curation&model => dowload - сохраните файл <ID>.hmm и откройте в приличном текстовом редакторе. Профиль - таблица, строки - позиции профиля, они пронумерованы; столбцы - аминокислотные остатки. В ячейках стоят минус натуральные логарифмы вероятностей -ln p, где p - вероятность.
- Каждой позиции отвечает ТРИ строки.
В первой строке стоят -ln p вероятностей того, что в позиции seed выравнивания стоит соответствующий остаток.
- Номера позиций профиля могут отличаться от номеров позиций seed выравнивания. Дело в том, что позиции выравнивания с гэпами пропускаются в профиле.
- Номер позиции выравнивания указан в колонке, следующей за последним а/к остатком, Y. Следом за ним указан наиболее вероятный а/к остаток в этой позиции
- Когда-нибудь узнаете, что вероятности в этой строке называются эмиссионными
- Во второй строке стоят такие же вероятности для вставки каждой из букв за этой позицией
В третей строке стоят -ln p вероятностей переходов: того, что за колонкой без гэпов (m, от match) следует колонка без гэпов (m -> m); что за колонкой m стоит колонка со вставкой (i, от insertion) (m -> i), и так далее. d - делеция, от deletion.
- Вероятности в этой строке называются вероятностями переходов
Последний пункт задания задуман мной для того, чтобы вы своими глазами увидели HMM профиль, лежащий в основе поиска доменов. Вдруг придется использовать в курсовой на 2м курсе!
Разбирать описание профиля не обязательно. Но Буратинам бывает интересно сунуть свой нос в холст папы Карло :)
2.Анализ выравнивания из Pfam
- Выберите небольшую (не более нескольких десятков) выборку последовательностей белков с доменом, пользуясь Sunburst. Выделите веточку с подходящим числом последовательностей; следите, чтобы число видов было больше 10. Запишите какой таксон, сколько последовательностей и видов
- Скачайте выравнивание или (лучше) последовательности в фаста формате. Лучше - потому, что выравнивание по профилю не очень хорошее.
- Откройте в Jalview и выровняйте если нужно
- Ревизия выравнивания.
- Сделайте копию выравнивания в Jalview чтобы сохранить исходное выравнивание
- Задача ревизии оставить выравнивание, в котором есть хорошие вертикальные блоки, но чтобы последовательности не были почти идентичными. Должно остаться от 7 до 30 последовательностей.
- Посмотрите границы домена. Для этого найдите доменную архитектуру одного белка из выборки, пользуясь Pfam Jump to ...
- Удалите фрагменты
Удалите последовательности, подозрительно отличающиеся в консервативных блоках
Удалите повторяющиеся или очень похожие последовательности. Jalview => Edit => Remove Redubdancy Подберите порог такой, чтобы осталось разумное число не сильно схожих последовательностей (в пределах 10-30)
Удалите пустые колонки Edit => Remove empty columns
- Сохраните Jalview проект с исходным выравниванием и выравниванием после ревизии.
- Сохраните получившееся выравнивание в формате msf (Genedoc любит) (фаста тоже можно импортировать в Genedoc).
- Открыть выравнивание в Genedoc
- Найдите консервативный вертикальный блок
- Найдите консервативный блок, включающий не все последовательности
Найдите вертикальный блок минус блок. Прямоугольник в выравнивании, в котором нет оснований предполагать гомологичность фрагментов: в идеале никакие два не похожи настолько, что можно предполагать гомологичность.
- (*) Найдите и исправьте одну ошибку в выравнивании
3. Найти все белки с данным доменом Pfam
Жаль, не успел продемонстрировать на занятии
- а. В Uniprot по запросу получите таблицу всех белков содержащих домен.
Uniprot => advanced => Searched field: Cross-reference => Family and domain databases => Pfam. Введите Pfam AC в окошко => Search
- Равносильно запросу вида: database:(type:pfam PF02086)
- укажите в отчёте число находок и число находок в Swissprot (reviewed)
- Если находок удручающе много, например, пол-миллиона, то можно повторить поиск, дополнительно ограничив его таксоном (разберетесь как). Укажите это в отчете
- Добавьте к таблице колонки cross-reference(Pfam) и cross-reference(PROSITE); и тот уровень таксона, который использовали в задании 1.
Columns => Taxonomic lineage , выберите уровни таксонов, которые хотите отобразить в таблице. Предостережение: не выбирайте taxonomic lineage all - с этим неудобно будет разбираться.
=> Family and domain => Pfam, PROSITE (по желанию - другие базы доменов, например, Interpro)
- Сохраните таблицу в формате Excel
- Выберите одну доменную архитектуру и посчитайте число белков с такой доменной архитектурой по колонке cross-reference(Pfam)
- Посчитайте число белков по таксонам выбранного уровня.
- Сравните с данными Pfam
- Определите какой домен PROSITE соответствует выбранному домену Pfam.
Напишите что-нибудь про задания и выводы.
Дополнительное задание
4.(*) Проверить выравнивание по совмещению структур
- Выберите 3-5 белка с доменом, у которых известна 3D структура. Запомните PDB коды и цепочки для них.
- Постройте выравнивания последовательностей.
- Постройте совмещение структур. Посмотрите на совмещенные структуры - хорошее ли совмещение полипептидных цепей.
Сервис PDBeFold https://www.ebi.ac.uk/msd-srv/ssm/ => Launch => multiple
вводите PDB code => find chain, оставьте нужную, list update. New entry для указания следующей структуры. Повторять.
- Submit
- Посмотреть совмещение: view superposed (Jmol) - у меня выдал ошибку, не понял в чем дело.
- view superposed (Rasmol) - скачиваете файл send.rasmol с координатами совмещенных структур.Если оставить только координаты, то открывается в Jmol.
- Сохраните выравнивание, построенное сервером по совмещению полипептидных цепей.
- Сравните выравнивания и напишите вывод.
Under construction