Учебная страница курса биоинформатики,
год поступления 2022
Для проверки профиля подсемейства скчайте построенного вами
A. Подсемейство с двудоменной архитектурой
- Следите за тем чтобы число представителей подсемейства было в пределах 40 - 200
Страница домена Pfam => Domain architectures => Выбираете двудоменную архитектуру с приемлемым числом представителей
- Скачайте последовательности подсемейства
Нажимаете на число преставителей архитектуры => Export, FASTA => generate потом download
- Выровняйте последовательности любой программой (в Jalview или иначе)
- Проверьте, что выравнивание на участках обоих доменов было местами удовлетворительным
- Определите примерную координату N-конца первого домена и C-конца второго в выравнивании.Для этого
Отсортируйте выравнивание в Jalview по id: calculate => sort => by id. Теперь сортировка в ыравнивании и на странице с представителями двудоменной архитектуры одинаовы
- Для нескольких последовательностей из из выравнивания определите координаты доменов. Щелкните на имя последовательности и увидите.
- Запомните колонки ВЫРАВНИВАНИЯ начала и конца доменов. В Jalview кусор на а.к.о. и в нижней строке увидите номер остатка В ПОСЛЕДОВАТЕЛЬНОСТИ.
- Определите примерную координату N-конца первого домена и C-конца второго в выравнивании.Для этого
- Вырежьте вертикальный блок от N-конца первого домена до C-конца второго
Выделите его мышкой. Правой кнопкой selection => output to textbox => Fasta => new window. Получаете выравнивание двух доменов!
- Рекомендуемый вариант - перевыровняйте последовательности. Выравнивание может улучшиться посравнению с выравниванием полноразмерных белков.
- Проведите ревизию выравнивания.
- Удалите вероятные фрагменты - имеющие крупные делеции в районах доменов
Из кластеров высокосходных последовательностей оставьте одну. В Jalview => Edit => Remove redundancy, начните с порога nr 100%, снижайте до 90% - один представитель из кластера идентичных на 90% или более последовательностей. Меняйте порог в зависимости от результата. Выборка - это выборка, она не обязана содержать все белки подсемейства! но должна представлять всё многообразие последовательностей белков. Развивайте интуицию).
Материал для построения профиля - выравнивание после ревизии.
Материал для положительного контроля - последовательности подсемейства, не вошедшие в метриал для построения профиля. Идеально профиль должен найти все последовательности в этом материале.
Материал для калибровки профиля - подсемейство семейства с ДОМЕНОМ, не пересекающееся с выбранным подсемейством. Находки профиля на этом материале будут перепредсказаниями.
Число последовательностей в этом материале должно быть заметно меньше, чем последовательностей в подсемействе. Дополнение будет тестовой выборкой для положительного контроля профиля.
= 1. Построение HMM-профиля подсемейства белков ==
1. Выберите Отбор материал для построения профиля
== B. Под семейство вашего домена ==
1.1 Выберите домен и доменную архитектуру, содержащую этот домен
Если нет собственных идей, то зайдите на сайт Pfam => Browse выберите любую букву. Чем хорош открывающийся список доменов, в нем указаны параметры, использованные мной в ограничениях. Можно скопировать таблицу на страницу Excel, и отсортировать и отфильтровать.
У меня не хватило времени скачать таблица на все буквы, и соединить в одну. Это тривиальный скриптик на python. Если кто это сделает и откроет таблицу всем - ему зачтётся:) Можно прислать мне, я открою на сайте.
1.2 Скачайте полные последовательности выборки full в формате fasta
На странице семейства => Alignment, в самом низу скачать "You can also download a FASTA format file containing the full-length sequences for all sequences in the full alignment" Назову этот файл full.fasta а вы назовёте Last_name-full-NN.fasta. Здесь NN - число последовательностей в файле
1.3 Составьте таблицу c колонкой АС всех последовательностей full, отметьте какие имеют выбранную доменную архитектуру
Получить список AC (т.е. названий последовательностей) можно из full.fasta
Получить список белков с доменной архитектур можно так. Перейти на Architectures, для нужной архитектуры Show all sequences with this architecture И скопировать открывающийся список. Пробовал = получается, если начать выделение с самого низа списка.
Способ SEARCH => Domain Archutecture ровно этот же список и открывает. Лучшего не нашёл.
В полученном текстовом файле AC белоков стоят в первой колонке. ===
1.4 Постройте выравнивание последовательностей с выбранной доменной архитектурой
Отберите нужные последовательности по имени из full.fasta. Можно использовать seqret из EMBOSS
Выровняйте как сумеете, можно в Jalview. В Jalview удобнo проводить ревизию.
1.5 Составьте представительную выборку последовательностей для построения HMM-профиля
1.5 Создайте HMM-профиль двух-доменной архитектуры
Для построения профиля используйте пакет HMMER. Он установлен на kodomo. Подсказка ко всем трём программам даётся опцией -h. Более подробную информацию можно получить, выполнив команду man hmm2build (аналогично с hmm2calibrate и hmm2search).
1) Постройте профиль программой hmm2build.
2) Откалибруйте профиль программой hmm2calibrate
1.6 Выполните поиск по HMM-профилю в файле с последовательностями всех белков с данным доменом
Не запускайте hmm2search без опции --cpu=1! По-умолчанию он занимает все ядра процессора, что не допустимо на учебном сервере. Если запускаете в непопулярное у других студентов время, то можете использовать 2 ядра, не больше.
— ИР
Поиск, как договорились, в full.fasta файле
- Выполните поиск по профилю командой hmm2search
- Внесите результат в таблицу. В таблице должны быть колонки: "входит в семейство" т.е. имеет выбранную доменную архитектуру; "входит в выборку для построения профиля", "входит в список находок", "вес находки", "E-value" (интересна также "длина белка")
Программы пакета HMMER 2.3.2 (установлен на kodomo)
команда, вход, выход |
что делает |
полезные опции |
комментарии |
hmm2build <выходной файл с профилем> <входное выравнивание> |
Делает профиль по выравниванию |
-g <профиль для глобального выравнивания> |
--- |
hmm2calibrate <файл с профилем> |
добавляет в тот же файл-профиль строчку EDV с коэффициентами пересчета веса в нормализовнный |
--num <число случайных последовательностей, default=5000> |
Генерирует --num случайных последовательностей, строит выравнивание профиля с каждой, считает вес и рассчитывает коэффициенты пересчета |
hmm2search <профиль> <файл с последовательностями> |
находит домены в последовательностях |
-domE <порог E-value для доменов> -domT <порог веса T для доменов> --cpu <число ядер процессора> |
Выберите порог веса и оцените результат вашего правила: профиль + порог веса
- Сравните список находок с исходной таблицей можно средствами Excel или Python.
- Подберите порог веса (или Е-value) для предсказания того, что находка имеет нужную доменную архитектуру. Для этого
- (1) постройте распределение весов находок (сортировка по убыванию веса; график весов)
- для каждого возможного порога - строчки в списке вычислите чувствительность и специфичность предсказания состоящего в том, что все строчки выше предсказываются имеющими нужную архитектуру доменов, ниже - не имеют.
- Постройте т.н. ROC кривую. Здесь будет ссылка на презентацию с объяснением.
- Подберите порог, дающий наименьшее значение параметра F1. Содержательно, этот параметр позволяет найти порог, при котором наиболее сбалансированы частоты ложно положительных и ложно отрицательных предсказаний. См презентацию.
Дополнительная информация
На kodomo, помимо пакета HMMER 2.3.2, установлен более новый пакет HMMER 3.0. Его программы отличаются отсутствием двойки в названии (например, hmmbuild вместо hmm2build). К сожалению, hmmbuild не принимает выравнивания в обычных форматах (fasta, aln, msf), поэтому с hmm2build работать проще. Впрочем, Jalview умеет сохранять выравнивания в стокгольмском формате, который hmmbuild понимает, поэтому можете работать с ним. Калибровка профиля в HMMER 3.0 не требуется.
В EMBOSS есть оболочка для пакета HMMER 2.3.2. Удобна тем, что стандартный EMBOSS интерфейс. Команды такие ehmmbuild и т.д.
Какие данные следует предъявить для проверки: A. Описание домена
- Длину профиля HMM домена из Pfam
Страница семейства => Curation&model см. model length. Там же и профиль можно скачать.
Дополнительное задание
2*. Постройте филогенетическое дерево для выбранного домена и проверьте образуют ли кладу в нем белки с выбранной доменной архитектурой
Предлагается построить филогенетическое дерево по последовательности выбранного домена только. Для этого предлагаю построить выравнивание последовательностей full.fasta Найти границы домена в нескольких последовательностях, как описано выше и удалить участки выравнивания до начала домена и после его конца.
В чём интерес задания. Можно предположить, что когда-то давно в эволюции выбранный домен соединился со вторым и им стало хорошо вдвоём в одной архитектуре. Значит, выбранный домен в составе архитектуры эволюционировал отдельно от других доменных архитектур с этим доменом. Следовательно, пути разошлись, подтверждением будет то, что на дереве домена домен из белков с выбранной архитектурой будет образовывать отдельную кладу.
А если не так? Надо соображать что могло произойти. Может, независимо объединение доменов произошло на разных ветвях эволюции?