Учебная страница курса биоинформатики,
год поступления 2020

Указания

1. Постройте HMM-профиль семейства белков и проверьте его работу

1.1 Выберите домен и доменную архитектуру, содержащую этот домен

Если нет собственных идей, то зайдите на сайт Pfam => Browse выберите любую букву. Чем хорош открывающийся список доменов, в нем указаны параметры, использованные мной в ограничениях. Можно скопировать таблицу на страницу Excel, и отсортировать и отфильтровать.

У меня не хватило времени скачать таблица на все буквы, и соединить в одну. Это тривиальный скриптик на python. Если кто это сделает и откроет таблицу всем - ему зачтётся:) Можно прислать мне, я открою на сайте.

1.2 Скачайте полные последовательности выборки full в формате fasta

На странице семейства => Alignment, в самом низу скачать "You can also download a FASTA format file containing the full-length sequences for all sequences in the full alignment" Назову этот файл full.fasta

1.3 Составьте таблицу c колонкой АС всех последовательностей full, отметьте какие имеют выбранную доменную архитектуру

Получить список AC (т.е. названий последовательностей) можно из full.fasta

Получить список белков с доменной архитектур можно так. Перейти на Architectures, для нужной архитектуры Show all sequences with this architecture И скопировать открывающийся список. Пробовал = получается, если начать выделение с самого низа списка.

Способ SEARCH => Domain Archutecture ровно этот же список и открывает. Лучшего не нашёл.

В полученном текстовом файле AC белоков стоят в первой колонке.

1.4 Постройте выравнивание последовательностей с выбранной доменной архитектурой

Отберите нужные последовательности по имени из full.fasta. Можно использовать seqret из EMBOSS

Выровняйте как сумеете, можно в Jalview. Так далее в нем проводить ревизию.

1.5 Проведите ревизию выравнивания

Необходима экспертная ревизия этого выравнивания - удаление последовательностей, в принадлежности которых семейству есть сомнения; удаление повторяющихся последовательностей. Выборка - это выборка, она не должна содержать все белки семейства!

Два дела. Первое - для профиля двухдоменной архитектуры надо убрать участки - до начала первого домена после второго домена. Если они совсем короткие и консервативные, то может и оставить можно (?)

Границы доменов можно определять так. В выравнивании домена => alignments открыть или скачать выравнивание. В нем имена последовательностей включают координаты домена в полной последовательности. Таким образом, для одной или двух последовательностей можете найти границы доменов в последовательности в выравнивании (Jalview показывает номер а.к.о. в последовательности), и ориентироваться по ним и по виду выравнивания понять не ни грубой ошибки.

Второе дело - удалить некоторые последовательности. Во-первых, для честности - чтобы профиль был построен по части последовательностей а нашёл при проверке - все. Во-вторых, может на глаз видны какие-то подозрительные, плохо выровнявшиеся последовательности. Их можно удалить. Следует также удалить высокосходные последовательности - зачем такие, они будут только искажать веса. Используйте в Jalview => Edit => Remove redundancy, процент подбирайте самостоятельно.

1.5 Создайте HMM-профиль двух-доменной архитектуры

Для построения профиля используйте пакет HMMER. Он установлен на kodomo. Подсказка ко всем трём программам даётся опцией -h. Более подробную информацию можно получить, выполнив команду man hmm2build (аналогично с hmm2calibrate и hmm2search).

1) Постройте профиль программой hmm2build.

2) Откалибруйте профиль программой hmm2calibrate

1.6 Выполните поиск по HMM-профилю в файле с последовательностями всех белков с данным доменом

Не запускайте hmm2search без опции --cpu=1! По-умолчанию он занимает все ядра процессора, что не допустимо на учебном сервере. Если запускаете в непопулярное у других студентов время, то можете использовать 2 ядра, не больше.

— ИР

Поиск, как логоворились, в full.fasta файле

Выполните поиск по профилю командой hmm2search
Внесите результат в таблицу. В таблице должны быть колонки: "входит в семейство" т.е. имеет выбранную доменную архитектуру; "входит в выборку для построения профиля", "входит в список находок", "вес находки", "E-value" (интересна также "длина белка")

Программы пакета HMMER 2.3.2 (установлен на kodomo)


команда, вход, выход	что делает	полезные опции	комментарии
hmm2build <выходной файл с профилем> <входное выравнивание>	Делает профиль по выравниванию	-g <профиль для глобального выравнивания>	---
hmm2calibrate <файл с профилем>	добавляет в тот же файл-профиль строчку EDV с коэффициентами пересчета веса в нормализовнный	--num <число случайных последовательностей, default=5000>	Генерирует --num случайных последовательностей, строит выравнивание профиля с каждой, считает вес и рассчитывает коэффициенты пересчета
hmm2search <профиль> <файл с последовательностями>	находит домены в последовательностях	-domE <порог E-value для доменов> -domT <порог веса T для доменов> --cpu <число ядер процессора>

Выберите порог веса и оцените результат правила вашего правила: профиль + порог веса

Сравните список находок с исходной таблицей можно средствами Excel или Python.
Смотрите презентацию о том, как проверять работу профиля
Подберите порог веса (или Е-value) для предсказания того, что находка имеет нужную доменную архитектуру. Для этого
- (1) постройте распределение весов находок (сортировка по убыванию веса; график весов)
для каждого возможного порога - строчки в списке вычислите чувствительность и специфичность предсказания состоящего в том, что все строчки выше предсказываются имеющими нужную архитектуру доменов, ниже - не имеют.
Постройте т.н. ROC кривую. Здесь будет ссылка на презентацию с объяснением.
Подберите порог, дающий наименьшее значение параметра F1. Содержательно, этот параметр позволяет найти порог, при котором наиболее сбалансированы частоты ложно положительных и ложно отрицательных предсказаний. См презентацию.

Дополнительная информация

На kodomo, помимо пакета HMMER 2.3.2, установлен более новый пакет HMMER 3.0. Его программы отличаются отсутствием двойки в названии (например, hmmbuild вместо hmm2build). К сожалению, hmmbuild не принимает выравнивания в обычных форматах (fasta, aln, msf), поэтому с hmm2build работать проще. Впрочем, Jalview умеет сохранять выравнивания в стокгольмском формате, который hmmbuild понимает, поэтому можете работать с ним. Калибровка профиля в HMMER 3.0 не требуется.

В EMBOSS есть оболочка для пакета HMMER 2.3.2. Удобна тем, что стандартный EMBOSS интерфейс. Команды такие ehmmbuild и т.д.

Какие данные следует предъявить для проверки: A. Описание домена

Длину профиля HMM домена из Pfam

Страница семейства => Curation&model см. model length. Там же и профиль можно скачать.

Дополнительное задание

2. Постройте филогенетическое дерево для выбранного домена и проверьте образуют ли кладу в нем белки с выбранной доменной архитектурой

Предлагается построить филогенетическое дерево по последовательности выбранного домена только. Для этого предлагаю построить выравнивание последовательностей full.fasta Найти границы домена в нескольких последовательностях, как описано выше и удалить участки выравнивания до начала домена и после его конца.

В чём интерес задания. Можно предположить, что когда-то давно в эволюции выбранный домен соединился со вторым и им стало хорошо вдвоём в одной архитектуре. Значит, выбранный домен в составе архитектуры эволюционировал отдельно от других доменных архитектур с этим доменом. Следовательно, пути разошлись, подтверждением будет то, что на дереве домена домен из белков с выбранной архитектурой будет образовывать отдельную кладу.

А если не так? Надо соображать что могло произойти. Может, независимо объединение доменов произошло на разных ветвях эволюции?

2020/4/hints9 (последним исправлял пользователь aba 2022-04-07 17:28:31)

Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2020

Указания

1. Постройте HMM-профиль семейства белков и проверьте его работу

1.1 Выберите домен и доменную архитектуру, содержащую этот домен

1.2 Скачайте полные последовательности выборки full в формате fasta

1.3 Составьте таблицу c колонкой АС всех последовательностей full, отметьте какие имеют выбранную доменную архитектуру

1.4 Постройте выравнивание последовательностей с выбранной доменной архитектурой

1.5 Проведите ревизию выравнивания

1.5 Создайте HMM-профиль двух-доменной архитектуры

1.6 Выполните поиск по HMM-профилю в файле с последовательностями всех белков с данным доменом

Выберите порог веса и оцените результат правила вашего правила: профиль + порог веса

Дополнительная информация

Дополнительное задание

2. Постройте филогенетическое дерево для выбранного домена и проверьте образуют ли кладу в нем белки с выбранной доменной архитектурой

Kodomo

Пользователь

Учебная страница курса биоинформатики, год поступления 2020

Указания

1. Постройте HMM-профиль семейства белков и проверьте его работу

1.1 Выберите домен и доменную архитектуру, содержащую этот домен

1.2 Скачайте полные последовательности выборки full в формате fasta

1.3 Составьте таблицу c колонкой АС всех последовательностей full, отметьте какие имеют выбранную доменную архитектуру

1.4 Постройте выравнивание последовательностей с выбранной доменной архитектурой

1.5 Проведите ревизию выравнивания

1.5 Создайте HMM-профиль двух-доменной архитектуры

1.6 Выполните поиск по HMM-профилю в файле с последовательностями всех белков с данным доменом

Выберите порог веса и оцените результат правила вашего правила: профиль + порог веса

Дополнительная информация

Дополнительное задание

2. Постройте филогенетическое дерево для выбранного домена и проверьте образуют ли кладу в нем белки с выбранной доменной архитектурой

Учебная страница курса биоинформатики,
год поступления 2020