Учебная страница курса биоинформатики,
год поступления 2016
Программные средства программы пакета HMMER 2.3.2 (установлен на kodomo).
команда, вход, выход |
что делает |
полезные опции |
комментарии |
hmm2build <выходной файл с профилем> <входное выравнивание> |
Делает профиль по выравниванию |
-g <профиль для глобального выравнивания> |
--- |
hmm2calibrate <файл с профилем> |
добавляет в тот же файл-профиль строчку EDV с коэффициентами пересчета веса в нормализовнный |
--num <число случайных последовательностей, default=5000> |
Генерирует --num случайных последовательностей, строит выравнивание профиля с каждой, считает вес и рассчитывает коэффициенты пересчета |
hmm2search <профиль> <файл с последовательностями> |
находит домены в последовательностях |
-domE <порог E-value для доменов> -domT <порог веса T для доменов> |
На kodomo установлен также более новый пакет HMMER 3.0. Его программы отличаются отсутствием двойки в названии (например, hmmbuild вместо hmm2build). К сожалению, hmmbuild не принимает выравнивания в обычных форматах (fasta, aln, msf), поэтому с hmm2build работать проще. Впрочем, Jalview умеет сохранять выравнивания в стокгольмском формате, который hmmbuild понимает, поэтому можете работать с ним. Калибровка профиля в HMMER 3.0 не требуется.
БД SwissProt лежит на kodomo в файле /srv/databases/emboss/data/uniprot/uniprot_sprot.fasta
Задание 1. Определение целевого семейства
- Профиль строится для домена; у нас это будет домен из Pfam. Либо тот, для которого вы делали паттерн; либо тот, который вы выбрали в практикуме 7. Однако (чтобы не повторять работу, которая выполнена экспертами БД Pfam - из которой HMM профиль любого домена можно скачать) вы наложите дополнительные условия. Например:
Профиль должен находить не все домены, а только домены в определенном таксоне; в практикуме 6, кажется, такой таксон - протеобактерии. Это разумно, если домен в протеобактериях эволюционировал преимущественно вертикально. Если профиль получился хороший, то отдельные находки в других таксонах подозрительны на горизонтальный перенос
- Профиль должен находить только домены в белках с определенной доменной архитектурой. При выполнении задания 7 вы увидите - разумно ли это в вашем случае!
- Можно комбинировать условия на таксономию и доменную архитектуру, если сочтете это разумным! Типа: "семейство состоит из белков с такой-то доменной архитектурой среди цианобактерий"
- Примеры. Пусть взят домен PFXXXXX
- "выборка состоит их доменов PFXXXXX белков c 1й доменной архитектурой"
- "выборка состоит из доменов PFXXXXX белков грибов со 2й доменной архитектурой"
- "выборка состоит из доменов PFXXXXX у представителей бета-протеобактерий"
- Еще вариант - сделать профили для белков с двух (или более) доменной архитектурой, включив в исходной выравнивание фрагменты последовательностей, включающие оба домена. Таких профилей в Pfam нет, а может оказаться, что они работают лучше, чем пара профилей для отдельных доменов.
Задание 1. Составление списка белков целевого семейства из `SwissProt`
- Используйте advanсed search в Uniprot
в запросе укажите название домена Pfam, таксона (если надо) и БД SwissProt. Должен получиться запрос вида:
database:(type:pfam id:PF01267) taxonomy:"Mammalia [40674]" AND reviewed:yes В advanсed search Pfam выбирается в меню crossreferences
- Отредактируйте колонки выходной таблицы (columns) так, чтобы в ней были
- ID записи (Entry_name)
- Fragments
- Protein length
- Protein_name
- таксономия нужного уровня (меню taxonomic lineage,не берите "all", а выбирате kingdom, phylum или что еще нужно
все домены Pfam (меню Family and domain/, в нем Pfam; Family&Domains не годится )
- Save
- Download - надежнее - в формате tab-separated.
- Сохраненных данных, наверное, хватит, чтобы отобрать из полученной таблицы последовательности, принадлежащие целевому семейству.
Задание 2. Постройте и откалибруйте профиль домена
- Профиль строится по небольшому выравниванию (то, что называется выравнивание seed в Pfam) - 15-30 посл. в выравнивании достаточно, можно и побольше посл-й.
- Проверьте выравнивание глазками. Конечно, очевидный "мусор" - фрагменты, подозрительные последовательности, стоит удалить из него. Хорошо, если в выравнивании представлены разнообразные последовательности из того семейства, которое вы определеили. Если все 20 последовательностей из штаммов одного вида, то вряд ли построенным профилем вы сумеете отличить последовательности крупного таксона (протеобактерий, например) от всех отальных.
- постройте профиль(hmm2build). Используйте опцию -g чтобы профиль был приспособлен к построению глобального выравнивания с последовательностью и не ловил бы фрагменты
- откалибруйте его (hmm2calibrate).
Задание 3. Получите результаты поиска по профилю по `SwissProt`
- Используйте hmm2search для поиска по uniprot_sprot.fasta (адрес см. выше). Поиск займет на kodomo минут 5-10, но зависит от загрузки сервера. Результаты выдаются в Stdout, так что перенаправьте их сразу в файл.
- Результат состоит из
- списка параметров запуска
таблицы найденных последовательностей
- таблицы найденных доменов; она может частично отличаться от таблицы последовательностей потому, что в одной последовательности может быть два домена из семейства
- Выравниваний находок относительно профиля (показан консенсус профиля)Можно отключить опцией -A 0
- Гистограммы весов находок
- Вам будет нужна таблица найденных доменов. В ней указаны ID последовательности, координаты выравненного участка в последовательности и в профиле, E-value, вес T.
Есть одно но. По умолчанию отбираются находки с E-value < 10. Получится, что большинство находок правильные, всего несколько штук - возможно, неправильные. Для подбора порога надо чтобы неправильных тоже было много - сравнимо с числом правильных. Поэтому уберите порог E-value для доменов. Например так: --domE 1000 (т.е. порог по E равен 1000). Снизьте порог для веса, повторите поиск и посмотрите появилось ли достаточное число неправильных находок. Например, так --domT -50.
- Импортируйте итоговую таблицу доменов в Excel и отметьте в ней правильные находки из результатов задания 1.(Excel,Лист 2)
Задание 3. Выберите порог нормализованного веса для находок с помощью профиля
- Постройте гистограмму весов всех находок. Можно отсортировать по убыванию веса, и построить диаграмму по полученной колонке - без карманов. О вероятном пороге скажет ступенька на этой диаграмме, см презентацию ААл к практикуму 7, последние слайды - о ступеньке на такой гистограмме.
- Постройте PR-кривую или ROC-кривую. См. как их строить в презентации А.Ершовой к практикуму 8.
- Напишите итоговое правило определения принадлежит ли последовательность целевому семейству. Представьте результаты проверки профиля с выбранным порогом.
UNDER CONSTRUCTION!