Учебная страница курса биоинформатики,
год поступления 2021
Задание
1. Консервативный мотив в выравнивании последовательностей гомологичных белков
Выберите домен из БД Pfam http://pfam-legacy.xfam.org/
- такой, что выравнивание seed содержит менее сотни последовательностей и больше десятка. Подсказки будут содержать информацию о том, как выбрать домен
- Скачайте выравнивание seed. Обнаружен глюк в download: fasta файл скачивается без переносов строк. Лечение - используйте view вместо download.
- Откройте выравнивание в Jalview и найдите один или несколько консервативных мотивов.
- Мотив может быть консервативным во всех последовательностях или в большей их части.
- Выберите для проверки один мотив, тот, который вам кажется имеющим наибольшее информационное содержание.
- Составьте паттерн, описывающий этот мотив.
- Выполните поиск по этому мотиву во всем выравнивании. Опишите и прокомментируйте результат.
Выполните поиск по этому мотиву в базе данных SwissProt на сайте MyHits https://myhits.sib.swiss/cgi-bin/pattern_search. Опишите результат.
- (*) Проверьте есть ли среди находок "правильные" т.е. из семейства белков с выбранным вами доменом.
- Кратко опишите результаты в отчёте на вашем сайте
2. В том же выравнивании найдите мотив, специфичный для одной клады филогенетического дерева
- Постройте в Jalview филогенетическое дерево, одним из методов NJ или UPGMA
- Выберите ветвь, отрезающую одну кладу.
- Отделите выравнивание этой клады в отдельное окно. Найдите консервативный мотив в этой кладе
- Выполните поиск этого мотива во всем выравнивании. Опишите результат. Идеально если этот мотив встречается во всех последовательностях клады и не встречается больше нигде в выравнивании
- Опишите результат и сделайте выбор.
3. PSI-BLAST
Автор С.А.С.
Для данной последовательности белка составьте семейство гомологов, пользуясь PSI-BLAST
Выберите случайный идентификатор (AC) из списка.
- Зайдите на страницу белкового BLAST в NCBI, внесите выбранный AC в окошко, выберите PSI-BLAST и поиск по банку Swiss-Prot.
После каждой итерации заполняйте строку таблицы.
- Желательный результат: стабилизация результата очередной итерации, т.е. список находок выше порога не поменялся по сравнению с предыдущей итерацией. Если не удалось стабилизировать результат, то выполните не менее пяти итераций.
- Качество результата также определяется "ступенькой" E-value между худшей "правильной" находкой и "лучшей" неправильной: чем больше разница, тем вероятнее, что находки составляют семейство гомологичных белков.
- При необходимости можно изменить порог E-value отсечения хороших находок (E=0.005 по умолчанию).
В отчёте приведите: выбранное AC, что это за белок (организм, функция), таблицу итераций, комментарии (сошлось/не сошлось, если нет, то почему, если да, то хорошее ли семейство и т.п.)
4. Проверьте гипотезу о том, что число TA в геноме меньше ожидаемого по статистике
Материал: хромосома "вашей" бактерии. Достаточно одной, но если интересно проверьте для каждого репликона генома
Метод: ожидаемое число слов TA оцените как
- (число нуклеотидов в хромосоме) x (частота A в хромосоме) x (частота T в хромосоме)
- иную оценку придумать сложно
- (число нуклеотидов в хромосоме) x (частота A в хромосоме) x (частота T в хромосоме)
В ответе: штамм, хромосома и её длина. Ожидаемое число слов TA, наблюдаемое и контраст - отношение наблюдаемого к ожидаемому. Достоверность отличия - если умеете её считать. Краткий вывод.
тчёт по этому заданию выкладывается на сайт со ссылкой со страницы семестра. Срок без потери баллов — 31 марта 2023. Срок со штрафом 0,5 балла — 7 апреля 2021.