Учебная страница курса биоинформатики,
год поступления 2018
1. Ответьте на вопросы теста по мотивам
Тест закрыт. ААл
2. [До 23:59 3го апреля] Составьте список белков Uniprot с заданным составом доменов Pfam
- Выберите домен Pfam для работы и доменную архитектуру состоящую из двух доменов, выбранного и еще одного. Требования:
- Домен представлен у бактерий
Домен входит в какую-нибудь двухдоменную архитектуру. Такая архитектура встречается более, чем у 60 белков. Желательно, чтобы таких белков было << 1000
- Составьте таблицу с информацией о всех бактериальных белках с выбранной доменной архитектурой и сохраните её в Excel (или в google sheet). Информация должна включать: protein name, length, домены Pfam, organism, phylum (т.е. отдел), family, genus
- (*) Определите интервал типичных длин белков от - до (мода на гистограмме длин)
- (*) Составьте выборку из 40 – 60 последовательностей характерной длины. Чтобы получить представительную выборку, из нескольких семейств выбирайте по несколько последовательностей, принадлежащих разным родам.
Результат должен включать:
- ID, AC,название и число последовательностей среди бактерий для каждого из двух доменов
- Выбранную доменную архитектуру (картинку или текстовое описание) и число последовательностей с ней по данным Pfam
- Ссылку на электронную таблицу со списком последовательностей. Если выполнены c. и d. то в таблице должна быть колонка selected.
3. Постройте hmm профиль семейства белков с выбранной архитектурой и проверьте его работу
Следуйте указаниям
- =c. и d. из задания 2 b. Скачайте, выровняйте последовательности выборки и проведите ревизию выравнивания с. Постройте HMM профиль выравнивания, калибруйте его. d. Проверьте работу профиля.
- Скачайте последовательности Uniprot в формате .fasta, содержащие ОДИН домен из двух в вашей доменной архитектуре
- Найдите среди скачанных последовательностей последовательности с выбранной вами доменной архитектурой
- Сравните результат с таблицей из задания 2.
Что должно быть представлено для проверки по HMM профилю
- Таблица белков с выбранной доменной архитектурой
- Указание выбранного интервала характерных длин и гистограмма длин.
Некоторые студенты выбирали интервалы пользуясь функциями КВАРТИЛЬ() и МОДА() без гистограмм. Я засчитывал, хотя это неправильно. Глазам виднее!
Советую показать гистограмму на веб-странице, т.к. некоторые гистограммы из присланного .xlsx файла не открывались у меня.То ли неудачная конвертация из LibrOffice, то ли конфликт версий
Список выборки. При проверке выборки мне интересны длины, составы доменов, таксономия
- Выравнивание последовательностей выборки
- Команда построения профиля и HMM профиль после калибровки как файл.
- Критерий отбора множества последовательностей для проверки (какой домен, сколько последовательностей)
- Команда поиска.
- Таблица с результатами поиска по профилю и колонкой с отметкой совпадает ли доменная архитектура с выбранной. И колонки чувствительность при данном пороге и единица минус специфичность.
- ROC кривая
- Распределение весов находок (для визуализации ступеньки веса)
- Выбранный вами порог для предсказания выбранной архитектуры и таблица 2х2 предсказание против "истины"
- Обсуждение
Что на веб-странице, что по ссылкам в файлах выбирайте самостоятельно
Дополнительное задание
Делать не обязательно!!!
4. Сравните филогенетические деревья двух доменов Из выбранной доменной архитектуры
Указания еще не готовы.
[ Тест ]