Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2018

1. Ответьте на вопросы теста по мотивам

Тест закрыт. ААл

2. [До 23:59 3го апреля] Составьте список белков Uniprot с заданным составом доменов Pfam

  1. Выберите домен Pfam для работы и доменную архитектуру состоящую из двух доменов, выбранного и еще одного. Требования:
    1. Домен представлен у бактерий
    2. Домен входит в какую-нибудь двухдоменную архитектуру. Такая архитектура встречается более, чем у 60 белков. Желательно, чтобы таких белков было << 1000

  2. Составьте таблицу с информацией о всех бактериальных белках с выбранной доменной архитектурой и сохраните её в Excel (или в google sheet). Информация должна включать: protein name, length, домены Pfam, organism, phylum (т.е. отдел), family, genus
  3. (*) Определите интервал типичных длин белков от - до (мода на гистограмме длин)
  4. (*) Составьте выборку из 40 – 60 последовательностей характерной длины. Чтобы получить представительную выборку, из нескольких семейств выбирайте по несколько последовательностей, принадлежащих разным родам.

Результат должен включать:

3. Постройте hmm профиль семейства белков с выбранной архитектурой и проверьте его работу

Следуйте указаниям

  1. =c. и d. из задания 2 b. Скачайте, выровняйте последовательности выборки и проведите ревизию выравнивания с. Постройте HMM профиль выравнивания, калибруйте его. d. Проверьте работу профиля.
    • Скачайте последовательности Uniprot в формате .fasta, содержащие ОДИН домен из двух в вашей доменной архитектуре
    • Найдите среди скачанных последовательностей последовательности с выбранной вами доменной архитектурой
    • Сравните результат с таблицей из задания 2.
    e. Напишите отчет о полученных результатах

Что должно быть представлено для проверки по HMM профилю

  1. Таблица белков с выбранной доменной архитектурой
  2. Указание выбранного интервала характерных длин и гистограмма длин.

    Некоторые студенты выбирали интервалы пользуясь функциями КВАРТИЛЬ() и МОДА() без гистограмм. Я засчитывал, хотя это неправильно. Глазам виднее!

    • Советую показать гистограмму на веб-странице, т.к. некоторые гистограммы из присланного .xlsx файла не открывались у меня.То ли неудачная конвертация из LibrOffice, то ли конфликт версий

  3. Список выборки. При проверке выборки мне интересны длины, составы доменов, таксономия

  4. Выравнивание последовательностей выборки
  5. Команда построения профиля и HMM профиль после калибровки как файл.
  6. Критерий отбора множества последовательностей для проверки (какой домен, сколько последовательностей)
  7. Команда поиска.
  8. Таблица с результатами поиска по профилю и колонкой с отметкой совпадает ли доменная архитектура с выбранной. И колонки чувствительность при данном пороге и единица минус специфичность.
  9. ROC кривая
  10. Распределение весов находок (для визуализации ступеньки веса)
  11. Выбранный вами порог для предсказания выбранной архитектуры и таблица 2х2 предсказание против "истины"
  12. Обсуждение

Что на веб-странице, что по ссылкам в файлах выбирайте самостоятельно

Дополнительное задание

Делать не обязательно!!!

4. Сравните филогенетические деревья двух доменов Из выбранной доменной архитектуры

Указания еще не готовы.