Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2020

Задания по BLAST

Отчёт – страница со ссылкой со страницы семестра. Мягкий дедлайн – 23:59 2 ноября, жесткий дедлайн – 01:00 9 ноября. После мягкого дедлайна штраф 0.5 балла, после жесткого – 2 балла.

1. Определение функции и таксономии нуклеотидной последовательности

Задача: предположить (с обоснованием) функцию нуклеотидной последовательности, полученной вами при расшифровке хроматограммы, и таксономическое положение организма, геному которого она принадлежит. Выбор варианта BLAST тоже нужно обосновать.

В отчете обязательно должны присутствовать (в любом порядке): вывод о функции последовательности и его обоснование, вывод о таксономическом положении организма и его обоснование, все минимально необходимые материалы для воспроизведения результатов (параметры запуска BLAST, выдача, может быть какие-то выравнивания). "Лучшая находка принадлежит золотой рыбке" – не вывод о таксономии, а просто факт. "Исследуемая последовательность, вероятно, принадлежит золотой рыбке" – приемлемый вывод.

Подумайте, (i) какой вариант алгоритма BLAST использовать и в какой базе данных искать; (ii) какие находки и сколько достаточно для аннотации; (iii) к какому уровню таксономии – виду, роду, семейству, ... – возможно отнесение находки.

Для определения уровня таксономии стоит посмотреть, сколько замен характерно для представителей вида (рода, семейства, ...) на данном участке. Выравнивания можно построить из скачанных aligned sequences (ищите на странице с результатом), предварительно отметив те несколько, которые вам интересны.

2. Поиск генов белков в неаннотированной нуклеотидной последовательности

Источник нуклеотидной последовательности: один контиг (или скэффолд, не важно) длины порядка десятков тысяч пар нуклеотидов в формате fasta. Выбираете самостоятельно. Можно выбрать контиг из сборки эукариотического организма, которую вы описывали в предыдущем практикуме.

Задача: cреди найденных генов выберите один и предскажите функцию белка. Едва ли получится найти точные границы гена, но это и не требуется. Если очевидно, что в контиг попал только фрагмент гена, можно попробовать поискать оставшуюся часть в других контигах (и, возможно, получить за это бонусные баллы).

Метод: BLAST. Требование: при поиске исключить таксон (род, или вид, или штамм) к которому принадлежит организм, из которого получена нуклеотидная последовательность.

В отчете обязательно нужно привести ссылку

  1. на последовательность контига, в котором производился поиск,
  2. обоснование выбора варианта BLAST, базы и параметров поиска,
  3. выдачу BLAST,
  4. вывод о функции гена белка и обоснование этого вывода.

Не усложняйте себе жизнь: не берите слишком длинные контиги (замучаетесь ждать BLAST) и не пытайтесь выжать вывод из плохих данных – если в контиге нет хороших находок, возьмите другой контиг!

Прошу обратить внимание на следующее:

  1. ген белка не обязан полностью уместиться на одном контиге. Но если найдена только часть гена, то об этом обязательно надо написать в отчете.
  2. Белки часто бывают многодоменными, а наличие гомологичного домена не всегда говорит о гомологии белков. Поэтому либо убедитесь, что ген нашелся (почти) целиком, либо отразите ваши сомнения в выводе о функции белка.

3. Интепретация карты локального сходства гомологичных хромосом двух бактерий

Задача: построить карту локального сходства хромосом двух близких бактерий и описать крупные геномные перестройки, которые эта карта позволяет обнаружить.

Выберите две бактерии одного рода (но разных видов!), для которых доступны полные геномы, собранные до хромосом. В случае геномов, состоящих из более одной хромосомы (такое встречается у бактерий) выберите по одной хромосоме. Постройте их карту локального сходства с помощью подходящего варианта BLAST. В отчёте приведите изображение карты и описание наиболее заметных перестроек, отличающих хромосому одной бактерии от другого.

Важно подобрать пару, для которой есть что описывать! Если геномы практически идентичны, возьмите другие бактерии. Кроме того, на карте не должно быть слишком много мусора, зато должны быть хорошо видны все участки гомологии. Это достигается выставлением разумного порога на E-value находок, поэкспериментируйте, прежде чем писать отчет.

2020/3/pr8 (последним исправлял пользователь is_rusinov 2021-10-27 06:41:31)