Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2019

Задания по BLAST

Отчёт – страница со ссылкой со страницы семестра. Мягкий дедлайн – начало следующего занятия (11 утра 27 октября), жесткий дедлайн – 11 утра 3 ноября.

Отчет должен быть понятен человеку, который не видел заданий, но достаточно разбирается в теме (знает про геном и виды BLAST). Логика, связность и понятность текста тоже будут оцениваться.

1. Определение функции и таксономии нуклеотидной последовательности

Задача: предположить (с обоснованием) функцию нуклеотидной последовательности, полученной вами при расшифровке хроматограммы, и таксономическое положение организма, геному которого она принадлежит. Выбор варианта BLAST тоже нужно обосновать.

В отчете обязательно должны присутствовать (в любом порядке): вывод о функции последовательности и его обоснование, вывод о таксономическом положении организма и его обоснование, все минимально необходимые материалы для воспроизведения результатов (параметры запуска BLAST, выдача, может быть какие-то выравнивания). "Лучшая находка принадлежит золотой рыбке" – не вывод о таксономии, а просто факт. "Исследуемая последовательность, вероятно, принадлежит золотой рыбке" – приемлемый вывод.

Подумайте, (i) какой вариант алгоритма BLAST использовать и в какой базе данных искать; (ii) какие находки и сколько достаточно для аннотации; (iii) к какому уровню таксономии – виду, роду, семейству, ... – возможно отнесение находки.

Для определения уровня таксономии стоит посмотреть, сколько замен характерно для представителей вида (рода, семейства, ...) на данном участке. Выравнивания можно построить из скачанных aligned sequences (ищите на странице с результатом), предварительно отметив те несколько, которые вам интересны.

2. Поиск генов белков в неаннотированной нуклеотидной последовательности

Источник нуклеотидной последовательности: один контиг (или скэффолд, не важно) длины порядка десятков тысяч пар нуклеотидов в формате fasta. Выбираете самостоятельно. Можно выбрать контиг из сборки эукариотического организма, которую вы описывали в предыдущем практикуме

Задача. Среди найденных генов выберите один и предскажите функцию белка. Едва ли получится найти точные границы гена, но это и не требуется. Если очевидно, что в контиг попал только фрагмент гена, можно попробовать поискать оставшуюся часть в других контигах (и, возможно, получить за это бонусные баллы).

Метод: BLAST. Требование: при поиске исключить таксон (род или вид или штамм) к которому принадлежит организм, из которого получена нуклеотидная последовательность.

В отчете обязательно нужно привести ссылку

  1. на последовательность контига, в котором производился поиск,
  2. обоснование выбора варианта BLAST, базы и параметров поиска,
  3. выдачу BLAST,
  4. вывод о функции гена белка и обоснование этого вывода.

Не усложняйте себе жизнь: не берите слишком длинные контиги (замучаетесь ждать BLAST) и не пытайтесь выжать вывод из плохих данных – если в контиге нет хороших находок, возьмите другой контиг!

Прошу обратить внимание на следующее:

  1. ген белка не обязан полностью уместиться на одном контиге. Но если найдена только часть гена, то об этом обязательно надо написать в отчете.
  2. Белки часто бывают многодоменными, а наличие гомологичного домена не всегда говорит о гомологии белков. Поэтому либо убедитесь, что ген нашелся (почти) целиком, либо отразите ваши сомнения в выводе о функции белка.

3. Интепретация карты локального сходства гомологичных хромосом двух бактерий

Задача: построить карту локального сходства хромосом двух близких бактерий и описать крупные геномные перестройки, которые эта карта позволяет обнаружить.

Выберите две бактерии одного рода (но разных видов!), для которых доступны полные геномы, собранные до хромосом. В случае геномов, состоящих из более одной хромосомы (такое встречается у бактерий) выберите по одной хромосоме. Постройте их карту локального сходства с помощью подходящего варианта BLAST. В отчёте приведите изображение карты и описание наиболее заметных перестроек, отличающих хромосому одной бактерии от другого.

Важно подобрать пару, для которой есть что описывать! Если геномы практически идентичны, возьмите другие бактерии. Кроме того, на карте не должно быть слишком много мусора, зато должны быть хорошо видны все участки гомологии. Это достигается выставлением разумного порога на E-value находок, поэкспериментируйте, прежде чем писать отчет.

Дополнительные задания

Дополнительные задания оцениваются строже, чем обязательные. Призываю не пытаться сделать "что-нибудь" для получения дополнительных баллов. Если беретесь – делайте качественно. Недоделки и халтура оцениваться не будут.

4* Сравнение видов нуклеотидного BLAST

Задача: оценить чувствительность и специфичность разных вариантов blastn. Один из вариантов – megablast, второй – blastn с параметрами по умолчанию, третий – blastn с более чувствительными параметрами. Произведите сравнение два раза, один раз с последовательностью из задания 1, второй раз с одним из CDS вируса из предыдущего практикума.

Для оценки чувствительности и специфичности вам потребуется набор последовательностей, для каждой из которых вы заранее решите, гомологична ли она исследуемой последовательности, или скорее всего нет. Проще всего будет составить этот набор по ходу сравнения: запустите все три варианта BLAST и отберите из выдачи нужные последовательности. Для каждой из этих последовательностей определитесь с гомологичностью (по параметрам находки и, возможно, каким-то дополнительным данным). Теперь, имея такую общую тестовую выборку, вы можете вычислить TP, TN, FP, FN и оценить чувствительность и специфичность. Советую освежить практикум из первого семестра, в котором вы строили ROC-кривую.

Основная часть работы – получение хорошей тестовой выборки. Она не должна быть слишком маленькой или слишком большой. Хорошо, если она будет сбалансированной (т.е. в ней будет примерно поровну гомологичных и негомологичных последовательностей). Для того, чтобы не заблудиться в выдаче BLAST, советую хорошо подобрать базу и ограничить область поиска путем включения или исключения таксонов. Например, имеет смысл исключить из выдачи совсем близкие последовательности. Но может иметь смысл и ограничение области поиска одним из таксонов высокого уровня, к которому принадлежит исходная последовательность. Проследить гомологичность эукариотического белка и белка из бактерии бывает довольно трудно.

Для получения более чувствительного BLAST проще всего изменить длину слова. Экспериментировать с параметрами вычисления веса выравнивания можно, но я не советую, их изменение довольно сложно интепретировать.

Основным результатом работы должно быть именно сравнение видов BLAST. Не достаточно написать, что у megablast чувствительность 10% в первом случае и 25% во втором. Надо, в частности, написать, какой вариант оказался более чувствительным/специфичным, и чем вы это можете объяснить.

— ИР