Учебная страница курса биоинформатики,
год поступления 2014
Нуклеотидный blast
Deadline для выполнения задания 4 перенесен на неделю, до 3 нояб. ААл
Часть 1
1. Определите таксономию и функцию данной нуклеотидной последовательности
Это 4-е задание из 7-го практикума
2. Сравните списки находок нуклеотидной последовательности 3-я разными алгоритмами blast
- Последовательность - из практикума 7
- В зависимости от находок blastn (4-е задание практ.7) ограничьте область поиска подходящим таксоном.
- Вариант - выберите другой вид того же рода, что и лучшая находка
- Если почему-либо не получается подумайте как изменить область поиска; не могу предусмотреть все варианты(((
- Что хочется от области поиска:
- находок blastn от 10 до 1000
- сходство находок заметно разное (плохой вариант - все находки со сходством 99%; хороший - от 100% до 85%)
Позаботьтесь чтобы результаты поиска не содержали ровно 100 находок любым алгоритмом! (см. Algorithm parameters)
- Поиск по-очереди тремя алгоритмами: blastn, megablast, discontiguous megablast, все остальные параметры должны быть одинаковыми!
- В отчёт включите
- область поиска, ссылку на последовательность
- для каждого алгоритма:
- число находок,
- E-value и сходство для худших находок,
примеры (>=2) находок одного алгоритма, не найденных другими, объяснение почему не найдены
- заключение
- скриншот страницы находок (или части страницы) желателен; однако рисунок - не самоцель, а способ продемонстрировать какую-либо мысль
- (*) ДОПОЛНИТЕЛЬНО можно проанализировать результаты в зависимости от изменения параметров, таких как размер слова, веса за совпадение/несовпадение и за гэпы
3. Проверьте наличие гомологов пяти белков в геноме одного из организмов
Достаточно выполнить одно из заданий: 3.1 (более простое) или 3.2 (более сложное)
- В отчете приведите для каждого из белков
- название, краткое описание функции,
- число хороших (т.е. предположительно, свидетельствующих о гомологии) находок в геноме,
- параметры лучшей находки (в какой записи, процент идентичных позиций, покрытие входной последовательности)
- если белок не найден, то ваши соображения о том, почему их нет
- если нашлось больше одного вероятного гомолога, то чем это можно объяснить
- для иллюстрации выводов по находкам полезно привести выдачу blast (но не ссылку на сайт NCBI, т.к. такая ссылка не вечна)
- заключение по находке
- (*) ДПОЛНИТЕЛЬНО (для 3.1.): проверьте аннотирована ли в генома лучшая находка
3.1. Организм из задания 1 практикума 7; белки: HSP7C_HUMAN, TERT_HUMAN, CISY_HUMAN, RPB1_HUMAN, PABP2_HUMAN.
- Используйте поиск в нуклеотидном банке, т.е. геноме вашего организма (см. подсказки)
3.2. Организм X5 (Amoboaphelidium), сборка генома X5 лежит на диске P: в директории y14/term3/block2/pr8; белки выбираете на свое усмотрение из тех, которые, по вашему мнению, должны быть почти у всех эукариот
- Используйте поиск белковой последовательности против трансляции нуклеотидного банка данных в шести рамках - standalone blast
Часть 2
4. Классифицируйте геномы родственных вирусов по сходству последовательностей
- Выберите вирус (например, тот, который был у вас в первом семестре)
- Сохраните пять полных геномов того же вида и/или рода вирусов
- См. подсказки
- Сравните геномы с помощью tblastn: на вход - все последовательности, поиск в blast БД тех же последовательностей, формат - табличный (-outfmt 7 - с заголовками; -outfmt 8 - без заголовков; удобнее 8, а потом вставить заголовки из запуска 7 для одной посл-ти)
- В отчет включите
- ссылку на файл Excel с результатами blast (после "прочистки" скриптом, см. подсказки
- выводы по результатам сравнения геномов
Поскольку я не знаю как оценивать сходство двух геномов вирусов, то принимается любой способ. Например,
- по максимальному проценту сходства двух трансляций (не очень хороший способ)
- по среднему проценту сходства всех трансляций (не очень хороший способ)
- по суммарной длине сходных пбелковых последовательностей (не очень хороший способ)
- ну, изобретите еще что-нибудь, пожалуйста!
Открою секрет: никто не знает толком как сравнивать вирусные геномы из-за их быстрой эволюции и частых потерь и приобретений новых генов
В процессе ...