Учебный сайт Ивановой Софьи | ||||||
Главная | 1 семестр | 2 семестр | 3 семестр | Ссылки | Обо мне | Контакты |
Практикум 8. Нуклеотидный blast Задание 2. Сравнение списков находок, полученных 3-я разными алгоритмами blast: blastn, megablast и discontiguous megablast. Три алгоритма blast - blastn, megablast и discontiguous megablast - оптимизированы для поиска в разных условиях. Blastn ищет все последовательности, хоть в чем-то схожие с данной, megablast - очень похожие последовательности, discontiguous megablast - похожие, но не очень сильно. Последовательность нужно было взять из практикума 7. Скачать данную последовательность в формате fasta Требовалось в зависимости от находок blastn (4-е задание практ.7) ограничить область поиска подходящим таксоном. Вначале я попробовала запустить blastn с ограничением области поиска надотрядом Eumalacostraca - самым низким таксоном, который мне удалось установить для данной последовательности в предыдущем практикуме. Было выдано 2472 находки. В задании требовалось подобрать условия таким образом, чтобы находок было 10-1000, поэтому я изменила условия. Рис. 1 Результаты работы blastn по поиску данной последовательности с ограничением области поиска надотрядом Eumalacostraca Далее я пробовала искать внутри таксонов Eucarida (2088 находок), Decapoda (2084 находок), Dendrobranchiata (46 находок). Я решила остановиться на поиске внутри Dendrobranchiata. Я запустила поиск по данной последовательности и с данным ограничением в blastn, megablast и discontiguous megablast. Результаты: Все достоверные находки - это части гена гистона 3. Рис. 2 Результаты работы blastn, megablast и discontiguous megablast по поиску данной последовательности с ограничением области поиска надотрядом Dendrobranchiata Blastn нашел 27 последовательностей с E-value < e-4 и query cover > 75%. Оставшиеся находки явно не представляют интереса, поскольку имеют query cover <= 5%. Рис. 3 Худшие находки blastn. Поиск данной последовательности с ограничением области поиска надотрядом Dendrobranchiata. Список достоверных находок blastn совпадает с выдачей discontiguous megablast, который содержит только достоверные находки. Выдача megablast содержт 21 результат, все находки достоверные. При этом этих достоверных находок на 6 меньше, чем в выдаче discontiguous megablast. Отсутствует, например, находка Hymenopenaeus debilis voucher KC4444/ULLZ8531 histone 3 gene, partial sequence; Score = 401, E-value = 3e-112, Identity = 88%. Алгоритм megablast не нашел несколько хороших последовательностей из-за того, что оптимизирован для поиска очень похожих последовательностей, поэтому может упускать не очень похожие. Blastn, наоборот, нашел много лишнего. Можно заключить, что в данных условиях поиска оптимальным алгоритмом является discontiguous megablast. Это и понятно, ведь мы искали один и тот же ген у организмов внутри одного подотряда.
Задание 3. Проверить наличие гомологов пяти белков в геноме одного из организмов Задание 3.1 Требовалось взять организм из задания 1 практикума 7 - это Apis mellifera - и проверить наличие у него гомологов следующих пяти белков: HSP7C_HUMAN, TERT_HUMAN, CISY_HUMAN, RPB1_HUMAN, PABP2_HUMAN. Для выполнения задачи использовался tblastn, то есть поиск белка в базе транслированных в 6-ти рамках нуклеотидных последовательностей. Область посика была ограничена организмом Apis mellifera. Вначале для каждого белка была найдена запись в Uniprot, сохранены их AC и fasta-последовательности. Затем проведен поиск с помощью tblastn. На вход blast подавался AC белка. Результаты: Рис.4 Результаты поиска гомологов пяти белков.
Задание 4. Классифицировать геномы родственных вирусов по сходству последовательностей
Для вируса Pea enation mosaic virus-2 были найдены родственники. Это было сделано с помощью сайта http://www.ictvonline.org/, посвященного таксономии вирусов. Страница с таксономией выбранной группы вирусов Были выбраны следующие вирусы: Pea enation mosaic virus-2, Carrot mottle virus, Tobacco bushy top virus , Velvet tobacco mottle virus, Groundnut rosette virus, Carrot mottle mimic virus. Их полные геномы были скачаны и сохранены в одном файле viruses.fasta. Далее я работала в локальном blast. 1) Создала базу данных: makeblastdb -in viruses.fasta -dbtype nucl 2) Запустила tblastn. 3) Несколько раз запустила скрипт с разными параметрами, получила таблицы. 4) Обработала эти таблицы в Excel. Финальный файл с обработанной выдачей tblastx всех против всех + матрицы сравнений геномов Я решила анализировать результат работы скрипта с такими параметрами: min aln_len =100, min identity =25, max e-value =0.0001. Так отсеялись недостоверные находки, находки "сам-против-себя" и слишком короткие последовательности. Таблицы я выровняла по query_id, затем по subject_id, получила блоки находок для двух геномов. Для этих блоков я создала матрицы значений некоторых параметров: суммы Identity*aling_len/1000 (как характеристики числа совпадающих позиций) среднего процента сходства всех трансляций (средней identity) максимальной длины сходных белковых последовательностей (суммарной aln_len) Рис.5 Матрицы некоторых параметров сходства геномов данных вирусов Из общей таблицы сразу видно, что достоверных находок последовательностей из генома Velvet tobacco mottle virus (NC_014509.2) против геномов других вирусов нет. В необработанной выдаче blast (см. соответствующий лист excel-файла) находки последовательностей NC_014509.2 относительно других геномов присутствуют, но недостоверные (слишком короткие случайные последовательности). В выдаче, обработанной скриптом, находок из NC_014509.2 нет. Их отсутствие свидетельствует о том, что Velvet tobacco mottle virus, по-видимому, не родственен остальным пяти вирусам. Это очень странно, поскольку я брала вирусы одной таксономической группы (Umbraviruses) опираясь на данные сайта http://www.ictvonline.org/. Почему так - вопрос остается открытым. Пришлось изъять Velvet tobacco mottle virus из дальнейшего изучения сходства геномов. Далее я анализировала оставшиеся 5 геномов. Мне показался наиболее инфомативным параметр суммы Identity*aling_len/1000, условно отражающий количество совпадающих позиций в геноме. Надо сказать, что сходство геномов исходя из этого параметра близко к таковому, исходя из максимальной длины сходных белковых последовательностей. Чтобы приблизительно классифицировать геномы по сходству, я построила дерево геномов исходя из матрицы значений параметра суммы Identity*aling_len/1000, пользуясь алгоритмом невзвешенного попарного среднего (UPGMA). Последовательные стадии построения дерева приведены в excel-файла на листе UPGMA. Результат: Рис.6 Дерево, характеризующее сходство геномов данных вирусов Итоговые результаты: 1) Не выявлено гомологии генома Velvet tobacco mottle virus геномам других пяти вирусов (Pea enation mosaic virus-2, Carrot mottle virus, Tobacco bushy top virus, Groundnut rosette virus, Carrot mottle mimic virus). 2) Геномы этих пяти вирусов гомологичны и в разной степени сходны между собой. 3) По грубой оценке (по условному количеству совпадающих позиций в геноме) более всего схожи между собой пары Carrot mottle virus и Carrot mottle mimic virus, Tobacco bushy top virus и Groundnut rosette virus. 4) Pea enation mosaic virus-2 больше похож на Tobacco bushy top virus и Groundnut rosette virus, чем на Carrot mottle virus и Carrot mottle mimic virus.
|