|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Определение таксономии и функций нуклеотидной последовательности Это задание уже было выложено ранее в практикуме "Чтение последовательностей по Сэнгеру". Сравнение списков находок нуклеотидной последовательности разными алгоритмами blast Для работы использовалась полученная ранее последовательность, полученная на ББС. Цель: проанализировать ее с помощью трех алгоритмов нуклеотидного BLAST'a NCBI: blastn, megablast, discontiguous megablast. Область поиска была ограничена типом Echinozoa. Максимальное число находок было установлено на 1000. Остальные параметры оставила дефолтными. Cравнение трех алгоритмов в таблице 1. Таблица 1. Сравнение выдачи трех алгоритмов нуклеотидного BLAST'a
Также результаты работы BLAST'a представлены на рисунках 1-3. Рис. 1. Список находок blastn Рис. 2. Список находок megablast Рис. 3. Список находок discontiguous megablast Из результатов работы алгоритмов видно, что в выдаче blastn в сравнении с двумя другими алгоритмами есть находки с низкими query cover и очень высокими высокими E-value. Это логично, так как blastn был запрограммирован на поиск любого сходства, даже и небольших участков последовательностей. Что касается других алгоритмов, то megablast расчитан на поиск возможных близких гомологов последовательности-запроса, discontiguous megablast менее требователен и выявляет возможных гомологов, которые достаточно сильно дивергировали. Поэтому megablast и выдал наименьшее количество находок. Проверка наличия гомологов белков в геноме Amoboaphelidium Цель: проверить наличие гомологов пяти белков в организме Amoboaphelidium (сборка генома) с помощью алгоритма tblastn. Белки, выбранные мной для работы, перечислены в таблице 2. Таблица 2. Белки для поиска гомологов в заданном геноме
Для удобства работы я объединила все последовательности белков в файл. Создание банка данных из последовательности генома Amoboaphelidium:
Запуск tblastn:
Результат: таблица с разнообразными находками. Как и ожидалось, сходства нашлись для каждого из пяти выбранных белков, притом хорошие (E-value < 0,1). Более подробно результаты работы алгоритма описаны в таблице 3. Таблица 3. Результаты поиска гомологов в геноме Amoboaphelidium
Как видно из таблиы 3, наиболее вероятные гомологи нашлись для самых "популярных" белков из списка - для тубулина и хеликазы. Эти два результата можно считать достоверными. Худший результат был получен для метилтрансферазы. Возможно, найденное сходство даже является случайным и ДНК-метилтрансфераза Amoboaphelidium не похожа на человеческую. Классификация геномов родственных вирусов по сходству последовательностей Из базы данных NCBI были получены геномы пяти вирусов рода Potexvirus:
Последовательности геномов в указанном порядке объединены в файл. Из файла с последовательностями была создана база данных:
Далее с помощью следующей команды было построено выравнивание:
C помощью предоставленного нам питоносвского скрипта выравнивание было очищено от неинформативных результатов:
Результат: таблица. Для оценки сходства вирусов я сранжировала информацию о выравниваниях (строки) по query_id и смотрела, между какими записями наибольшее сходство по identity и aln_len. Таким образом понятно, например, что большое сходство наблюдатся между Lily virus X и Phaius virus X, Alstroemeria virus X и Nerine virus X, Allium virus X ближе всего к Phaius virus X. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|