Практикум 8. Нуклеотидный BLAST

Задание 1. Ген, кодирующий δ-субъединицу АТФ-синтазы

Для выполнения задания данного практикума я продолжу работать с организмом Ciona intestinalis . В GBFF файле-аннотации генома была найдена последовательность АТФ-синтазы дельта . Идентификатор белка XP_004226068.1 . Идентификатор нуклеотидной записи XM_004226020.4

Нуклеотидная последоавтельность гена с небольшой окрестностью.

Задание 2. Варианты BLAST для фрагментов ДНК

Так как выбранный организм относится к вторичноротым животным в качестве удаленного семейства было выбрано семейство Пауки (Araneae). Было проведено 2 поиска с помощью алгоритма BLAST.

В предыдущем задании мы получили последовательность белка и было бы интересно посмотреть каких гомологов найдет алгоритм tblastn (выравнивание белковой последовательности на транслируемую в 6 рамках считывания нуклеотидную базу данных) в далеком от нашего организма семействе. Если белок консервативен, то есть вероятность увидеть похожие белки. АТФ-синтаза является ключевым белком для энергетического метаболизма клетки и если мы увидим каких-нибудь гомологов, то можно будет предположить что данная субъединица консервативна и новые мутации приводят к нежизнеспособности организма. Был запущен tblastn по refseq_genomes и в качестве семейства для поиска были выбраны пауки (taxid:6893). Поиск был выполнен по 4 сборкам. Остальные параметры поиска были оставлены базовыми, длина слова равнялась 5. В результате было найдено 4 совпадения (идентичность 50-60 %, Текстовая выдача tblastn ) что говорит о том что наша гипотеза о высокой консервативности данного белка оправдалась.

Затем возник вопрос, если белковые последовательности схожи, то похожи ли нуклеотидные последовательности? Для этого был запущен megablast (быстрый поиск похожих последовательностей) по той же базе данных. Длина слова = 28. В результате ничего не было найдено. Но при запуске blastn (длина слова 11) были найдены 4 записи (всего 3 разных организма, 2 их которых совпали с предыдущей выдачей). ( Текстовая выдача blastn ). По значениям e-value отсекаются 3 находки из 4х. Что интересно, находка для NW_023315917.1, имеющаяся в предыдущей выдаче, нашлась и в выдаче blastn с неплохим e-value. Видимо такие результаты связаны с относительной консервативностью белковой последовательности, поэтому мы видим значимые результаты в tblastn, но нуклеотидная последовательность подвержена синонимичным мутациям, поэтому было найдено только одно совпадение между поиисками blastn и tblastn.

Задание 3. Поиск генов рРНК.

В данном задании необходимо было найти гомологов 16S и 23S рРНК E.coli в геноме выбранного эукариота - асцидии Ciona intestinalis . Поиск выполнялся относительно последовательностей рибосомальных РНК, основная функция которых заключается в формировании структурных компонентов рибосомы. 16S рРНК входит в структуру малой субъединицы рибосомы и участвует в связывании последовательности Шайна-Дальгарно в мРНК. 23S рРНК входит в структуру большой субъединицы рибосомы и участвует в пептидилтрансферазной реакции.

Вес генома асцидии превысил допустимый размер fasta-файла для запуска программы на сервере, поэтому был взят эукариот с более коротким геномом - C.elegans. Для поиска в геноме эукариота данных последовательностей была выполнена индексация генома при помощи команды

makeblastdb -in C_eleg.fasta -dbtype nucl

Были скачаны последовательности рРНК кишечной палочки с запущен алгоритм blastn (так как он подходит для поиска гомологий даже у далеких организмов). Были запущены следующие команды.

blastn -task blastn -query 16s_rrna.fasta -db C_eleg.fasta -out res_C_eleg_16.txt -outfmt 7

blastn -task blastn -query 23s_rrna.fasta -db C_eleg.fasta -out res_C_eleg_23.txt -outfmt 7

В результате было найдено 10 хитов для 16S и 13 хитов для 23S. При этом количество заначимых (по e-value) участков гомологии для 16S составило 4 штуки и все они относятся к записи NC_003279.8 (хромосома 1 червя). Эти 4 участка объединяются в 2 гомолога (они совпадают с одним и тем же участком Ecoli) 15070809-15071041 и 15063612 - 15063844. Количество заначимых (по e-value) участков гомологии для 23S составило 5 штук и все они так же относятся к записи NC_003279.8. Эти 5 участков объединяются в 2 гомолога (координаты 15064869 - 15067921 и 15060554 - 15060725) Видимо на 1 хромосоме C.elegans находятся гены рРНК - гомологи 16S и 23S рРНК бактерий.