Практикум 8

Задание 1

Продолжаем исследовать геном большой панды. Скачав последовательности белков, можем найти в них последовательность дельта субъединицы АТФ синтазы через текстовый поиск, ниже она приведена. По идентификатору этой последовательности можем найти в файле геномной сборки идентификатор последовательности, включающей этот ген, а также найти с помощью BLAST сам ген с некоторой окрестностью.

Задание 2

Далее произведем поиск схожих последовательностей у далеких видов. Большая панда относится к вторичноротым, поэтому выберем таксон из первичноротых, а именно пчел, потому что в Minecraft они были добавлены примерно в тот же период, что и панды.

Алгоритм blastn по отношению к megablast должен обладать большей эффективностью в данном случае, так как подходит для определения значительно отличающихся последовательностей, а здесь мы как раз берем очень далекие друг от друга организмы. Алгоритм применялся с размером слово 11(по умолчанию), но выдача содержала 0 находок. Тогда алгоритм был запущен с размером слова 7 и 15, но выдача так же была нулевой.

Применение же алгоритма tblastn с параметром word size по умолчанию, как и со значением 7, чтобы увеличить возможную выдачу, выдало 25 находок, и как видно на схеме или по параметрам сходства в таблице, работу алгоритма можно считать успешной. Ожидаемо, что такой алгоритм приведет к большему числу находок, тк перевод в пептидную форму позволяет алгоритму учитывать избыточность генетического кода.


Рис. 1Выдача TBLASTN

Задание 3

Произведем поиск генов гомологов 16 и 23S рРНК (ключевых составляющих малой и большой субъединиц бактериальной рибосомы соответственно) в геноме панды, посредством локального алгоритма blastn. Выбран именно этот алгоритм, так как хорошо подходит для определения гомологов среди некодирующих последовательностей из геномов довольно далеких друг от друга организмов. Для начала были выбраны параметры по умолчанию, и они определили достаточно находок, но недостаточной значимости. После этого был использован алгоритм, с длинной слова 7, что также не нашло ничего значимого для обоих последовательностей. После этого поиск велся в длиной слова 5 и сразу с фильтром по значимости - 0,05.

makeblastdb -in GCF_002007445.2_ASM200744v3_genomic.fna -dbtype nucl -out datab
blastn -query 16s.fasta -word_size 5 -outfmt 7 -db datab -evalue 0.05 -out 16blastn.fmt
blastn -query 23s.fasta -word_size 5 -outfmt 7 -db datab -evalue 0.05 -out 23blastn.fmt

Для 16S ничего так и не было найдено, для 23S 3 хита, 3 гомолога

Ожидал большего присутствия гомологов столь, казалось, важных и консервативных последовательностей. Но вполне ожидаемо, что, судя по всему, 23S и ее гомологи более консервативны, т.к. они выполняют в рибосоме катализ пептидил-трансферазной реакции.