Практикум №8

Задание №1

По всей видимости, файлы с контигами были давно удалены, поэтому был выбран участок первой хромосомы Tachyglossus aculeatus, содержащий ген SOX2:

- Идентификатор хромосомы: NC_052066.1

- Координаты гена: 50609498..50611092

- Взят фрагмент с координатами: 50609338..50611252

- Длина всего гена: 1595 nt

- Длина фрагмента: 1915 nt

На рис. 1 приведена схема выбранного фрагмента:

Рис. 1. Схема фрагмента. Ген отмечен зеленым, фиолетовым отмечена его мРНК, CDS - красным.

pic1

Скачать последовательность можно по ссылке.

Далее будем работать с этой последовательностью, прогоняя по ней BLAST и исключая таксон Chordata (taxid: 7711):

- blastn (длина слова - 11, максимальное количество находок - 5000): было найдено большое количество синтезированных генов. Также было найдено много гомологов среди членистоногих (например, Portunus trituberculatus - голубой японский краб, Bemisia tabaci - табачная белокрылка) и даже среди двустворчатых моллюсков (Dreissena polymorpha).

Всего находок: 3794

blastn подходит для поиска белков с меньшим уровнем сходности (можно применять для поиска гомологичных последовательностей, которые не являются белок-кодирующими или не аннотированны).

- megablast (длина слова - 28, макс. кол-во находок - 5000): количество находок сильно уменьшилось. Тоже большинство находок - искусственно синтезированные гены. Последовательности, принадлежащие членистоногим сохраняются. Сохраняется даже находка, принадлежащая двустворчатому моллюску.

Всего находок: 237

megablast используется для поиска почти идентичных последовательностей близкородственных видов. Работает быстрее, чем blastn.

- blastx: при длине слова 6 было найдено более 5000 находок. После смены параметра Expect threshold на 0.001 лучше не стало. Все находки хорошие. Большинство находок связано с геном SOX2 (SRY-box 2).

Алгоритм blastx самый разумный выбор для поиска, например, гомологов гена SOX2.

- tblastx: поиск не дал результатов.

Этот алгоритм подходит для предсказания генов и белковых последовательностей.

Задание №2

Были скачаны: локальная версия BLAST, геном Tachyglossus aculeatus, гены E.Coli, кодирующие 16S и 23S рРНК.

Создана локальная база данных с помощью программы:

makeblastdb -in GCF_015852505.1_mTacAcu1.pri_genomic.fna -dbtype nucl

Далее был проведен локальный поиск BLAST отдельно с 16sRNA и 23sRNA E.Coli с помощью команд:

blastn -task "blastn" -query "rRNA_16.txt" -db "GCF_015852505.1_mTacAcu1.pri_genomic.fna" -out "rRNA_16_output.tsv" -outfmt 7

blastn -task "blastn" -query "rRNA_23.txt" -db "GCF_015852505.1_mTacAcu1.pri_genomic.fna" -out "rRNA_23_output.tsv" -outfmt 7

Выводы команд: rRNA_16_output.tsv, rRNA_23_output.tsv

Найдены 16sRNA (входит в состав малой субъединицы 70S митохондриальной рибосомы) и 23sRNA (входит в состав большой субъединицы 70S митохондриальной рибосомы).

Был использован blastn, потому что на вход подавалась нуклеотидная последовательность РНК и необходимо было найти гомологичные последовательности в нуклеотидной базе данных (сформированной из fasta-формата генома выбранного организма). Значения параметров изменены не были.

Было найдено 15 находок для 16sRNA (из них только 4 находки имеют e-value намного меньше единицы - это значит, что скорее всего они являются гомологами) и 29 находок для 23sRNA (14 находок с e-value<<1 - предположительно, являются гомологами).