По всей видимости, файлы с контигами были давно удалены, поэтому был выбран участок первой хромосомы Tachyglossus aculeatus, содержащий ген SOX2:
- Идентификатор хромосомы: NC_052066.1
- Координаты гена: 50609498..50611092
- Взят фрагмент с координатами: 50609338..50611252
- Длина всего гена: 1595 nt
- Длина фрагмента: 1915 nt
На рис. 1 приведена схема выбранного фрагмента:
Рис. 1. Схема фрагмента. Ген отмечен зеленым, фиолетовым отмечена его мРНК, CDS - красным.
Скачать последовательность можно по ссылке.
Далее будем работать с этой последовательностью, прогоняя по ней BLAST и исключая таксон Chordata (taxid: 7711):
- blastn (длина слова - 11, максимальное количество находок - 5000): было найдено большое количество синтезированных генов. Также было найдено много гомологов среди членистоногих (например, Portunus trituberculatus - голубой японский краб, Bemisia tabaci - табачная белокрылка) и даже среди двустворчатых моллюсков (Dreissena polymorpha).
Всего находок: 3794
blastn подходит для поиска белков с меньшим уровнем сходности (можно применять для поиска гомологичных последовательностей, которые не являются белок-кодирующими или не аннотированны).
- megablast (длина слова - 28, макс. кол-во находок - 5000): количество находок сильно уменьшилось. Тоже большинство находок - искусственно синтезированные гены. Последовательности, принадлежащие членистоногим сохраняются. Сохраняется даже находка, принадлежащая двустворчатому моллюску.
Всего находок: 237
megablast используется для поиска почти идентичных последовательностей близкородственных видов. Работает быстрее, чем blastn.
- blastx: при длине слова 6 было найдено более 5000 находок. После смены параметра Expect threshold на 0.001 лучше не стало. Все находки хорошие. Большинство находок связано с геном SOX2 (SRY-box 2).
Алгоритм blastx самый разумный выбор для поиска, например, гомологов гена SOX2.
- tblastx: поиск не дал результатов.
Этот алгоритм подходит для предсказания генов и белковых последовательностей.
Были скачаны: локальная версия BLAST, геном Tachyglossus aculeatus, гены E.Coli, кодирующие 16S и 23S рРНК.
Создана локальная база данных с помощью программы:
makeblastdb -in GCF_015852505.1_mTacAcu1.pri_genomic.fna -dbtype nucl
Далее был проведен локальный поиск BLAST отдельно с 16sRNA и 23sRNA E.Coli с помощью команд:
blastn -task "blastn" -query "rRNA_16.txt" -db "GCF_015852505.1_mTacAcu1.pri_genomic.fna" -out "rRNA_16_output.tsv" -outfmt 7blastn -task "blastn" -query "rRNA_23.txt" -db "GCF_015852505.1_mTacAcu1.pri_genomic.fna" -out "rRNA_23_output.tsv" -outfmt 7
Выводы команд: rRNA_16_output.tsv, rRNA_23_output.tsv
Найдены 16sRNA (входит в состав малой субъединицы 70S митохондриальной рибосомы) и 23sRNA (входит в состав большой субъединицы 70S митохондриальной рибосомы).
Был использован blastn, потому что на вход подавалась нуклеотидная последовательность РНК и необходимо было найти гомологичные последовательности в нуклеотидной базе данных (сформированной из fasta-формата генома выбранного организма). Значения параметров изменены не были.
Было найдено 15 находок для 16sRNA (из них только 4 находки имеют e-value намного меньше единицы - это значит, что скорее всего они являются гомологами) и 29 находок для 23sRNA (14 находок с e-value<<1 - предположительно, являются гомологами).