Немножечко про BLAST

ATP synthase subunit delta

В своей панде (точнее, в геноме большой панды) я нашла ген белка дельта-субъединицы АТФ-синтазы (ATP synthase subunit delta), этот ген есть у очень многих организмов (у млекопитающих тем более), поэтому у меня не было сомнений по поводу его наличия.

FASTA файл с последовательностью аминокислот этого белка. Идентификатор белка: XP_002923558.1

Файл с последовательностью аминокислот этого белка. Ген находится на 4 хромосоме. Идентификатор нуклеотидной записи: 100477917


Семейство "Пауки" и панда

Панды относятся к вторичноротым, поэтому я решила поискать дельта-субъединицу АТФ-синтазы у далекого организма, у первичноротых, семейство Пауки Araneae.

Полученные результаты:

blastn: я запускала с различными параметрами, но каждый раз один результат: найдено 0 последовательностей. Можно предположить, что последовательность содержет множество нуклеотидных синонимичных замен и даже при малой длине слова, BLAST не может найти похожие нуклеотидные последовательности у Пауков.

tblastx: с длиной слова 5 и поиском по базе refseq_protein нашлось 4 совпадения. Все являются предсказанным белком дельта-субъединицы АТФ-синтазы у различных видов пауков. Довольно неплохой результат, я ожидала увидеть множество похожих белков и малое количество абсолютных совпадений, но получилось даже лучше, хоть совпадений и мало.


Гены основных рибосомальных РНК по далекому гомологу

Для индексации генома я использовала следующую команду:

makeblastdb -in GCF_002007445.2_ASM200744v3_genomic.fna -dbtype nucl

Я провела локальный поиск BLAST по 16S и 23S рРНК Escherichia coli.

16S рРНК - в малой субъединице рибосомы у прокариот. Участвует в распознавании последовательности Шайн-Дальгарно на мРНК и просто формирует структуру рибосомы, стабилизируя ее и обеспечивая фунционирование.

23S рРНК - в большой субъединице рибосомы у прокариот. Участвует в синтезе белка: формирует активный сайт, помогает перемещать транспортную и матричную РНК, является одним из ключевых катализаторов образования пептидной связи.

Я выбрала blastn для локального поиска, так как хочу выявить связь у неродственных организмов и имею на вход нуклеотидную последовательность.

Параметры: evalue=0.05 (для отсеивания совсем плохих последовательностей), word_size=7 (для поиска большего числа последовательносте, с параметром 11 (как стоит по умолчанию) ничего не нашлось), outfmt=7 (для выдачи в виде таблицы).

blastn -task blastn -query 16S.fa -db GCF_002007445.2_ASM200744v3_genomic.fna -out blastn_16S.out -evalue 0.05 -word_size 7 -outfmt 7

blastn -task blastn -query 23S.fa -db GCF_002007445.2_ASM200744v3_genomic.fna -out blastn_23S.out -evalue 0.05 -word_size 7 -outfmt 7

Полученные результаты:

Для 16S рРНК: ничего :( 0 результатов, даже если комбинаторно измененить все параметры.

Для 23S рРНК: 3 результата. Митохондриальный геном, хромосома (3), unplaced genomic scaffold.