В своей панде (точнее, в геноме большой панды) я нашла ген белка дельта-субъединицы АТФ-синтазы (ATP synthase subunit delta), этот ген есть у очень многих организмов (у млекопитающих тем более), поэтому у меня не было сомнений по поводу его наличия.
FASTA файл с последовательностью аминокислот этого белка. Идентификатор белка: XP_002923558.1
Файл с последовательностью аминокислот этого белка. Ген находится на 4 хромосоме. Идентификатор нуклеотидной записи: 100477917
Панды относятся к вторичноротым, поэтому я решила поискать дельта-субъединицу АТФ-синтазы у далекого организма, у первичноротых, семейство Пауки Araneae.
Полученные результаты:
blastn: я запускала с различными параметрами, но каждый раз один результат: найдено 0 последовательностей. Можно предположить, что последовательность содержет множество нуклеотидных синонимичных замен и даже при малой длине слова, BLAST не может найти похожие нуклеотидные последовательности у Пауков.
tblastx: с длиной слова 5 и поиском по базе refseq_protein нашлось 4 совпадения. Все являются предсказанным белком дельта-субъединицы АТФ-синтазы у различных видов пауков. Довольно неплохой результат, я ожидала увидеть множество похожих белков и малое количество абсолютных совпадений, но получилось даже лучше, хоть совпадений и мало.
Для индексации генома я использовала следующую команду:
makeblastdb -in GCF_002007445.2_ASM200744v3_genomic.fna -dbtype nucl
Я провела локальный поиск BLAST по 16S и 23S рРНК Escherichia coli.
16S рРНК - в малой субъединице рибосомы у прокариот. Участвует в распознавании последовательности Шайн-Дальгарно на мРНК и просто формирует структуру рибосомы, стабилизируя ее и обеспечивая фунционирование.
23S рРНК - в большой субъединице рибосомы у прокариот. Участвует в синтезе белка: формирует активный сайт, помогает перемещать транспортную и матричную РНК, является одним из ключевых катализаторов образования пептидной связи.
Я выбрала blastn для локального поиска, так как хочу выявить связь у неродственных организмов и имею на вход нуклеотидную последовательность.
Параметры: evalue=0.05 (для отсеивания совсем плохих последовательностей), word_size=7 (для поиска большего числа последовательносте, с параметром 11 (как стоит по умолчанию) ничего не нашлось), outfmt=7 (для выдачи в виде таблицы).
blastn -task blastn -query 16S.fa -db GCF_002007445.2_ASM200744v3_genomic.fna -out blastn_16S.out -evalue 0.05 -word_size 7 -outfmt 7
blastn -task blastn -query 23S.fa -db GCF_002007445.2_ASM200744v3_genomic.fna -out blastn_23S.out -evalue 0.05 -word_size 7 -outfmt 7
Полученные результаты:
Для 16S рРНК: ничего :( 0 результатов, даже если комбинаторно измененить все параметры.
Для 23S рРНК: 3 результата. Митохондриальный геном, хромосома (3), unplaced genomic scaffold.