Поиск гена δ-субъединицы АТФ-синтазы

Для поиска используем следующие команды:

Найдем строки, потенциально соответсвующие нашему гену, используя файл с геномной аннотацией (в сером поле - команда, под ней выдача).

zcat < GCF_017654675.1_Xenopus_laevis_v10.1_genomic.gbff.gz | grep -A1 'ATP synthase subunit delta'
>>>>>>>>>> /product="ATP synthase subunit delta, mitochondrial"
>>>>>>>>>> /protein_id="XP_018099093.1"

Последовательность белка: XP_018099093.1.

Определим в каком локусе находится предполагаемый ген.

zcat < GCF_017654675.1_Xenopus_laevis_v10.1_genomic.gbff.gz | sed -n '/LOCUS/h;/ATP synthase subunit delta/{x;/LOCUS/p;q;}'
>>>>>>>>>>LOCUS NC_054372 202412971 bp DNA linear CON 14-MAY-2021

Следовательно, это локус NC_054372.

По базе данных NCBI Nucleotide определим окружение гена (рис. 1), последовательность гена, координаты экзонов.

Последовательность гена с окрестностью: ATP5F1D.S.

Координаты гена: 90560905..90564490

Координаты экзонов:

90560905..90560976,90561360..90561486,90561865..90561953,90562809..90562962,90564308..90564490

Рис 1. Окружение гена atp5f1d.S у Xenopus_laevis

BLASTn и tBLASTn

Поиск далее будет осуществляться по базе данных refseq_genomes (4 databases) в далеком для Xenopus laevis семействе Araneae (Пауки) (всего 4 генома аннотированно).

BLASTn

Попорбуем найти гомологи нашего гена, онсовываясь на предположении консервативности этого гена, для этого используем BLASTn.

Алгоритмом BLASTn найдено 23 hits (word size == 11) .
Текстовая выдача: BLASTn.

Рис 2. Результат поиска BLASTn по refseq_genomes семейства Araneae.

tBLASTn

Теперь попробуем найти гомологичные последовательности используя поиск белка по транслированной нуклеотидной базе данных.

Алгоритмом tBLASTn найдено 8 hits (word size == 5) .
Текстовая выдача: tBLASTn.

Рис 3. Результат поиска tBLASTn по refseq_genomes семейства Araneae.

Поиск гомологов рРНК по дальнему гомологу

Сделаем нуклеотидную базу данных по геному Xenopus laevis и назовем ее xenlaev.

gunzip GCF_017654675.1_Xenopus_laevis_v10.1_genomic.fna.gz
makeblastdb -in GCF_017654675.1_Xenopus_laevis_v10.1_genomic.fna -dbtype nucl -out xenlaev

Гены рРНК высоко консервативны, следовательно необходимо использовать BLASTn для поиска гомологов бактериальных рРНК в геноме Xenopus laevis.

blastn -task blastn -query ECOLI_16S_rRNA.fasta -db xenlaev -out ECOLI_16S_rRNA.out -outfmt 7
blastn -task blastn -query ECOLI_23S_rRNA.fasta -db xenlaev -out ECOLI_23S_rRNA.out -outfmt 7

Результат работы BLASTn для соответсвующих рРНК:
ECOLI_16S_rRNA.out;
ECOLI_23S_rRNA.out.

Рис. 4. Cхематическое изображение находок относительно геномных фрагментов Xenopus laevis.

Определим, что за это за локус NC_054375.1:

zcat < GCF_017654675.1_Xenopus_laevis_v10.1_genomic.gbff.gz | grep -A1 "LOCUS.*NC_054375"
>>>>>>>>>>LOCUS NC_054375 161426102 bp DNA linear CON 14-MAY-2021
>>>>>>>>>>DEFINITION Xenopus laevis strain J_2021 chromosome 3L, Xenopus_laevis_v10.1,

Следовательно этот локус - chromosome 3L.

Карты локального сходства плазмид

Для построения карт локального сходства я взял два вида из рода Tetragenococcus (таблица 1).

Таблица 1. Плазмиды для построения карт локального сходства.
Организм AC сборки АС плазмиды
Tetragenococcus halophilus GCF_003795105.1 CP027769.1
Tetragenococcus koreensis GCF_003795145.1 CP027787.1

Далее иду карты локального сходства, построенные с помощью MegaBLAST, BLASTn, tBLASTx.

Рис. 5. Карта локального сходства, постронная с помощью MegaBLAST.
Рис. 6. Карта локального сходства, постронная с помощью BLASTn.
Рис. 7. Карта локального сходства, постронная с помощью tBLASTx.

Интересно, что BLASTn определил еще одну дупликацию, по сравнению с megablast, а карта локального сходства, постронная с помощью tBLASTx, не сильно отличается от карты локального сходства, постронная с помощью BLASTn.