Для выполнения задания я выбрал муху дрозофилу (англ. fruit fly, лат. Drosophila melanogaster). В NCBI Datasets нашлась референсная сборка генома, которая аннотированные гены и имеет качество "Chromosome".
| Параметр | Значение |
|---|---|
| GenBank Accession | GCA_000001215.4 |
| RefSeq Accession | GCF_000001215.4 |
| Уровень сборки | Chromosome |
| Размер генома | 143.7 Mb |
| Количество контигов | 2441 |
| Scaffold N50 | 25.3 Mb |
| Scaffold L50 | 3 |
| Contig N50 | 21.5 Mb |
| Contig L50 | 3 |
Контиг - непрерывная последовательность нуклеотидов ДНК, собранная из ридингов.
Скаффолд - последовательность, состоящая из нескольких сшитых контигов, между которыми стоят N-нуклеотиды.
N50 Contig(Scaffold) - такая длина контига(скаффолда), в которой содержится 50% всех нуклеотидов сборки
L50 Contig(Scaffold) - такое количество контигов(скаффолдов), в которой содержится 50% всех нуклеотидов сборки
Я ввел insulin[Title] и выдало 45020 записей, 4129 из которых по ДНК, 36529 - по мРНК, 12747 записей принадлежит GenBank, 32270 - RefSeq
(insulin[Title]) AND "homo sapiens"[Organism], по такому запросу выдало 5609 записей: 1472 по ДНК, 4093 по мРНК, 5355 из GenBank, 254 из RefSeq.
В ENA по запросу tax_eq(9606) AND description="insulin" выдало 9341 записей: 157 по ДНК(tax_eq(9606) AND description="insulin" AND mol_type="mrna" - запрос)
Для поиска нужного протеина я использовал поиск по шаблону "ATP synthase, delta", нашлось две записи: изоформы А и В, для задания я использую изоформу B, АС в NCBI Proteins: NP_001259397.1, RefSeq: NM_001272468.1.

Идентификатор белка: NP_001259397.1 (ссылка на NCBI)
Идентификатор нуклеотидной записи, к которой относится белок: XM_036847100
Координаты кодирующей части белка: 112-585
Кодирующая часть гена в FASTA файле
Так как муха дрозофила это первичноротое животное, для задания я решил использовать поиск по таксону Кошачьи (Felidae).
Сначала я использовал blastn, чтобы найти гомологичные гены, которые ищет по нуклеотидным последовательностям.
Параметры blastn:
По таким параметрам нашлось несколько находок:

Также поищем с помощью tblastx, который переводит нуклеотидную последовательность в аминокислотную.
Параметры tblastx:

На удивление этот метод дал всего одну находку с не самым хорошим весом, которая не совпадает с находками blastn.
Сначала я создал db по геному мухи дрозофила с помощью:
makeblastdb -dbtype nucl -in gcf.fna -out dbpr8
Затем скачал файл с двумя рРНК E.coli и поместил записи в rRNA_ecoli1.fasta и rRNA_ecoli2.fasta. Затем я сначала провел поиск с помощью blastn, который не дал никаких находок:
blastn -db dbpr8 -query rRNA_ecoli1.fasta -word_size 7 -outfmt 7 -out blastn1
blastn -db dbpr8 -query rRNA_ecoli2.fasta -word_size 7 -outfmt 7 -out blastn2
Нарисуем для 16S rRNA схему:

Для построение карт я выбрал вирус оспы человека (NC_001611) и обезьянью оспу (NC_063383).



Синим я пометил вставки, красным - делеции, фиолетовым - инверсии, также на картах есть различные транслокации и дупликации очень маленьких участков (особенно на карте для tblastx).