Учебный сайтик
Кирилла Прокаповича

Выбор эукариотического организма

Для выполнения задания я выбрал муху дрозофилу (англ. fruit fly, лат. Drosophila melanogaster). В NCBI Datasets нашлась референсная сборка генома, которая аннотированные гены и имеет качество "Chromosome".

Таблица 1. Параметры сборки генома синего кита
Параметр Значение
GenBank Accession GCA_000001215.4
RefSeq Accession GCF_000001215.4
Уровень сборки Chromosome
Размер генома 143.7 Mb
Количество контигов 2441
Scaffold N50 25.3 Mb
Scaffold L50 3
Contig N50 21.5 Mb
Contig L50 3

Контиг - непрерывная последовательность нуклеотидов ДНК, собранная из ридингов.
Скаффолд - последовательность, состоящая из нескольких сшитых контигов, между которыми стоят N-нуклеотиды.

N50 Contig(Scaffold) - такая длина контига(скаффолда), в которой содержится 50% всех нуклеотидов сборки
L50 Contig(Scaffold) - такое количество контигов(скаффолдов), в которой содержится 50% всех нуклеотидов сборки

Инсулин в NCBI и ENA

Я ввел insulin[Title] и выдало 45020 записей, 4129 из которых по ДНК, 36529 - по мРНК, 12747 записей принадлежит GenBank, 32270 - RefSeq
(insulin[Title]) AND "homo sapiens"[Organism], по такому запросу выдало 5609 записей: 1472 по ДНК, 4093 по мРНК, 5355 из GenBank, 254 из RefSeq.

В ENA по запросу tax_eq(9606) AND description="insulin" выдало 9341 записей: 157 по ДНК(tax_eq(9606) AND description="insulin" AND mol_type="mrna" - запрос)

Поиск в геноме эукариота гена, кодирующего дельта субъединицу АТФ синтазы

Для поиска нужного протеина я использовал поиск по шаблону "ATP synthase, delta", нашлось две записи: изоформы А и В, для задания я использую изоформу B, АС в NCBI Proteins: NP_001259397.1, RefSeq: NM_001272468.1.


Рис. 1. Нуклеотидная последовательность, включающая кодирующий белок дельта субъединицы АТФ-синтазы участок гена

Идентификатор белка: NP_001259397.1 (ссылка на NCBI)

Идентификатор нуклеотидной записи, к которой относится белок: XM_036847100

Координаты кодирующей части белка: 112-585

Кодирующая часть гена в FASTA файле

Разные алгоритмы BLAST

Так как муха дрозофила это первичноротое животное, для задания я решил использовать поиск по таксону Кошачьи (Felidae).

Сначала я использовал blastn, чтобы найти гомологичные гены, которые ищет по нуклеотидным последовательностям.

Параметры blastn:

По таким параметрам нашлось несколько находок:


Рис. 2. Графическое отображение находок blastn

Также поищем с помощью tblastx, который переводит нуклеотидную последовательность в аминокислотную.

Параметры tblastx:


Рис. 3. Графическое отображение находок tblastx.

На удивление этот метод дал всего одну находку с не самым хорошим весом, которая не совпадает с находками blastn.

Поиск в геноме мухи дрозофилы генов основных рибосомальных РНК по далекому гомологу

Сначала я создал db по геному мухи дрозофила с помощью:

makeblastdb -dbtype nucl -in gcf.fna -out dbpr8

Затем скачал файл с двумя рРНК E.coli и поместил записи в rRNA_ecoli1.fasta и rRNA_ecoli2.fasta. Затем я сначала провел поиск с помощью blastn, который не дал никаких находок:

blastn -db dbpr8 -query rRNA_ecoli1.fasta -word_size 7 -outfmt 7 -out blastn1

blastn -db dbpr8 -query rRNA_ecoli2.fasta -word_size 7 -outfmt 7 -out blastn2

Нарисуем для 16S rRNA схему:


Рис. 4. Схема выравнивания 16S rRNA c NW_007931121.1 мухи дрозофилы

Карта локального сходства

Для построение карт я выбрал вирус оспы человека (NC_001611) и обезьянью оспу (NC_063383).


Рис. 5. Карта локального сходства по megablast вирусов оспы человека и обезьяны
Рис. 6. Карта локального сходства по blastn вирусов оспы человека и обезьяны
Рис. 7. Карта локального сходства по tblastx вирусов оспы человека и обезьяны

Синим я пометил вставки, красным - делеции, фиолетовым - инверсии, также на картах есть различные транслокации и дупликации очень маленьких участков (особенно на карте для tblastx).