Восьмой практикум


В качестве участка содержащего CDS, я взял участок, содержащий ген ГАФД - глицеральдегид-3-фосфат дегидрогеназы, одного из участников гликолиза.

При этом я решил подвергнуть анализу 500 нуклеотидов до и после гена ГАФД.

Участок шестой хромосомы с координатами 35091254..35096610. Длина: 5356.

Идентификатор записи: NC_009149.3.

На рисунке 1 показаны 12 экзонов и 11 интронов у одного гена ГАФД.

Последовательность выделенного участка затем была скачана: ссылка на файл

В качестве целевого таксона для поиска был выбран отряд китопарнокопытных (Artiodactyla), поскольку лошадь является представителем отряда непарнокопытных (Perissodactyla), который является сестринским к выбранному отделу.

...
Рис.1 Здесь, зеленой тонкой полосой показана последовательность гена ГАФД с интронами в виде полоски и экзонами в виде ящиков. Верхними синими графиками показаны экзоны, а нижними синими - интроны.

megablast

Размер слова: 28, максимальное число находок: 250, e-value: 0,05

Итого очень быстро вышло 250 находок, из которых 5 имеют e-value 0. При этом находок могло быть больше, но я их ограничил их кол-во при запуске. При изменении максимального числа находок до 1000 вышло 262 результата.

blastn

Размер слова: 11, максимальное число находок: 500, e-value: 0,05

Мне показалось, что выбранный таксон довольно близок и многообразен, из-за этого количество находок будет большим, и поэтому я решил увелиичить максимальное число находок. Всего по итогу вышло 485 находок (хорошо угадано). При этом первые пять находок с e-value 0, оказались такими же, как у выхода megablast

По видовому составу - тут оказались самые разные представители парнокопытных - олени, кабаны, быки, киты. Странным показалось то, что с китами была самая высокая схожесть

Показанные два алгоритма сравнивают нуклеотидные последовательности. При этом megablast работает быстрее, так как он ищет последовательности с высоким сходством. Этот алгоритм модно использовать для того, чтобы найти гомологичные некодирующие последовательности ДНК.


blastx

Размер слова: 5, максимальное число находок: 500, e-value: 0,05

Нашлось 329 находок, при этом не было ни одной с нулевым e-value. Количества находок мне показалось малым, по сравнению с blastn, поэтому я укоротил длину слова до минимального значения: 2. После этого вышла 331 находка. Здесь уже самая высокая схожесть была с оленем и быком, что мне кажется более логичным, чем схожесть с китами

Алгоритм отличается тем, что он заранее транслирует нуклеотидную последовательность в белковую, и уже сравнивает эту белковую последовательность с белковыми базами данных. Благодаря этому алгоритму можно узнать, какие аминокислотные замены могли произойти.

tblastx

Размер слова: 3, максимальное число находок: 500, e-value: 0,05

При заданных парметрах, не нашлось ничего, поэтому я изменил параметры, уменьшил длину слова до 2, e-value поставил равным 1, но все равно не было найдено ничего.

Этот алгоритм сравнивает транслированную последовательность с другими транслированными послдеовательностями ДНК. Это может быть полезно, так как для организма может не быть нужного белка в белковой базе данных.



Локальный поиск

Я установил пакет программ blast+ на свой компьютер и запустил команду:

makeblastdb -in .\GCF_002863925.1_EquCab3.0_genomic.fna -dbtype nucl
где GCF* - моя геномная сборка.

После чего я провел локальный поиск blast с помощью команд:

blastn -task blastn -query 16s.fa -evalue 0.05 -word_size 11 -db '.\GCF_002863925.1_EquCab3.0_genomic.fna' -out 16s.out
blastn -task blastn -query 23s.fa -evalue 0.05 -word_size 11 -db '.\GCF_002863925.1_EquCab3.0_genomic.fna' -out 23s.out


1. 16s рРНК - составная часть малой субъединицы рибосомы, отвечает за узнавание последовательности Шайна-Дальгарно. 23s рРНК - составная часть большой субъединицы рибосомы, отвечает за формирование структуры отдельно большой субъединицы и рибосомы в целом


2. Я выбрал алгоритм blastn, так как последовательности рРНК не являются белок-кодирующими. При этом был установлен порог e-value: 0,05 и размер слова: 11


3. Получилось найти гомологов в моей последовательности. Для 23S рРНК вышло 6 находок, из них 2 - на нелокализованных скаффолдах. Для 16S рРНК вышло 2 находки, причем идентичные по последовательности, один лишь расположен на нелокализованном скаффолде. Я ожидал увидеть гены, которые отвечают за рРНК у лошади, при этом их должно быть как минимум два, так как у митохондрий тоже есть свои рРНК. Ссылка на файлы с выходами: 16s , 23s


4. Оказалось, что последовательность на скаффолде, гомологичная 16s, соответствует гену 18s рРНК. Смею предположить, что эта последовательность в оригинале находится на 1 хромосоме, так как полученные при работе алгоритма последовательности скаффолда и хромосомы идентичны. Для последовательности на первой хромосоме, гомологичной 23s, оказалось соответствие гену 28s рРНК. Также для 23s рРНК был найден гомолог на митохондриальной хромосоме, который отвечает за митохондриальную рРНК