В качестве участка содержащего CDS, я взял участок, содержащий ген ГАФД - глицеральдегид-3-фосфат дегидрогеназы, одного из участников гликолиза.
При этом я решил подвергнуть анализу 500 нуклеотидов до и после гена ГАФД.
Участок шестой хромосомы с координатами 35091254..35096610. Длина: 5356.
Идентификатор записи: NC_009149.3.
На рисунке 1 показаны 12 экзонов и 11 интронов у одного гена ГАФД.
Последовательность выделенного участка затем была скачана: ссылка на файл
В качестве целевого таксона для поиска был выбран отряд китопарнокопытных (Artiodactyla), поскольку лошадь является представителем отряда непарнокопытных (Perissodactyla), который является сестринским к выбранному отделу.
megablast
Размер слова: 28, максимальное число находок: 250, e-value: 0,05
Итого очень быстро вышло 250 находок, из которых 5 имеют e-value 0. При этом находок могло быть больше, но я их ограничил их кол-во при запуске. При изменении максимального числа находок до 1000 вышло 262 результата.
blastn
Размер слова: 11, максимальное число находок: 500, e-value: 0,05
Мне показалось, что выбранный таксон довольно близок и многообразен, из-за этого количество находок будет большим, и поэтому я решил увелиичить максимальное число находок. Всего по итогу вышло 485 находок (хорошо угадано). При этом первые пять находок с e-value 0, оказались такими же, как у выхода megablast
По видовому составу - тут оказались самые разные представители парнокопытных - олени, кабаны, быки, киты. Странным показалось то, что с китами была самая высокая схожесть
Показанные два алгоритма сравнивают нуклеотидные последовательности. При этом megablast работает быстрее, так как он ищет последовательности с высоким сходством. Этот алгоритм модно использовать для того, чтобы найти гомологичные некодирующие последовательности ДНК.
blastx
Размер слова: 5, максимальное число находок: 500, e-value: 0,05
Нашлось 329 находок, при этом не было ни одной с нулевым e-value. Количества находок мне показалось малым, по сравнению с blastn, поэтому я укоротил длину слова до минимального значения: 2. После этого вышла 331 находка. Здесь уже самая высокая схожесть была с оленем и быком, что мне кажется более логичным, чем схожесть с китами
Алгоритм отличается тем, что он заранее транслирует нуклеотидную последовательность в белковую, и уже сравнивает эту белковую последовательность с белковыми базами данных. Благодаря этому алгоритму можно узнать, какие аминокислотные замены могли произойти.
tblastx
Размер слова: 3, максимальное число находок: 500, e-value: 0,05
При заданных парметрах, не нашлось ничего, поэтому я изменил параметры, уменьшил длину слова до 2, e-value поставил равным 1, но все равно не было найдено ничего.
Этот алгоритм сравнивает транслированную последовательность с другими транслированными послдеовательностями ДНК. Это может быть полезно, так как для организма может не быть нужного белка в белковой базе данных.
Я установил пакет программ blast+ на свой компьютер и запустил команду:
makeblastdb -in .\GCF_002863925.1_EquCab3.0_genomic.fna -dbtype nucl
где
GCF* - моя геномная сборка.
После чего я провел локальный поиск blast с помощью команд:
blastn -task blastn -query 16s.fa -evalue 0.05 -word_size 11 -db '.\GCF_002863925.1_EquCab3.0_genomic.fna' -out 16s.out
blastn -task blastn -query 23s.fa -evalue 0.05 -word_size 11 -db '.\GCF_002863925.1_EquCab3.0_genomic.fna' -out 23s.out
1. 16s рРНК - составная часть малой субъединицы рибосомы, отвечает за узнавание последовательности Шайна-Дальгарно. 23s рРНК - составная часть большой субъединицы рибосомы, отвечает за формирование структуры отдельно большой субъединицы и рибосомы в целом
2. Я выбрал алгоритм blastn, так как последовательности рРНК не являются белок-кодирующими. При этом был установлен порог e-value: 0,05 и размер слова: 11
3. Получилось найти гомологов в моей последовательности. Для 23S рРНК вышло 6 находок, из них 2 - на нелокализованных скаффолдах. Для 16S рРНК вышло 2 находки, причем идентичные по последовательности, один лишь расположен на нелокализованном скаффолде. Я ожидал увидеть гены, которые отвечают за рРНК у лошади, при этом их должно быть как минимум два, так как у митохондрий тоже есть свои рРНК. Ссылка на файлы с выходами: 16s , 23s
4. Оказалось, что последовательность на скаффолде, гомологичная 16s, соответствует гену 18s рРНК. Смею предположить, что эта последовательность в оригинале находится на 1 хромосоме, так как полученные при работе алгоритма последовательности скаффолда и хромосомы идентичны. Для последовательности на первой хромосоме, гомологичной 23s, оказалось соответствие гену 28s рРНК. Также для 23s рРНК был найден гомолог на митохондриальной хромосоме, который отвечает за митохондриальную рРНК