Для анализа был выбран ген перилипина 1 (PLIN1), расположенный на 11 хромосоме Suncus etruscus (Savi, 1822), согласно данным о сборке mSunEtr1.pri.cur (см. предыдущий практикум).
Запись в базе данных NCBI Gene: 126022371
Координаты гена на хромосоме: 8 721 428 - 8 726 477 (длина 5049 п.о.).
Для анализа выделена последовательность чуть больше, чем сам ген (8 719 965 - 8 728 637, длина 8673 п.о.), включающая также некодирующие неаннотированные регионы как "upstream", так и "downstream" от PLIN1. Незамысловатая схема представлена на рис.1.
Ссылка на FASTA-файл с последовательностью выбранного региона.
Ради интереса рассмотрим, что выдадут разные алгоритмы BLAST при поиске последовательности из ядерного генома млекопитающего (Mammalia) внутри зауропсид (Sauropsida) - таксона, включающего рептилий в широком смысле (черепахи, клювоголовые, чешуйчатые и архозавры, в числе которых и птицы).
Mammalia и Sauropsida - клады в составе безрангового таксона Amniota.
Поиск проводился на сайте NCBI BLAST.
megablast: поиск с длиной слова 16 и макс. числом находок 250.
Результат: 218 находок. E value от 1е-37. Гены PLIN1 разнообразных птиц и двух видов черепах.
blastn: поиск с длиной слова 11. Максимальное число находок 100.
Результат: 100 находок, E value от 2е-42. Гены PLIN1 птиц. Видовой состав их такой же, как и в результате поиска megablast.
Этот алгоритм принимает на вход нуклеотидную последовательность и используется для поиска гомологичных ей в нуклеотидной базе данных. megablast работает по такому же принципу, но работает быстрее, т.к. ищет только последовательности с высоким уровнем сходства. Эти алгоритмы могут быть использованы, например, для поиска гомологичных некодирующих регионов ДНК.
blastx: максимальное число находок 250, длина слова 5.
Результат: 250 находок, E value от 5е-30. Гены PLIN1 птиц. Видовой состав тот же.
Алгоритм принимает на вход нуклеотидную последовательность, транслирует её по заданной таблице и проводит поиск в белковой базе данных. Позволяет, например, выяснить, какие аминокислотные замены встречаются в данном белке.
tblastx: максимум 100 находок, длина слова 3.
Алгоритм не выдал ни одной находки даже после снятия всех ограничений на поиск.
Работает так же, как и blastx, но поиск проводит по базе данных, составленной из транслированных сиквенсов нуклеиновых кислот. Позволяет предсказывать гены.
Я установил на свой ПК пакет BLAST+.
Локальная база данных для поиска была создана с помощью программы:
makeblastdb -in D:\Users\User\Desktop\sunetr.fna -dbtype nucl
Таким образом, BLAST поиск будет проводится по индексированной сборке mSunEtr1.pri.cur.
Я провёл локально BLAST-поиск последовательностей 16S и 23S-рРНК E.coli K12.
16S-рРНК играет важную роль в формировании малой субъединицы рибосомы, ближе к 3'-концу содердит последовательность Шайна-Дальгарно. 23S-рРНК формирует структуру большой субъединицы рибосомы. Вместе эти две РНК, связываясь, обеспечивают формированиие цельного рибосомального комплекса в процессе инициации трансляции.
Я использовал алгоритм blastn, т.к. последовательности РНК-кодирующих генов не нуждаются в трансляции.
Параметры запуска:
blastn -task blastn -query D:\Users\User\Desktop\16S_rRNA.txt -db D:\Users\User\Desktop\sunetr.fna -out D:\Users\User\Desktop\blastnout_16.txt -evalue 0.05
blastn -task blastn -query D:\Users\User\Desktop\23S_rRNA.txt -db D:\Users\User\Desktop\sunetr.fna -out D:\Users\User\Desktop\blastnout_23.txt -evalue 0.05
16S-рРНК: 4 находки, из которых одна располагается в нелокализованном скаффолде.
Среди найденных участков только один кодирующий: локус LOC126031457 15 хромосомы, где закодирована 18S-рРНК. Я не думаю, что в данном случае найден действительно гомологичный участок. Тем более, что их и не могло найтись, т.к. в сборке отсутствует митохондриальный геном, включающий ген 16S-рРНК, схожей с таковой у бактерий.
23S-рРНК: 12 находок, из которых одна располагается в нелокализованном скаффолде. Гомологичных кодирующих последовательностей не нашлось.