Нуклеотидный BLAST

BLAST фрагмента ДНК

Для анализа я взял геном речной выдры (Lutra lutra), идентификатор в GenBank: GCA_902655055.2, идентификатор в RefSeq: GCF_902655055.1. В качестве фрагмента для анализа я выбрал участок 18 хромосомы (GB: LR738420.1, RS: NC_062295.1) с 150 425 по 151 463 нуклеотид (длина 1039 п.о.), содержащий в себе ген альфа-субъединицы гемоглобина.

Рис. 1. Расположение элементов на выбранном участок 18 хромосомы Lutra lutra

На рисунке мы можем увидеть структуру гена альфа-субъединицы гемоглобина. Он состоит из 5' и 3'-НТО (светло-зеленые блоки), 3 экзонов (темно-зеленые блоки) и 2 интронов (зеленые линии между экзонами)

Последовательность данного фрагмента в формате FASTA вы можете скачать по ссылке.

В качестве организма для поиска в нем своей последовательности я выбрал шпорцевую лягушку (Xenopus laevis). Шпорцевая лягушка относится к классу земноводные, шпорцевая лягушка и речная выдра относятся к типу хордовые. Поиск я проводил с помощью blastn, blastx, tblastx, megablast, далее поговорим о каждой программе подробнее.

blastn - размер слова 11, e-value 0.05 (по умолчанию). Нашлось 9 результатов, все они (кроме одного с неописанными функциями), ожидаемо, являются генами или мРНК гемоглобинов. Выдачу бласта в формате txt вы можете найти по ссылке

megablast- размер слова 16 (минимально возможное) e-value 0.05 (по умолчанию), все бОльшие размеры слова приводили к отсутствию результатов. Нашлось 3 результата, все мРНК какой-либо субъединицы гемоглобина. Выдачу бласта в формате txt вы можете найти по ссылке

blastx - размер слова 5 (по умолчанию), e-value 1e-15. Такой выбор e-value обусловлен тем, что мы по сути сравниваем белковые последовательности, а для них в статьях обычно используется e-value такого порядка. Нашлось 20 результатов, все они снова являются какими-то субъединицами гемоглобина (или белками с неописанными функциями). Выдачу бласта в формате txt вы можете найти по ссылке

tblasx- размер слова 3 (по умолчанию), e-value 1e-15 (объяснение аналогично blastx). Нашлось 29 результатов, все они снова являются какими-то субъединицами гемоглобина (или белками с неописанными функциями). Выдачу бласта в формате txt вы можете найти по ссылке

Каждая разновидность бласта используется для своих задач. Вот примеры таких использований:

Blast генов рРНК E. coli на геном Lutra lutra

В файле находятся последовательности 16S и 23S рРНК E. coli. 16S рРНК в рибосоме выполняет структурную функцию, узнает последовательность Шайна-Дальгарно на мРНК, связывает некоторые трансляционные факторы, участвует в связывании большой и малой субъединиц рибосом. 23S рРНК- основная функция каталитическая (транспептидация)

Далее я создал локальную базу данных и использовал blastn для поиска в ней последовательностей, похожих на 16S и 23S рРНК E. coli:

Выдачу бласта вы можете найти по ссылке

Я использовал blastn, так как мы ищем не кодирующие белок нуклеотидные последовательности у не близкородственных организмов.

Для обоих рРНК нашлось 2 хита, у каждой один хит находился на неразмещенном скаффолде (не аннотированы), а второй на 16 хромосоме. Для 16S рРНК это интрон одного из генов, кодирующих коллаген, а для 23S рРНК это ген 28S рРНК. Результат для 23S рРНК ожидаемый, а для 16S рРНК нет. Возможно, это просто случайность, а может быть участок гена 16S рРНК из митохондрии встроился в интрон гена коллагена, поэтому мы наблюдаем там похожие последовательности.