Нуклеотидный BLAST
BLAST фрагмента ДНК
Для анализа я взял геном речной выдры (Lutra lutra), идентификатор в GenBank: GCA_902655055.2, идентификатор в RefSeq: GCF_902655055.1. В качестве фрагмента для анализа я выбрал участок 18 хромосомы (GB: LR738420.1, RS: NC_062295.1) с 150 425 по 151 463 нуклеотид (длина 1039 п.о.), содержащий в себе ген альфа-субъединицы гемоглобина.
На рисунке мы можем увидеть структуру гена альфа-субъединицы гемоглобина. Он состоит из 5' и 3'-НТО (светло-зеленые блоки), 3 экзонов (темно-зеленые блоки) и 2 интронов (зеленые линии между экзонами)
Последовательность данного фрагмента в формате FASTA вы можете скачать по ссылке.
В качестве организма для поиска в нем своей последовательности я выбрал шпорцевую лягушку (Xenopus laevis). Шпорцевая лягушка относится к классу земноводные, шпорцевая лягушка и речная выдра относятся к типу хордовые. Поиск я проводил с помощью blastn, blastx, tblastx, megablast, далее поговорим о каждой программе подробнее.
blastn - размер слова 11, e-value 0.05 (по умолчанию). Нашлось 9 результатов, все они (кроме одного с неописанными функциями), ожидаемо, являются генами или мРНК гемоглобинов. Выдачу бласта в формате txt вы можете найти по ссылке
megablast- размер слова 16 (минимально возможное) e-value 0.05 (по умолчанию), все бОльшие размеры слова приводили к отсутствию результатов. Нашлось 3 результата, все мРНК какой-либо субъединицы гемоглобина. Выдачу бласта в формате txt вы можете найти по ссылке
blastx - размер слова 5 (по умолчанию), e-value 1e-15. Такой выбор e-value обусловлен тем, что мы по сути сравниваем белковые последовательности, а для них в статьях обычно используется e-value такого порядка. Нашлось 20 результатов, все они снова являются какими-то субъединицами гемоглобина (или белками с неописанными функциями). Выдачу бласта в формате txt вы можете найти по ссылке
tblasx- размер слова 3 (по умолчанию), e-value 1e-15 (объяснение аналогично blastx). Нашлось 29 результатов, все они снова являются какими-то субъединицами гемоглобина (или белками с неописанными функциями). Выдачу бласта в формате txt вы можете найти по ссылке
Каждая разновидность бласта используется для своих задач. Вот примеры таких использований:
- blastn (поиск нуклеотидной последовательности в нуклеотидной базе данных)- поиск некой регуляторной последовательности у разных организмов
- blastx (трансляция нуклеотидной последовательности и поиск по белковой базе данных)- поиск аллельных вариантов белков, когда у вас есть последовательность гена
- megablast (поиск очень похожих на запрос нуклеотидных последовательностей в нуклеотидной базе данных)- поиск ортологичных генов у близкородственных организмов
- tblastx (трансляция нуклеотидной последовательности и поиск по транслированной нуклеотидной базе данных)- поиск гомологичных белков, когда ваш геном не аннотирован
Blast генов рРНК E. coli на геном Lutra lutra
В файле находятся последовательности 16S и 23S рРНК E. coli. 16S рРНК в рибосоме выполняет структурную функцию, узнает последовательность Шайна-Дальгарно на мРНК, связывает некоторые трансляционные факторы, участвует в связывании большой и малой субъединиц рибосом. 23S рРНК- основная функция каталитическая (транспептидация)
Далее я создал локальную базу данных и использовал blastn для поиска в ней последовательностей, похожих на 16S и 23S рРНК E. coli:
- makeblastdb -in GCF_902655055.1_mLutLut1.2_genomic.fna -dbtype nucl -out lutra_lutra
- blastn -db lutra_lutra -query query.fasta -evalue 0.05 -word_size 11 -out result
Выдачу бласта вы можете найти по ссылке
Я использовал blastn, так как мы ищем не кодирующие белок нуклеотидные последовательности у не близкородственных организмов.
Для обоих рРНК нашлось 2 хита, у каждой один хит находился на неразмещенном скаффолде (не аннотированы), а второй на 16 хромосоме. Для 16S рРНК это интрон одного из генов, кодирующих коллаген, а для 23S рРНК это ген 28S рРНК. Результат для 23S рРНК ожидаемый, а для 16S рРНК нет. Возможно, это просто случайность, а может быть участок гена 16S рРНК из митохондрии встроился в интрон гена коллагена, поэтому мы наблюдаем там похожие последовательности.