Практикум 8. Нуклеотидный BLAST

Поиск в геноме эукариота ген, кодирующий δ-субъединицу АТФ-синтазы

В рамках данного практикума я работала с организмом, который использовался для работы в предыдущем практикуме, а именно Panthera Uncia.

С помощью текстового поиска в файле с последовательностями белков эукариота я нашла белок, аннотированный как δ-субъединица АТФ-синтазы (митохондриальный). Был получен файл с последовательностью в формате fasta.

Идентификатор нуклеотидной записи NW_026059575.1, к которой относится данный белок-кодирующий ген, был в файле с последовательностями генома с аннотацией по идентификатору XP_049480088.1 в LOCUS.

Далее представлен файл последовательности гена с небольшой окрестностью до и после самого гена в fasta-формате.

Рисунок 1. Результат с NCBI

Разные варианты BLAST для фрагмента ДНК

В этом задании нужно было найти гомологи δ-субъединицы АТФ-синтазы у дальних родственников Panthera uncia, в условии задания указывались первичноротые животные. Выбор был между Araneae и Apoidea, я выбрала пчёлок, потому что они милые и пушистые (пауки, по моему мнению, не милые).

Поиск гомологов происходил при помощи алгоритов BLAST. В качестве БД была выбрана RefSeq Genome Database (там аннотированные последовательности). Для пчёл нашлось 29 сборок, в которых, предполагаем, есть δ-субъединица АТФ-синтаза (ожидаемое число гомологов 29).

Первым использовался blastn, так как он способен находить схожести даже у сильно различающихся последовательностей. На вход подавался файл с последовательностью гена с его небольшой окрестностью в формате fasta.

В итоге, было получено 8 находок, их Query Cover составляет 1%. Среди находок нет генов δ-субъединицы. Здесь представлена ссылка на файл с результатами.

Рисунок 2. Результат blastn

Следующим алгоритмом был tblastn. На вход программе подавлся файл с последовательностью исследуемого белка (указан выше).

В итоге, было получено 25 находок, некоторые находки выровнялись с 80%, относительно последовательности исследуемого белка, у некоторых был результат в половину меньше. К сожалению, среди них не было генов δ-субъединицы. Здесь представлена ссылка на полученный файл.

Рисунок 3. Результат tblastn

Поиск в геноме эукариота генов основных рибосомальных РНК по далекому гомологу

В этом задании был проведён поиск гомологов 16S рРНК и 23S рРНК Escherichia coli у Panthera uncia.

Функции 16S рРНК (скопировано с Википедии):

Функции 23S рРНК:

Индексация последовательности генома моего эукариота для работы локального BLAST на kodomo (осуществлялось в волшебной папке /mnt/scratch/NGS/fufayevas, потому что места для такого файла хватило только там) была осуществлена при помощи программы:

Затем был произведен локальный поиск BLAST отдельно для каждой рРНК при помощи следующих команд (был запущен blastn, поскольку он подходит для поиска похожих некодирующих белки нуклеотидных последовательностей даже среди неблизкородственных организмов):

Далее приведены полученные после этих программ файлы: 16Stext.out, 16Stable.out, 23Stext.out и 23Stable.out.

Я относила все находки с E-value, большим единицы, к случайным находкам, плюс изучала аннотацию у найденных участков и информацию из файла gbff и сайта NCBI (с целью нахождения функций). Теперь, основываясь на полученной информации, отберём гомологи.

Для 16S: NW_026057829.1 Panthera uncia isolate 11264 unplaced genomic scaffold: координаты: 23690 - 23648, 23909 - 23806; функция (взято с NCBI): 5.8S ribosomal RNA. По моему мнению, получается только 1 гомолог.

Для 23S: 3 находки совпадают: NC_010638.1 Uncia uncia mitochondrion (2134 - 2202), NW_026059973.1 Panthera uncia isolate 11264 unplaced genomic scaffold (14422 - 14354) и NC_064809.1 Panthera uncia isolate 11264 chromosome B4 (14220108 - 14220176) (они выравниваются по абсолютно одинаковому участку с Query, а именно с 752 по 820) при этом одна из них обнаружена в митохондриальном геноме, другая в хромосоме B4, а третья в скэффолде. При этом данная митохондриальная находка отвечает за синтез 16S рРНК (если искать данную находку по локусу NC_010638.1 в файле gbff), а другая часть последовательности данного локуса отвечает за синтез 12S рРНК. По моему мнению, получается 3 гомолога (если считать их все разными, а не единой).

Рисунок 4. Описываемые участки из 23Stext.out