Нуклеотидный BLAST

Задание 1. BLAST на фрагменте ДНК

Я выбрал окрестность ABC транспортера С с длиной в 1523 нуклеотида и координатами 19 909 201 – 19 918 461 на комплементарной цепи первой хромосомы. В итоге была взята окрестность 19 918 981 – 19 909 035 (длина 9 947 пар оснований, рис. 1). Полученный FASTA файл можно посмотреть по ссылке.

fig1
Рис. 1. Вырезанный из последовательности генома фрагмент гена АВС транспортера С с его некодирующей окрестностью показаны зеленым.

Выбранный мной организм по своей сущности мох, и с учетом этого факта я провел поиск последовательностей по выбранной мной с использованием разных алгоритмов BLAST: blastn, megablast, blastx, tblastx (табл. 1). Искал по всем семенным растениям, так как среди них довольно много собранных геномов и много просто аннотированных последовательностей ДНК.

Алгоритм Таксон Длина слова Кол-во находок Находки Использование алгоритма
blastn Семенные растения 28 3 Agrostemma githago (хромосомы 8 и 18) и Sphenostylis stenocarpa Используется для определения принадлежности к тому или иному таксону, а также для сравнения геномов не близкородственных организмов.
megablast 28 3 Выдача полностью совпала с выдачей blastn Осуществляет быстрый поиск среди очень похожих последовательностей.
blastx 3 5000 Поиск выдал аналогичные ABC транспортеры С у самых разных цветковых растений. Идентичность практически всех находок 45±5%. Присутствуют самые разные семейства цветковых и голосеменных. Определяет кодирующие последовательности и ведет поиск по ним.
tblastx Я пытался запускать эту программу с самыми щадящими CPU параметрами, но все равно вылезала ошибка, связанная со слишком большим использованием CPU. При запуске на локальном компьютере получил несовместимость аргументов remote и taxidlist, а качать базу данных себе на ноутбук не хотелось :( Может использоваться для предсказания генов в последовательностях.

Таблица 1. Сравнение разных алгоритмов BLAST.

Задание 2. Гены рибосомальных РНК

Сначала была создана база данных на основе генома моего чудного мха. Для выполнения следующей задачи был выбран blastn, поскольку проводится поиск по нуклеотидным последовательностям, а гены рРНК как раз не являются белок-кодирующими.

Ниже указаны команды в порядке использования: makeblastdb использовалась для создания базы данных, из опций только файл на вход и указание типа базы данных.

Для реализации алгоритма blastn использовалась одноименная программа. При помощи аргумента -evalue удалялись плохие находки, а -outfmt для приятного вывода в табличку. Файлы с последовательностями рРНК кишечной палочки были получены из соответсвующего файла.

16S рРНК входит в состав малой субъединицы, 23S рРНК в состав большой субъединицы прокариотической рибосомы, а прокариотические рибосомы в клетке мха могут находиться разве что в митохондриальном и пластидном геномах.

Как и ожидалось, в топе находок при сортировке по E-Value от меньшего митохондриальный (AB251495.1) и пластидный (AP005672.1) геномы.

Но стоит отметить, что в записи генома митохондриальный и хлоропластный геномы не аннотированы в принципе, да и мхи, к сожалению, не самый популярный объект для аннотации геномных сборок. Как результат, искать какие-либо закономерности в голомологии вряд ли имеет смысл.