pano

Нуклеотидный BLAST

Задание 1

Для выполнения задания нужно было выбрать один любой желательно небольшой контиг, но для моего организма (Populus trichocarpa ) таковых не нашлось (видимо очень хорошая сборка). Поэтому я выбрала небольшой участок скэффолда с белок кодирующим фрагментом.

Немного о скэффолде. Я выбрала Populus trichocarpa isolate Nisqually-1 unplaced genomic scaffold scaffold_25 (MU628133.1), а ещё точнее его фрагмент с 51720 по 57955 нуклеотиды. Ниже на рисунке 1 представлена схема участка.

Рисунок 1. Схема выбранного фрагмента. На рисунке красное -- cds, фиолетовое -- ген, Темно-зеленым отмечены кодирующие экзоны, светло-зеленым - некодирующие.

Ссылки на последовательность в формате fasta.

Далее был проведен следующий поиск с исключением таксона Magnoliophyta (taxid:3398). Результаты бластов представлены в таблице 1.

blast число находок комментарий
blastn 134 Predicted находки всего 3 штуки, при этом максимально значение E-value 0,034; параметры бласта обычные
megablat 7 при обычных параметрах ничего не нахоится, но при уменьшение слова до 16 появляется 7 находок
blastx 1167 параметры этого бласта классические, при этом почти все белки это hypothetical protein
tblatx - при изменении любых параметров нормального результат нет

Исходя из полученных результатов можно сделать вывод, что blastn для нас полезен, когда последовательность белок-некодирующая или когда надо найти не в родственных видах, megablast - для поиска гомологичных последовательностей в близких родах (очень схожих), blastx - когда последовательность кодирует белок.

Задание 2.

Создание локальной базы данных по геному Populus trichocarpa производилось с помощью команды:

makeblastdb -in ./sequence.fasta -dbtype nucl -out db.fasta

Далее с помощью команды blastn был произведен поиск гомологичных участков на rRNA E.coli по созданной базе данных. 16S rRNA - одна из составляющих малой субъединицы рибосомы прокариот, 23S - большой.

Команды для 16S rRNA (для 23 аналогично): blastn -task blastn -query 16RNA_ecoli.txt -db db.fasta -out result16.fasta

Я использовала blastn из-за того, что нуклеотидные последовательности рРНК бактерии не транслируется (те сразу - белковые blastы), а megablast не поможет, тк мы аналиризуем бактерию и растение.

По ссылкам доступны результаты работы программ для 16S и 23S.

Теперь поговорим про результаты бласта.

Результатом работы программ было 17 находок для 16S rRNA и 18 находок для 23S rRNA. Большая часть находок имеет хороший Е-Value: меньше чем 1e-05 у 16S rRNA и 1e-08 у 23S rRNA. Причём для 16S rRNA, и для 23S rRNA лучшей находкой был геном хлоропласта (Е-Value 0.0 и там, и там). Помимо этого в выдачах бывали и иные находки с Е-Value 0.0, а именно фрагменты 11 и 7 хромосомы. Это более интересно.

23S rRNA выравнивается с участком 7077176..7076084 на 7 хромосоме. Там аннотирован белок (мРНК), что странно... Что касается выравниваний и 16S rRNA, и для 23S rRNA с участками 11 хромосомы, то в обоих случаях в базе нет данных о чём-то аннотированном там.