Для выполнения задания нужно было выбрать один любой желательно небольшой контиг, но для моего организма (Populus trichocarpa ) таковых не нашлось (видимо очень хорошая сборка). Поэтому я выбрала небольшой участок скэффолда с белок кодирующим фрагментом.
Немного о скэффолде. Я выбрала Populus trichocarpa isolate Nisqually-1 unplaced genomic scaffold scaffold_25 (MU628133.1), а ещё точнее его фрагмент с 51720 по 57955 нуклеотиды. Ниже на рисунке 1 представлена схема участка.
Ссылки на последовательность в формате fasta.
Далее был проведен следующий поиск с исключением таксона Magnoliophyta (taxid:3398). Результаты бластов представлены в таблице 1.
blast | число находок | комментарий |
---|---|---|
blastn | 134 | Predicted находки всего 3 штуки, при этом максимально значение E-value 0,034; параметры бласта обычные |
megablat | 7 | при обычных параметрах ничего не нахоится, но при уменьшение слова до 16 появляется 7 находок |
blastx | 1167 | параметры этого бласта классические, при этом почти все белки это hypothetical protein |
tblatx | - | при изменении любых параметров нормального результат нет |
Исходя из полученных результатов можно сделать вывод, что blastn для нас полезен, когда последовательность белок-некодирующая или когда надо найти не в родственных видах, megablast - для поиска гомологичных последовательностей в близких родах (очень схожих), blastx - когда последовательность кодирует белок.
Создание локальной базы данных по геному Populus trichocarpa производилось с помощью команды:
makeblastdb -in ./sequence.fasta -dbtype nucl -out db.fasta
Далее с помощью команды blastn был произведен поиск гомологичных участков на rRNA E.coli по созданной базе данных. 16S rRNA - одна из составляющих малой субъединицы рибосомы прокариот, 23S - большой.
Команды для 16S rRNA (для 23 аналогично): blastn -task blastn -query 16RNA_ecoli.txt -db db.fasta -out result16.fasta
Я использовала blastn из-за того, что нуклеотидные последовательности рРНК бактерии не транслируется (те сразу - белковые blastы), а megablast не поможет, тк мы аналиризуем бактерию и растение.
По ссылкам доступны результаты работы программ для 16S и 23S.
Теперь поговорим про результаты бласта.
Результатом работы программ было 17 находок для 16S rRNA и 18 находок для 23S rRNA. Большая часть находок имеет хороший Е-Value: меньше чем 1e-05 у 16S rRNA и 1e-08 у 23S rRNA. Причём для 16S rRNA, и для 23S rRNA лучшей находкой был геном хлоропласта (Е-Value 0.0 и там, и там). Помимо этого в выдачах бывали и иные находки с Е-Value 0.0, а именно фрагменты 11 и 7 хромосомы. Это более интересно.
23S rRNA выравнивается с участком 7077176..7076084 на 7 хромосоме. Там аннотирован белок (мРНК), что странно... Что касается выравниваний и 16S rRNA, и для 23S rRNA с участками 11 хромосомы, то в обоих случаях в базе нет данных о чём-то аннотированном там.