Поиск по сходству (нуклеотидный blast).



Задание 1. Определить таксономию и функцию прочтённой в практикуме 6 нуклеотидной последовательности.

Для начала была получена консенсусная последовательность из выравнивания (ae1.fasta) в практикуме 6 c помощью программы consambig; результат - consensus.fasta. Затем с помощью blastn были получены следующие результаты:


Отсюда видно, что наша последовательность - это часть последовательности гена 18S рибосомальной РНК. Исходя из трех лучших находок можно предположить, что это ген из организма семейства Orbiniidae:



Задание 2. Сравнение списков находок нуклеотидных последовательностей тремя разными вариантами blast.
Для консенсусной последовательности из задания 1 были получены находки с помощью megablast, blastn с параметрами по умолчанию и blastn с максимально чувствительными параметрами. Для blastn с параметрами по умолчанию результат был получен ранее:


Для megablast результаты отличаются только чуть большим Max score для каждой соответствующей находки:


При изменении параметров blastn: word size с 11 на 7, Match/Mismatch Scores с 2,-3 на 1,-1 и при ограничении поиска таксоном Orbiniidae, исключая Scoloplos, количество находок уменьшилось с максимального 100 до 36, хотя кроме этого рода остальные полученные ранее остались, ранее количесвто находок было максимальным:


Далее была взята последовательность рРНК из митохондриального генома из предыдуущего практикума seq.txt. По результатам megablast выявилось 100 находок, причем на первом месте - из нашего митохондриального генома, оставшиеся были с намного меньшими Max score и покрытием:


Для стандартного blastn количество находок такое же, причем лучшая находка, что неудивительно, осталась прежней (только с чуть меньшим Max score), в остальном результаты довольно схожи, но здесь вклинилась 3-я находка с много меньшим identity:


При изменении параметров blastn: Word size с 11 на 7, лучшая находка не изменилась, как и их количество:


Хотя некоторые находки увеличились в покрытии:


Из всех этих данных, особенно для второй последовательности, видно, что megablast выбирает только максимально схожие последовательности и сделать blastn чувствительным довольно сложно.
Задание 3. Проверка наличия гомологов трех белков в неаннотированном геноме.
Для этого задания использовался неаннотированный геном организма Amoeboaphelidium protococcarum ( файл X5.fasta, на основе которого была создана локаальная база данных с помощью команды:
makeblastdb -in X5.fasta -dbtype nucl
Поиск гомологов проводился для трех белков: TERT_SCHPO, TBB_NEUCR и EIF3G_SCHPO.
Для поиска гомологов применялся tblastn. Шаблон команды:
tblastn -query name.fasta -db X5.fasta > name.out
1. TERT_SCHPO
Это теломераза,восстанавливающая длину хромосомы при репликации; имеется у большинства (но не всех) эукариот, и для нее лучшая находка оказалась scaffold-17 со Score(bits): 108 и E-value: 1e-23. В общем в полученном выравнивании содержались лишь участки с низким процентом идентичности (25%), из этого можно сделать вывод, что гомологии нет.
2. TBB_NEUCR
Это тубулин, белок, участвующий в образовании микротрубочек. Лучшая находка в геноме: scaffold-26 со Score(bits):693 и E-value:0.0. В полученном участке выравнивания процент идентичности очень высок (87%), почти нет гэпов и показатель E-value равен нулю, отсюда можно сделать вывод, что наблюдается гомология.
3. EIF3G_SCHPO
Это фактор инициации трансляции eIF3g, содержит также РНК связывающий домен. Здесь лучшая находка scaffold-20 со Score(bits): 95.5 и E-value: 2e-21. В общем показатель Score был довольно низкий - меньше 95.5, да и Identity меньше 38%, отсюда можно предположить, что гомология не наблюдается.
Задание 4. Поиск какого-нибудь гена белка в одном из контигов.
Был выбран контиг unplaced-307, последовательность которого была получена по формуле:
seqret <имя файла>:<имя последовательности> -out <имя выходного файла>
Так как надо было найти гомологичные последовательности белка по нуклеотидной последовательности одного из контигов организма Amoeboaphelidium protococcarum,то использовался blastx.
Поиск осуществлялся в базе данных Reference proteins на сайте NCBI. Ставилось ограничение на таксон Fungi, поскольку известно, что Amoeboaphelidium protococcarum - примитивный родственник грибов. В итоге:


Здесь E-value находок равно 0.0, Max score довольно высокий и находки - это в основном белки пептидазы, что позволяет сделать ввод, что в этом контиге есть ген наиболее часто возникшей хорошей находки - лизина аминопептидазы. Аминопептидазы катализируют отщепление концевой аминокислоты пептида, лизин аминопептидаза, соответственно, более специфична к реакции отщепления концевых лизинов.
Задание 5. Карта локального сходства геномов двух бактерий.
Для этого задания были выбраны геномы двух бактерий, а точнее их 2-е хромосомы: Brucella ovis (NC_009504.1) и Brucella abortus (NC_006933.1), и для них получена карта локального сходства с помощью выравнивания megablast:


Здесь можно увидеть делецию в правом верхнем углу и инверсию посередине.


©Makarikova Olga 2018