В одном из предыдущих практикумов была получена консенсусная последовательность. В этом задании нужно было предположить ее функции и таксономическое положение организма, геному которого эта последовательность принадлежит. Для выполнения первого упражнения я воспользовалась сервисом BLAST. Так как о последовательности ничего неизвестно, то целесообразей выбирать алгоритм blastn в nucleotide BLAST. Для повышения точности поиска я уменьшила word size до семи. Чтобы скорость поиска при этом была не сильно медленной, в настроках параметров из базы были исключены образцы неизвестного происхождения и метагеномы. Результат выдачи можно посмотреть здесь.
Среди лучших находок можно выделить первые 20, так как они имеют 100% покрытие и идентичность выше 96%. 11-ая находка была исключена из "лучших", так как покрытие составляет всего 89%, несмотря на высокую идентичность, что свидетельствует о том, что в ней, скорее всего, отсеквенирована только часть искомой последовательности. На основе полученных данных можно сказать, что наша последовательность принадлежит гену, кодирующему 18S рибосомальную РНК. Все интересущие находки принадлежат семейству Orbiniidae. Полное таксономическое положение: Eukaryota; Metazoa; Spiralia; Lophotrochozoa; Annelida; Polychaeta; Sedentaria; Scolecida; Orbiniidae.
Видовую и родовую принадлежность организма определить не удалось, так как все "лучшие" находки относятся к разным родам.
Далее я выровняла полученные последовательности с помощью muscle и визуализировала их в JalView (ссылка на проект). Ниже вы можете ознакомиться с результатами.
Рис. 1. Полученное выравнивание в Jalview. Кликните на изображение, чтобы улучшить качество
Результат выравнивание показывает, что замены и вставки встретились в 21 сайте (уникальные замены и вставки в отдельных последовательностях не учитывались), что составляет примерно 5% от общей длины последовательности и говорит о ее высокой консервативности.
Для выполнения этого упражнения был выбран контиг из организма Dictyostelium discoideum.
Используемый алгоритм - blastx (поиск по транслируемым последовательностям)
Измененные параметры:
Database: UniprotKB/Swiss-Prot
Word size: 3 (для повышения чувствительности)
Exclude organism: Dictyostelium (taxid:5782), Uncultured/environmental sample sequences (чтобы не попасть на первоначальную последовательность)
Вероятно, одним из белков последовательности является тРНК уридин(34) ацилтрансфераза, так как ему принадлежат "лучшие" выдачи с идентичностью >80%. Данный белок попадает в последовательность полностью, так как его начало и конец лежат в пределах последовательности контига.
В этом задании нужно было построить карту локального сходства хромосом двух близких бактерий и описать крупные геномные перестройки, которые эта карта позволяет обнаружить.
Выбранные бактерии: streptococcus pyogenes (fasta), streptococcus dysgalactiae (fasta)
Для построения карты локального сходства их хромосом был исользован megablast с параметрами по умолчанию.
Наиболее заметные перестройки: транслокации (выделены синим), инверсия (выделена зеленым), индель (выделена красным).