Нуклеотидный BLAST


Определение функции и таксономии нуклеотидной последовательности

В практикуме 4 была получена консенсусная последовательность секвенирования по Сэнгеру. В этом задании нужно было предположить функцию этой последовательности и таксономическое положение организма, геному которого она принадлежит. Для того, чтобы это выяснить, мы воспользовались сервисом BLAST. От туда мы перешли на Nucleotide BLAST и настроили ряд параметров. Изначально мы ничего не знаем про эти последовательности, поэтому мы выбираем алгоритм blastn, поскольку нам не принципиальна высокая степень идентичности. Пороговый e-value выставляем побольше, чтобы увеличить вероятность хоть какой-то находки, а размер слова поменьше, чтобы искать более точно. Также просим показать побольше последовательностей в выдаче. Чтобы ускорить поиск, мы исключили из базы образцы неизвестного происхождения и метагеномы. Список измененных параметров (их также можно посмотреть в файле Search strategy):
Exclude: Uncultured/environmental sample sequences
Алгоритм: blastn (Somewhat similar sequences)
Max target sequences: 500
Expect threshold: 10
Word size: 7
В результате мы получили следующую выдачу. Поскольку все лучшие находки являются первой субъединицей цитохром c-оксидазы, можно с уверенностью сказать, что наша последовательность кодирует этот белок. Цитохром с-оксидаза является четвертым ферментов электрон-транспортной цепи митохондрий, которая катализирует перенос электронов с цитохрома с на кислород с образованием воды. Первые 15 находок принадлежат Polycirrus medusa, поэтому, вероятно, исследуемая последовательность тоже принадлежит этому виду. Хотя строго говоря, поскольку были найдены последовательности представителей разных видов, мы можем точно утверждать о принадлежности к трибе Terebellini, что само по себе неплохо. На сходство указывает значение e-value меньше 10-10 и 99% идентичности в одной из находок. Всё-таки последовательность цитохром-оксидазы является очень консервативной, и процент идентичности 80% и ниже при наличии сходства с кем-то еще в 90%, вряд ли укажет на принадлежность к виду. Сам вид, к слову, принадлежит к типу Annelida, классу Polychaeta, подклассу Sedentaria, семейству Terebellidae и роду Polycirrus. Я бы с удовольствием приложил его фотографию, но червь выглядит довольно жутко. Для утверждения уровня таксономии мы посмотрели, сколько замен характерно для представителей рода на данном участке. Последовательности, полученные со страницы с результатом в блоке aligned sequences из рода Polycirrus были выровнены с помощью muscle и визуализированы в JalView.

alignment

Рис. 1. Полученное выравнивание находок в Jalview для рода Polycirrus. Кликните на изображение, чтобы улучшить качество

Исходя из выравнивания, видно, что внутри рода замены происходят в среднем в 70 сайтах при общей длине последовательности 660, что довольно много (около 10%). Посчитано это по не синим цельным столбцами, чтобы не учитывать уникальные только для одного организма SNP. В остальных родах число замен ожидаемо будет еще выше, что позволяет нам остановиться на систематике до рода.

Поиск генов белков в неаннотированной нуклеотидной последовательности

В этом задании нужно было найти ген и предсказать его функцию в одном из контигов из предыдущего практикума. Для этого мы взяли контиг длиной 29 171 b.p. (fasta) и воспользовались blastx, для того, чтобы искать по транслированным последовательностям. Для поиска были изменены следующие параметры (отдельный файл):
Database: UniprotKB/Swiss-Prot Non-redundant database (для ускорения поиска)
max target sequences: 100
Expect treshold: 1 (выбрано небольшое значение для того, чтобы сузить поиск)
Word size: 3 (для увеличения чувствительности)
Exclude organism: Dictyostelium (taxid:5782), Uncultured/environmental sample sequences (чтобы не попасть на первоначальную последовательность)
В результате была получена следующая выдача. Вероятно, одним из белков последовательности является неклассический миозин. Это белок, которые связывает актиновые филаменты с помощью ATP. Особенно интересно, что почти все найденные организмы являются грибами (как в широком смысле и Dictyostelium). Белок попал в последовательность полностью (начало и конец белка лежат между началом и концом контига), а процент идентичности составляет 50% (что хорошо для белковой последовательности), поэтому можно говорить о гомологии.

Интепретация карты локального сходства гомологичных хромосом двух бактерий

В этом задании перед нами стояла задача построить карту локального сходства хромосом двух близких бактерий и описать крупные геномные перестройки, которые эта карта позволяет обнаружить. Для этого мы выбрали две бактерии одного рода разных видов, для которых доступны полные геномы, собранные до хромосом. Я поискал бактерий с геномами по-меньше, чтобы получить карту адекватного вида (около 1 мегабазы). Итак, это Rickettsia conorii (fasta) и Rickettsia typhi (fasta). Для получения карты локального сходства я воспользовался BLAST двух последовательностей, алгоритмом Megablast для большей точности. Параметры оставил по умолчанию. На карте видны небольшие индели на основной линии, а также видно две крупные инверсии и транслокацию.

Рис. 2. Матрица локального сходства