blastn
, поскольку нам не принципиальна высокая степень идентичности.
Пороговый e-value
выставляем побольше, чтобы увеличить вероятность хоть какой-то находки, а размер слова поменьше, чтобы искать более точно. Также просим показать побольше последовательностей в выдаче.
Чтобы ускорить поиск, мы исключили из базы образцы неизвестного происхождения и метагеномы.
Список измененных параметров (их также можно посмотреть в файле Search strategy):blastn
(Somewhat similar sequences)500
10
7
e-value
меньше 10-10 и 99% идентичности в одной из находок.
Всё-таки последовательность цитохром-оксидазы является очень консервативной, и процент идентичности 80% и ниже при наличии сходства с кем-то еще в 90%,
вряд ли укажет на принадлежность к виду.
Сам вид, к слову, принадлежит к типу Annelida, классу Polychaeta, подклассу Sedentaria, семейству Terebellidae и роду Polycirrus.
Я бы с удовольствием приложил его фотографию, но червь выглядит довольно жутко.
Для утверждения уровня таксономии мы посмотрели, сколько замен характерно для представителей рода на данном участке.
Последовательности, полученные со страницы с результатом в блоке
aligned sequences из рода Polycirrus были выровнены с помощью muscle
и визуализированы в JalView.
Рис. 1. Полученное выравнивание находок в Jalview для рода Polycirrus. Кликните на изображение, чтобы улучшить качество
Исходя из выравнивания, видно, что внутри рода замены происходят в среднем в 70 сайтах при общей длине последовательности 660, что довольно много (около 10%). Посчитано это по не синим цельным столбцами, чтобы не учитывать уникальные только для одного организма SNP. В остальных родах число замен ожидаемо будет еще выше, что позволяет нам остановиться на систематике до рода.
В этом задании нужно было найти ген и предсказать его функцию в одном из контигов из предыдущего практикума.
Для этого мы взяли контиг длиной 29 171 b.p.
(fasta) и воспользовались blastx
,
для того, чтобы искать по транслированным последовательностям. Для поиска были изменены следующие параметры
(отдельный файл):
Database: UniprotKB/Swiss-Prot Non-redundant database
(для ускорения поиска)
max target sequences: 100
Expect treshold: 1
(выбрано небольшое значение для того, чтобы сузить поиск)
Word size: 3
(для увеличения чувствительности)
Exclude organism: Dictyostelium (taxid:5782), Uncultured/environmental sample sequences
(чтобы не попасть на первоначальную последовательность)
В результате была получена следующая выдача.
Вероятно, одним из белков последовательности является неклассический миозин. Это белок, которые связывает актиновые филаменты с помощью ATP.
Особенно интересно, что почти все найденные организмы являются грибами (как в широком смысле и Dictyostelium).
Белок попал в последовательность полностью (начало и конец белка лежат между
началом и концом контига), а процент идентичности составляет 50% (что хорошо для белковой последовательности), поэтому можно говорить о гомологии.
В этом задании перед нами стояла задача построить карту локального сходства хромосом двух близких бактерий и
описать крупные геномные перестройки, которые эта карта позволяет обнаружить.
Для этого мы выбрали две бактерии одного рода разных видов, для которых доступны полные геномы, собранные до хромосом.
Я поискал бактерий с геномами по-меньше, чтобы получить карту адекватного вида (около 1 мегабазы).
Итак, это
Rickettsia conorii (fasta) и
Rickettsia typhi (fasta).
Для получения карты локального сходства я воспользовался BLAST двух последовательностей, алгоритмом Megablast
для большей точности.
Параметры оставил по умолчанию. На карте видны небольшие индели на основной линии, а также видно две крупные инверсии и транслокацию.