Цель этого задания - предположить функцию нуклеотидной последовательности , полученной при расшифровке хроматограммы, и таксономическое положение организма, геному которого она принадлежит. Для выполнения данной задачи воспользуемся BLAST. Перед поиском гомологичных последовательностей нам нужно задать параметры поиска. Для начала разберемся с алгоритмом поиска. Megablast не подойдет - слишком большая длина слов, много последовательностей может быть пропущено, не ясно, является ли наш консенсус консервативной последовательностью, как много гомологов возможно найти. Думаю, что лучшего всего в этом случае подойдет алгоритм blastn. Далее выбираем наименьший wordsize, остальные параметры оставляем по умолчанию, немного ждем и получаем вот такой результат .
Все найденные последовательности кодируют 18S ribosomal RNA, причем последовательность является лишь частью гена - на это указывает подпись partial во всех находках.
Для утверждения уровня таксономии можно скачать выровненные последовательности опция download -> aligned sequences и визуализировать в JalView. Покрасив выравнивание по проценту идентичности, заметим, что наиболее схожи последовательности 1-142 нуклеотид. Подавляющее большинство из них принадлежат кольчатым червям, причем среди 12 первых находок с процентом идентичности >95% и 100-процентным покрытием все принадлежат к семейству Orbiniidae (NCBI:txid46603). Среди находок не из этого семейства процент идентичности варьирует от 92 до 87%, объясняется тем, что 18s РНК высококонсервативна. Большинство из этих находок принадлежат таксонам внутри полихет, но есть 7 последовательностей моллюсков. Идентичность ~87% для 18s РНК ни о чем не говорит, т.к последовательность высококонсервативна и находки такого уровня встречаются в разных крупных таксонах, а вот 95% и выше уже вполне укладывается в рамки изменчивости внутри семейства или ошибок секвенирования. Таким образом, исходная последовательность является последовательностью 18S РНК кольчатого червя из семейства Orbiniidae (или другого близкого семейства в составе полихет).
Для выполнения задания я взяла контиг из прошлого практикума sequence.fasta . Он оказался очень длинным, а находки в основном состояли из ретропереносных элементов. Поэтому, контиг был изменен на этот . Использовался blastx т.к. нужен поиск по генам в данном контиге, то лучше будет протранслировать его в пептид и поискать гомологичные).Для поиска были изменены следующие параметры:
Database: UniprotKB/Swiss-Prot Non-redundant database
max target sequences: 100
Expect treshold: 1
Word size: 3
Exclude organism: Dictyostelium discoideum AX4 (taxid:352472), Uncultured/environmental sample sequences (чтобы не попасть на первоначальную последовательность.
В результате была получена следующая выдача . Вероятно, одним из белков последовательности является Тирозин-тРНК-лигаза, также известная как тирозил-тРНК-синтетаза, представляет собой фермент, который кодируется геном YARS . Тирозин - тРНК лигаза катализирует химическую реакцию
АТФ + L-тирозин + тРНК (Tyr) = АМФ + дифосфат + L-тирозил-тРНК (Tyr)
В этом задании перед нами стояла задача построить карту локального сходства хромосом двух близких бактерий и описать крупные геномные перестройки. Для этого выберим две бактерии одного рода разных видов, с геномами по-меньше, чтобы получить карту адекватного вида (около 1 мегабазы), без различных загрязнений - Rickettsia conorii и Rickettsia prowazekii . Для получения карты локального сходства возспользуемся BLAST двух последовательностей, алгоритмом Megablast для точности. Параметры оставиv по умолчанию. На карте видны небольшие индели на основной линии, а также видно крупную инверсию и транслокацию.