Функции и систематическая принадлежность последовательности.

В одном из прошлых практикумов были получены хроматограммы, по которым была получена консенсусная последовательность. В данном практикуме нужно узнать функцию и систематиче5ское положение организма, из которого были взяты хроматограммы.

Однозначно стоит использовать нуклеотидный варинт, ведь дана последовательность ДНК. Было решено сначала использовать blastN, чтобы искать не только близкие гомологи (как это делает MEGAblast), но и иные. Однако после был проверен поиск с помощью MEGAblast и оказалось, что находки ничем не отличаются. Далее можно видеть результаты поиска: выдача бласта. Как можно видеть из результатов выдачи, наш белок является цитохром оксидазой, при чем судя по проценту идентичности (около 99%) данный белок принадлежит Polycirrus medusa. Соответственно таксономическое положение организма, которому принадлежит этот белок, представлено далее: Eukaryota; Opisthokonta; Metazoa; Eumetazoa; Bilateria; Protostomia; Spiralia; Lophotrochozoa; Annelida; Polychaeta; Sedentaria; Canalipalpata; Terebellida; Terebelliformia; Terebellidae; Polycirrus; Polycirrus medusa.

Далее для того, чтобы удостовериться в полученных данных, был использован blastx для поиска в базе данных белков. Результаты поиска подтвердили то, что было получено ранее.

Описание гена белка из контига.

Для данной части практикума был взят контиг из организма, рассмотренного ранее. Контиг можно скачать по ссылке- файл.

Изначально использовался blastx, чтобы определить, есть ли кодирующие белок гены в данном контиге. Однако пришлось ограничить по таксону Crotalus, так как иначе blast не мог выдать все находки (выдавалась ошибка). По следующей ссылке можно посмотреть на выдачу- выдача. Также стоит отметить то, что в выдаче все результаты относятся к тигровому гремучнику, хотя изначальный брался геном (а значит и контиг), принадлежащий полосатому гремучнику.

Аналогичные действия проводились и для нескорльких других контигов, выдачу приводить не буду, но хочу отметить, что и в этих запросах выдавались результаты только по тигровому гремучнику. Такие обстоятельства могут быть вызваны двумя случаями: либо это связано с тем, что эти организмы очень близки таксономически, либо могут быть ошибки в описании генома, который брался ранее (однако второе очень маловероятно, хотя возможно).

Что касается генов, кодирующих белки, то абсолютно точно можно сказать то, что на данном контиге полностью уместился ген, кодирующий белок ответственный за репарацию двухцепочечных разрывов (который является гомологом человеческого rad21, чтго следует из его названия).

Карта локального сходства бактериальных хромосом.

Для сравнения мною были выбраны две бактерии из одного рода - это бактерия Mycobacterium tuberculosis(геном в fasta-формате) и Mycobacterium avium(геном в fasta-формате). Сначала были использованы файлы в формате fasta, но blastn почему-то выдавал пустую страницу, поэтому было решено использовать RefSeq sequence (они и подписаны на полученном графике), но также пришлось несколько увеличить word size, так как иначе выдавалась ошибка об ограничении запроса по причине необходимости большого количества мощности для вычисления. Таким образом, используя RefSeq sequence и повышенный word size, я получил график, который представлен ниже. По горизонтали отложен геном Mycobacterium tuberculosis (NC_000962.3), а по вертикали - Mycobacterium avium (NC_008595.1).

Исходя из данного графика, можно говорить о том, что было, скорее всего, 3 инверсии (например, сначала одна большая, затрагивающая участок 100К-4410К, если смотреть по горизонтальной шкале, затем инверсия чуть меньше, которая затрагивает участки 850К-3900К, опять же, по горизонтальной шкале и последняя затронула участок 1500К-2850К), хотя эволюционный путь мог быть и другим. Что касаемо иных изменений в геноме, то можно видеть, что на 2.4М-2.6М у M.avium есть индель (участок, которому нет соответствия в геноме M.tuberculosis), что может говорить о вставке или делеции в ходе эволюции. Похожий индель можно наблюдать у M.avium на участке 1.8М-2М. Это не все такие участки, однако они больше других, поэтому упомянуты именно они.