pano

Нуклеотидный BLAST

Задание 1

Для определения таксономического положения организма, из которого был взят образец из практикума 6 по секвенированию, я использовал blastn с параметрами по умолчанию, кроме размера слова (я брал 7). База данных – nucleotide collection (nt) – базы GenBank, EMBL, DDBJ, PDB, и RefSeq, исключая EST, STS, GSS, WGS и TSA.

При сортировке выдачи по проценту идентичности две верхние находки с параметрами: вес в битах 1195 и 1191, покрытие 91%, процент идентичности равный 100% и столь малым e-value, что оно обозначается 0.0, принадлежат полихете Polycirrus medusa Grube, 1850. Параметры находок позволяют считать, что наш образец, видимо, принадлежит этому виду полихет. Другие (но определённые) виды этого рода также присутствуют в выдаче, но с меньшими значениями параметров (например, процент идентичности 83% и менее, а вес в битах меньше практически в два раза). Фрагменты выдачи с первыми двумя находками (принадлежат Polycirrus medusa) и первой в выдаче находкой другого известного вида этого рода приведены ниже:

	                                                              Scientific      Common                     Max    Total Query   E    Per.   Acc.                        
Description                                                       Name            Name            Taxid      Score  Score cover Value  Ident  Len        Accession        
Polycirrus medusa voucher BIOUG(CAN):WS0178 cytochrome oxidase... Polycirrus m... NA              1037304    1195   1195  91%   0.0    100.00 662        GU672524.1       
Polycirrus medusa voucher WS0223 cytochrome oxidase subunit 1...  Polycirrus m... NA              1037304    1191   1191  91%   0.0    100.00 660        GU672483.1
<...>
Polycirrus carolinensis voucher SIO:BIC:A1101 cytochrome oxida... Polycirrus c... NA              1311521    689    689   90%   0.0    83.43  657        JX423769.1 

В выдаче так же присутствуют образцы этого вида с чуть меньшим процентом идентичности (98% и 97%), что вызвано 10 и 18 заменами на 658 нуклеотидном участке. Однако эта разница заметно меньше, чем с другими видами этого рода. От точечных замен никто не застрахован, поэтому принадлежность организма мы можем определить с точностью до вида (ссылка на запись в базе Taxonomy).

Судя по нуклеотидному бласту, эта последовательность принадлежит последовательности гена первой субъединицы цитохромоксидазы, 658-нуклеотидный фрагмент которого используется для молекулярной систематики животных и баркодинга.

Для большей уверенности я дополнительно использовал blastx для поиска гомологов в белковой базе SwissProt (параметры по умолчанию, кроме размера слова – я взял 3). При сортировке по проценту идентичности первым в выдаче стоит полипептид 1 цитохром-C-оксидазы дождевого червя (Lumbricus terrestris Linnaeus, 1758), что подтверждает вывод о том, что наша последовательность относится к гену цитохромоксидазы (первая субъединица). Этот белок является частью митохондриальной цепи транспорта электронов, а его ген из-за своей консервативности часто используется для молекулярной филогении, что также добавляет уверенности в определении таксономической принадлежности образца.

	                                                              Scientific      Common                     Max    Total Query   E    Per.   Acc.                        
Description                                                       Name            Name            Taxid      Score  Score cover Value  Ident  Len        Accession        
RecName: Full=Cytochrome c oxidase subunit 1; AltName:...         Lumbricus te... common earth... 6398       307    307   97%   1e-101 81.28  513        Q34941.1 

Задание 2

В качестве неаннотированной последовательности я взял контиг CAJGIK010000069.1 из сборки генома сумчатого организма квокки Setonix brachyurus (Quoy and Gaimard, 1830) с AC: GCA_904810765.1. Для поиска генов белков в этой последовательности я использовал blastx, так как поиск по аминокислотным последовательностям позволяет находить более дальние гомологии из-за более высокой консервативности последовательности белка по сравнению с последовательностью его гена. Я взял базу nr, но ограничил поиск позвоночными (Vertebrata) для его ускорения и исключил таксон Setonix brachyurus. Параметры поиска по умолчанию (если бы не нашлось, можно было бы сделать более мягкий порог на e-value или уменьшить слово, но не понадобилось).

По результатам поиска можно с уверенностью сказать, что участок последовательности между 2 и 6484 нуклеотидами кодирует белок adenomatous polyposis coli. Этот белок является супрессором опухолей. Мутации в его гене приводят обычно к укорачиванию белкового продукта и являются необходимым вводным при раннем развитии аденом и карцином в толстом кишечнике (см. запись в UniProt). Скорее всего мы видим неполный ген, так как последовательность этого белка, например, человека имеет длину 2843 аминокислотных остатка, а первая в выдаче бласта последовательность этого белка, принадлежащая лисовидному поссуму (Trichosurus vulpecula (Kerr, 1792)), имеет длину 2844 остатка, причем около 700 аминоксилотных остатков белка из квокки не хватает с N-конца.

Квокка (Setonix brachyurus). Фотография с сайта 7factov.ru

Чтобы найти недостающие куски я взял первые 770 аминокислот этого белка из лисовидного поссума и с помощью tblastn попытался найти гомологичные участки в базе нуклеотидных последовательностей WGS из квокки. К сожалению, удалось восстановить только ещё 118 аминокислотных остатков с N-конца уже имеющегося фрагмента по другому контигу этой же сборки. Видимо, остальная часть оказалась не прочитана при секвенировании. Чтобы это подтвердить, я хотел запустить tblastn против базы SRA квокки, но риды проекта, в рамках которого была сделана эта сборка, я не нашёл, а те, что нашлись, не содержали нужной информации.

Итоговая неполная последовательность гена

Задание 3

Карта локального сходства геномов бактерий Streptococcus peroris (ось X) и S. infantis (ось Y).

Для построения карты локального сходства я использовал инструмент blast2seq с алгоритмом blastn. Я сравнивал полные геномы бактерий Streptococcus peroris (ось X) и S. infantis (ось Y). На получившемся графике мы видим две глобальные перестройки: делеция в геноме S. peroris на уровне примерно 200 килобаз, а также инверсия участка между 1300 и 1600 килобазами. Также есть небольшая делеция в геноме S. peroris на уровне примерно 630 килобаз.