1.Таксономия и функция прочтённой нуклеотидной последовательности (из практикума 6)

используйте BLASTN ("Somewhat similar sequences") по банку nr (i) предполагаемую функцию cytochrome oxidase subunit 1 (COI) gene, partial cds; mitochondrial. (Ген 1 субъединицы оксидазы цитохрома) Полученная последовательность несет данную функцию потому что во всей выдачи программы бласт все гомологичные последовательности несут такую функцию

(фото почемуCOI)

1.PNG (ii) предполагаемую таксономию; передо мной явно стояла легче задача, тк в выдаче программы (те первых 100 наиболее достоверных выравниваний ) найдены в одном и том же генусе Ophiopholis. Ophiopholis aculeata (в основном среди наиболее достоверных) диапазон весов:1100- 976 japonica 721 kennerlyi 654-676 из 10 возможных известных в blast (Ophiopholis aculeata (daisy brittle star) Ophiopholis japonica Ophiopholis kennerlyi Ophiopholis longispina Ophiopholis sp. EAC01 Ophiopholis sp. GP0048 Ophiopholis sp. GP0049 Ophiopholis sp. GP0050 Ophiopholis sp. GP0051 Ophiopholis sp. KP-2011 Уже по приведенным данным можно понять, чо выделенная последовательность скорее всего из вида Ophiopholis aculeata, тк наиболее высокие веса выравниваний соответствуют пробам именно из этого вида, но для достоверности выровняем последовательности внутри этого генуса, чтобы посмотреть уровень замен в этом генусе в разных видах. я построила прект в jalview выровненных гомологичных последовательностей.

таксон.jvp

отсюда видно что сгенерированная нами последовательность (my_seq) вероятнее всего была выделена из O.aculeata. Какие находки достаточны для аннотации: (они немного различаются потому что взяты из одного организма но разными пробами) для примера возьмем также одну изолированнную пробу (MT07097) для разнообразия возьмем еще находку с процентом инд 86-котоорая просто относится к другому виду HM473933.1 Вспомогательные материалы: Таблица1:это "опорные выдачи программы бласт для аннотации данной последовательности. Основное в этой таблице то, что вся выдача разная, но несет одинаковую функцию.

	Max score	Total score	Query cover	E value	Ident	Accession	комментарии
1	1100	1100	100%	0.0	99%	HM473856.1	первое-наилучшее
2	1095	1095	100%	0.0	99%	HM542291.1	с макс скор чуть меньше
3	1086	1086	100%	0.0	99%	HM542294.1	следующая ступень макс скора
4	1081	1081	99%	0.0	99%	HM542285.1	первое падение покрытия
5	1068	1068	100%	0.0	98%	HM473852.1	первое падение процента индентичности до 98
6	1028	1028	100%	0.0	97%	KJ620598.1	изолированная проба
7	721	721	100%	0.0	86%	HM473933.1	наилучшее выравнивание с другим видом (тем же родом)

Таблица2: Необходимая выдача, которая понадобилась для определения вида.

	Description	Max score	Total score	Query cover	E value	Ident	Accession
1	Ophiopholis aculeata voucher BIOUG:08PROBE224_01 cytochrome oxidase subunit 1 (COI) gene, partial cds; mitochondrial	1100	1100	100%	0.0	99%	HM473856.1
2	Ophiopholis japonica voucher BIOUG:HLC-24059 cytochrome oxidase subunit 1 (COI) gene, partial cds; mitochondrial	721	721	100%	0.0	86%	HM473933.1
3	Ophiopholis kennerlyi voucher 10BIOBC-EC023 cytochrome oxidase subunit 1 (COI) gene, partial cds; mitochondrial	676	676	100%	0.0	84%	KU495789.1

2. Сравнение списка находок нуклеотидных последовательностей тремя разными вариантами blast

Возьмите сначала ту же последовательность, что в задании 1, В отчете укажите все параметры каждого запуска BLAST. Параметры запуска бласт:

Optimize for Highly similar sequences (megablast) Somewhat similar sequences (blastn) Somewhat similar sequences (blastn)(sence)

Database nr nr nr

Word size 28 11 7

Max target sequences 10 10 10

Max matches in a query range 1 (1 выдача ), 3 (6 выдач), 0 0 0

Match/Mismatch Scores 1,-2 2,-3 2,-3

строчка с исключением рода Ophiopholis (taxid:35051) Exclude

Gnathophiurina (taxid:41168)

Число находок: 152 2159 2292

для наглядности я сравнивала деревья (_tree) как и следовало ожидать в чувствительном и не очень результаты индентичны

2.PNG чувствит

3.PNG не очень

4.PNG а megablast отличился.

картинки: EMBOSS_001-наша последовательность. комментарий к картинкам сравним какую нибудь находку присутствующую во всех трех выдачах (10 ограничение) (розовая рамочка картинки 3 и 4) например: KU895415.1 в чувствительной e-val чуть выше чем в обычной а вот в megablast выравнивание отличается на один гэп.

5.PNG выравнивание отлич на 1 гэп из мегабласта

6.PNG выравнивание чувствительным методом и помечено отличие в и валью

Думаю что разница в выравниваниях объясняется разными целями алгоритмов. Blastn как было сказано выше ищет схожие последовательности, те если последовательность гомологична то один гэп погоды не сделает. а вот если алгоритм ищет место нахождения в геноме (megablast) то один гэп меняет место нахождения. поэтому в заданных параметрах в бластн не может быть линейного штафа за гэп, как в мегабласте. Сравнение деревьев заставило меня обратить внимание на одно из выравниваний алгоритма megablast - потому что это выравнивание не нашел blastn на ограничении 10(хотя должен находить дальних родственников) KU895034.1 ссылка на голубую рамочку 4.PNG в мегабласте. если расширить поиск во всех остальных алгоритмах ДО 250(!!) то они его предлагают. Это очень странно, ведь мегабласт вроде указал что последовательность очень похожа, но при этом бласт н отказался включать ее в “родственников” и предлагать данный вид как вариант откуда могли взять последовательность. #переделай деревья#

7.PNG полное

8.PNG ветвь

Расширенное до 500 дерево и нахождение внутри него находки мегабласта Если сравнить выравнивания то опять натыкаемся н то что мегабласт приветствует гэпы а бластн нет, возможно по вышесказанной причене Комментарий по гэпам:

9.PNG присутствие гэпа в мегабласт

10.PNG отсутствие гэпа в бластн

Из такого большого разнообразия организмов предлагаемых бластн, перед тем как выдать схожую (по мнению мегабласта ) последовательность можно заключить что параметры, по которым действует алгоритм бластн действительно помогают отобрать организм, из которого выделена проба. По сравнению с мегабластом, который ищет место в геноме. Митохондриальное РНК

Optimize for	Highly similar sequences (megablast)	Somewhat similar sequences (blastn)	Somewhat similar sequences (blastn)(sence)
Database	nr	nr	nr
Word size	28	11	7
Max target sequences	10	10	10
Max matches in a query range	1 (1 выдача, ) 3 (6 выдач) 0	0	0
Match/Mismatch Scores	1,-2	2,-3	1,-4
строчка с исключением рода	Hippocampus (taxid:72046)	Exclude
	Syngnathoidei (taxid:1489884)
Число находок:	191	312	391

все выдачи у чувствительного и мега стыкуются кроме последнего.KJ184525.1 мегабласт и чувствительный KJ139455.1 бластн картинки выдачи:

11.PNG мегабласт

12.PNG бластн

13.PNG бластн чувствительный

в Выдаче программы если обзорно посмотреть на выравнивания, в них прослеживаются те же тенденции поведения алгоритмов. но как я должна заметить в митохондриальных геномах все алгоритмы дают очень похожую выдачу. Из этого следуют такие выводы: Чем более схожую выдачу дают разные алгоритмы поиска выравниваний, тем возможно более консервативными являются гены. По сути дела разные алгоритмы направлены на поиски одного и того же - выравниваний с гомологичными последовательностями (даже когда ищем место в геноме-выравниваем предположительно одни и те же последовательности, но чуть измененные). Получается чем меньше видоизменен ген тем более вероятно мегабласт найдет его в родственном организме. Здесь и происходит состыковка двух алгоритмов (нахождения родственников-поиск места в геноме) почти одинаковая выдача программ мегабласта и бластн говорит о том что митохондриальный геном более консервативен чем предыдущий ген. Оно и понятно-это же рибосомальное РНК, где почти все нуклеотиды повторяются у разных организмов, что уже указывает на консервативный остов. Но если посмотреть на деревья, то одни и те же последовательности разные алгоритмы выстраивают по разному. конечные ветви у этих деревьев схожи, но между ними устанавливаются родственные отношения по разному. Любопытно что мегабласт и бластн чувствительный вставляют исходную последовательность в разные места дерева

14.PNG мегабласт

15.PNG бластн

Розовым цветом помечено единственное различие в выдачи. Если рассмотреть выдачу чувствительной программы бластн она содержит первые две выдачи, акие же что и все остальные алгоритмы, затем на третьем месте у нее выдача которая в бластн и мегабласт стоит 5 Еще одна из выдач алгоритма бластн чувствительного совпадает с выдачей мегабласта но не совпадает с выдачей бластн. те у чувствительного метода 4 выдачи совпадают с мегабластом и 3 выдачи совпадают с бластн. если посмотреть на выравнивания одной и той же последовательности KJ184525.1 но предлагаемые разными алгоритмамми (бластн чувствительный и мегабласт)

16.PNG мегабласт

17.PNG чувств1

18.PNG чувств2

Алгоритм бластн позволяет себе дробить выравнивание. Думаю связано это опять же с тем что на выдаче алгоритма подразумеваются гомологичные последовательности. То есть с ходом эволюции в последовательности могут возникать вставки. И чтобы программа выдавала гомологию на выходе не смотря на какие то преобразования в ходе эволюции алгоритм "умеет" дробить последовательность.этого не дозволено мегабласту, тк по факту мы должны знать уже организм чей ген мы пытаемся выровнять, и нам нужно найти место, а значит никаких существенных изменений в последовательности быть не должно. (Помимо ошибок прочтения)

3.Проверка наличия гомологов трех белков в неаннотированном геноме

длина скаффолдов в геноме =   23,962,143 
На мой взгляд таблица в формате по умолчанию удобнее тк выдает все выровненные скэффолды, а в таблицу выдает по порядку размещенные данные 
и убирает неинформативные данные. Если задать к качествфе выводного формата таблицу, то в таблицу будут включены лучшие выравнивания+ выравнивания отдкльных
кусочков каждого скэффолда не смотря на вес.
1.Найдено 22 выравнивания среди неаннотированного генома 

для HSP71_YEAST P10591 Heat shock protein SSA1 (Heat shock protein YG100) белка теплового шока у дрожжей.
пару фразо белке
длинна = 642;

Среди находок явно есть гомологи, где e-value =0.0  (возможно такая "точность" возникает изза очень маленькой длинны базы данных)
query id        subject id      % identity, alignment length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score
(1.1)HSP71_YEAST	scaffold-199	78.98	609	125	2	2	607	1109256	1107430	0.0	 920

HSP71_YEAST	scaffold-96	66.06	607	201	4	3	606	89928	91742	0.0	 744
HSP71_YEAST	scaffold-423	65.73	607	203	4	3	606	1313216	1311402	0.0	 737


(1.2)HSP71_YEAST	scaffold-199	55.56	27	12	0	82	108	1110027	1109947	0.002	40.8

Видно, что белок выровнялся почти по всей длинне 94,5% в находке1.1. К тому же, в первой находке есть еще и маленький домен длинной 27 нуклеотидов (1.2).
Получается, что невыровненной длинны всего 0.93% от общей длинны. Учитывая вес выравнивания (920) и evalue, стемящееся к 0, можно почти наверняка сказать,
что белок сохраняет свои функции и в Amoeboaphelidium protococcarum.

2. TERT_SCHPO O13339 Telomerase reverse transcriptase
 теломераза,восстанавливающая длину хромосомы при репликации; имеется у большинства (но не всех) эукариот;
длина белка =988
найдено 5 выравниваний
Среди них есть условные гомологи:
query id        subject id      % identity, alignment length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score
TERT_SCHPO	unplaced-307	26.84	503	282	17	320	780	14863	16239	7e-22	 102
TERT_SCHPO	scaffold-17	25.05	491	305	16	320	780	610900	612273	1e-23	 108
Их можно считать условными гомологами тк длина выровненной последовательности это 503 491 (те 51% и 50% от всей длинны белка), и к тому же значения evalue
тоже маленькие, значит какие-то отрывки этого белка все же экспрессируются.
Но с другой стороны тут настораживает значения процента индентичности который во всех длинных выравниваниях составляет порядка 1/4. Процент индентичности двух 
случайно перемешанных последовательностей тоже составляет 1/4. Значит выравнивание программой могло быть ошибочным и не указывающим на гомологию.

Одно можно сказать наверняка: в геноме присутствует один домен этого белка длинной  36 аминокислот. У этого домена процент индентичности 42%, но тут вылезает 
очень большой e-value. Как я понимаю, когда мы берем как базу данных один геном, e-value значение может быть не показательным, в силу маленькой общей длинны db..

TERT_SCHPO	unplaced-647	41.67	36	21	0	170	205	141	248	4.9	28.1

3.MCES_ENCCU Q8SR66 mRNA cap guanine-N7 methyltransferase
белок метилтрансфераза гуанина N-7 КЭП матричной РНК  выделенный из Encephalitozoon организма из того же царства (Fungi) что и  Amoeboaphelidium protococcarum.
Длина =283
Программа нашла 2 выравнивания, одно из которых:
MCES_ENCCU	scaffold-550	28.81	243	142	5	5	218	47988	48710	3e-12	66.2
Одно из находок покрыло 243 аминокислоты (86%) длины и имеет e-value 3e-12, но тк все ранво процент индентичности = 28, его можно считать условно гомологом.

4.Ген белка в одном из контигов в неаннотированном геноме

scaffold-158 нашлись очень маленькие участки перекрывания scaffold-67 nplaced-1011 (9672 letters) Рассмотренные белки:

Name Max score Total score Query cover E value Ident Accession

amino acid permease [Coprinopsis cinerea okayama7#130] 89.4 89.4 10% 2,00E-15 30% XP_001832190.2

hypothetical protein SPPG_05591 из Spizellomyces punctatus DAOM BR117 143 143 14% 2,00E-32 33% XP_016607384.1

Нашлись известные белки, такие как: amino acid permease [Coprinopsis cinerea okayama7#130] процент индентичности выше чем в случайных выровненных последовательностях e-value порядка 10 в минус 15 степени белок имеет длинну 740 аминокислот, при этом выровнялись 316 (43%) при выравнивании возникли большие гэпы, что может быть связано с интронами. Сложно сказать, что это ген белка пермиазы аминокислоты. :изображение выравнивания:

19.PNG

Кроме того среди выдачи нашлись и гипотетические белки с лучшими выравниваниями, например hypothetical protein SPPG_05591 из Spizellomyces punctatus DAOM BR117 143: 143: 14%: 2e-32: 33%: XP_016607384.1 Общая длинна белка 688 аминокислот, из которых 418 выравниваются с нашей последовательностью (61%) при выравнивании аналогично возникает большой гэп, что так же вероятно связано с присутствием интронов ;картина выравнивания;

20.PNG

5.Карта локального сходства геномов двух бактерий

Неудачная попытка: Chlamydia trachomatis 434/Bu chromosome, complete genome NCBI Reference Sequence: NC_010287.1 Chlamydia gallinacea 08-1274/3, complete genome NCBI Reference Sequence: NZ_CP015840.1 бедная картинка Удачная попытка: Chlamydia trachomatis D/UW-3/CX chromosome, complete genome NCBI Reference Sequence: NC_000117.1 Chlamydia gallinacea 08-1274/3, complete genome NCBI Reference Sequence: NZ_CP015840.1 Я получила сначала точечное представление по Megablast, но она показалась мне разрывной:

Megablast

А потом я выровняла по механизму BlastN, картина оказалась гораздо более приятная, поэтому я все преобразования буду рассмотривать на ней картина1_blastn на выравнивании видно что два вида принадлежат одному роду, тк на протяжении всей длинны почти всегда стабильная линия выравнивания на представлении точечной матрицы вида одна инверсия координаты NC_000117.1 630К-800К соответствует NZ_CP015840.1 350К-500К

Инверсия

Здесь так же имеет место такая перестройка, как делеция первая делеция участка происходит в NZ_CP015840.1 (в районе 780К) -участок который пропал соответствует координатам 330К-380К NC_000117.1.

делеция

На карте так же заметна возможная транслокация в NC_000117.1 ген который должен находиться в районе 270К осуществяет инверсию и переходит на участок 50К-120К а в NZ_CP015840.1 этот ген соответствует участку 850К-900К

транслокация

Учебная почта

Name	Max score	Total score	Query cover	E value	Ident	Accession
amino acid permease [Coprinopsis cinerea okayama7#130]	89.4	89.4	10%	2,00E-15	30%	XP_001832190.2
hypothetical protein SPPG_05591 из Spizellomyces punctatus DAOM BR117	143	143	14%	2,00E-32	33%	XP_016607384.1