Нуклеотидный BLAST

Определение таксономии и функции последовательности
Исходя из лучших находок в BLAST, данная последовательность является частью гена, кодирующего гистоны H3.

Анализ первых 15 находок (некоторые находки пренадлежат одному и тому же организму, поэтому организмов получилось 11) что 8 из 15 находок(и, соотвественно, 6 из 11 ораганизмов, которым эти находки пренадлежат) имеют следующую таксономию:
cellular organisms; Eukaryota; Opisthokonta; Metazoa; Eumetazoa; Bilateria; Deuterostomia; Echinodermata; Eleutherozoa; Asterozoa; Asteroidea; Forcipulatacea; Forcipulatida; Asteriidae
Совпадения в таксономии остальных организмов были не такие массовые или не такие явные, поэтому будем считать, что организм, которому пренадлежит данная последовательность относится именно к этой таксономической группе.
Сравнение списка находок трёмя разными вариантами BLAST
Сначала мы искали гомологи данной последовательности. В первом запуске мы использовали BLASTn со стандартными параметрами (длина слова - 11, поиска по банку nr, ограничив поиск таксоном (семейство Asteriidae) и E-value(0.001).Значением E-value и таксоном ограничить число находок до количества меньше 100 не удалось, поэтому чтобы получить представление о числе находок с помощью различных алгоритмов, мы ограничили число находок до 500.При данных параметрах их оказалось 120. Результаты выдачи приведены ниже:



Во втором запуске мы использовали BLASTn с наиболее чувствительными параметрами (Длина слова - 7 и match/mismatch scores 1/-1), ограничив таксон (семейство Asteriidae) и E-value(0.001). Ограничить число находок сначала не удалось, их стандартно было 100, поэтому мы увеличили максимальное число находок до 500. Находок оказалось 120.Результаты выдачи приведены ниже:



В третьем запуске мы использовали megablast со стандартными параметрами, ограничив поиcк таксоном (семейство Asteriidae) и E-value(0.001). Находок было 41.Результаты выдачи приведены ниже:

Ниже приведён список последовательностей, которые оказались общими для всех трёх запусков:
Psalidaster mordax voucher CASIZ 163021 putative late stage histone H3 (H3) gene, partial cds	
Notasterias pedicellaris voucher CASIZ 163020 putative late stage histone H3 (H3) gene, partial cds
Pisaster giganteus voucher CASIZ 116600 putative late stage histone H3 (H3) gene, partial cds	
Saliasterias brachiata isolate CLM-177 putative late stage histone H3 (H3) gene, partial cds	
Diplasterias meridionalis isolate CLM-176 putative late stage histone H3 (H3) gene, partial cds	
Diplasterias brandti isolate CLM-175 putative late stage histone H3 (H3) gene, partial cds	
Diplasterias meridionalis voucher CASIZ 173609 putative late stage histone H3 (H3) gene, partial cd
Lysasterias perrieri voucher CASIZ 162502 putative late stage histone H3 (H3) gene, partial cds	
Sclerasterias contorta isolate CLM-52 putative late stage histone H3 (H3) gene, partial cds	
Diplasterias brandti voucher CASIZ 162503 putative late stage histone H3 (H3) gene, partial cds	
Astrometis sertulifera voucher CASIZ 163484 putative late stage histone H3 (H3) gene, partial cds
Adelasterias papillosa voucher CASIZ 174666 putative late stage histone H3 (H3) gene, partial cds
Pisaster brevispinus voucher CASIZ 108886 putative late stage histone H3 (H3) gene, partial cds	
Neosmilaster georgianus isolate CLM-215 putative late stage histone H3 (H3) gene, partial cds	
Allostichaster farquhari voucher NIWA 38407 putative late stage histone H3 (H3) gene, partial cds
Rumbleaster eructans voucher NIWA 32856 putative late stage histone H3 (H3) gene, partial cds	
Stichaster striatus isolate CLM-39 putative late stage histone H3 (H3) gene, partial cds	
Sclerasterias eustyla voucher CASIZ 174619 putative late stage histone H3 (H3) gene, partial cds
Astrostole scabra voucher NIWA 43649 putative late stage histone H3 (H3) gene, partial cds	
Australiaster dubia voucher MVF 123218 putative late stage histone H3 (H3) gene, partial cds	
Marthasterias glacialis voucher CASIZ 113496 putative late stage histone H3 (H3) gene, partial cds
Urasterias lincki voucher LACM 1999-141.9 putative late stage histone H3 (H3) gene, partial cds	
Meyenaster gelatinosus isolate CLM-38 putative late stage histone H3 (H3) gene, partial cds	
Leptasterias muelleri voucher LSUMNS I-306 putative late stage histone H3 (H3) gene, partial cds
Perissasterias polyacantha voucher MVF 123091 putative late stage histone H3 (H3) gene, partial cds
Leptasterias stolacantha voucher CASIZ 137894 putative late stage histone H3 (H3) gene, partial cds
Sclerasterias mollis voucher NIWA 27594 putative late stage histone H3 (H3) gene, partial cds	
Coscinasterias tenuispina voucher CASIZ 116011 putative late stage histone H3 (H3) gene, partial cd
Leptasterias aleutica voucher LSUMNS I-297 putative late stage histone H3 (H3) gene, partial cds
Leptasterias alaskensis voucher CASIZ 171750 putative late stage histone H3 (H3) gene, partial cds
Asterias rubens voucher NSM 17038-PV01 putative late stage histone H3 (H3) gene, partial cds	
Taranuiaster novaezealandiae isolate CLM-099 putative late stage histone H3 (H3) gene, partial cds
Leptasterias fisheri voucher CASIZ 150448 putative late stage histone H3 (H3) gene, partial cds	
Leptasterias polaris isolate LPJ-46 putative late stage histone H3 (H3) gene, partial cds	
Leptasterias leptodoma voucher USNM E51426 putative late stage histone H3 (H3) gene, partial cds
Pycnopodia helianthoides voucher CASIZ 171749 putative late stage histone H3 (H3) gene, partial cds
Stephanasterias albula voucher CASIZ 137842 putative late stage histone H3 (H3) gene, partial cds
Neomorphaster forcipatus voucher YPM:IZ:36988 putative late stage histone H3 (H3) gene, partial cds
Granaster nutrix isolate CLM-90 putative late stage histone H3 (H3) gene, partial cds
Neosmilaster steineni voucher CASIZ 163006 putative late stage histone H3 (H3) gene, partial cds

Megablast содержал одну находку, которой не оказалось ни в одной другом запуске:
Asteriidae sp. CLM-37 putative late stage histone H3 (H3) gene, partial cds
Выдача BLAST со стандратными параметрами и выдача BLAST с чувствительными параметрами по содержанию не отличалась, но порядок отличался.
Далее мы искали гомологи последовательности рибосомальной РНК из митохондриального генома организма Lichtheimia hongkongensis.
В первом запуске мы использовали BLASTn со стандартными параметрами, ограничив поиск только значением E-value(0.001) и таксонами: ограничили поиск семейством Lichtheimiaceae и исключили род Lichtheimia. Мы ограничили число находок до 500, находок получилось 193. Ниже приведён список находок в данном поиске:



Далее мы проводили поиск с помощью BLASTn с наиболее чувствительными параметрами (длина слова 7 и match/mismatch score 1/-1), снова ограничив E-value(0.001) и таксоны (семейство Lichtheimiaceae, исключив род Lichtheimia). Мы ограничили число находок до 500, находок получилось 194. Список приведён ниже:



В третьем запуске мы использовали megablast со стандартными параметрами(в частности, длина слова 28). Гомологов не нашлось:

Тогда мы поменялись длину слова на 24. Список находок приведён ниже:

Исходя из числа находок, мы можем сделать довольно очевидный вывод, что megablast ищёт очень похожие последовательности, поэтому число находок даже при стандартных параметрах получается небольшое. Большой разницы в списке гомологов, найденных с помощью blastn со стандратными и наиболее чувствительными параметрами обнаружено не было(было всего на 1 находку больше при поиске второй последовательности).
Поиск гомологов в неаннотированном геноме
Был проведён поиск гомологов трёх белков: HSP71_YEAST, шаперон HSP70, белок теплового шока; PRPC_EMENI, митохондриальная цитратсинтаза;TBB_NEUCR, тубулин, белок, участвующий в образовании микротрубочек. Поиск производился с помощью tblastn на kodomo. В качестве базы данных был использован неаннотированный геном Amoeboaphelidium protococcarum.
HSP71_YEAST:
Запрос: tblastn -query HSP71_YEAST.fasta -bd X5.fasta -outfmt 7(таблица с комментариями). Выдача приведена ниже:
query id                subject id  % identity   alignment length    mismatches   gap opens   q. start q. end    s. start  s. end         evalue      bit score
sp|P10591.4|HSP71_YEAST	scaffold-199	78.98		609		125		2	2	607	1109256	1107430		0.0   		 920
sp|P10591.4|HSP71_YEAST	scaffold-199	55.56		27		12		0	82	108	1110027	1109947		0.002		40.8
sp|P10591.4|HSP71_YEAST	scaffold-96	66.06		607		201		4	3	606	89928	91742		0.0		 744
sp|P10591.4|HSP71_YEAST	scaffold-423	65.73		607		203		4	3	606	1313216	1311402		0.0		 737
sp|P10591.4|HSP71_YEAST	scaffold-423	37.34		391		228		5	4	378	781726	782895		8e-64		 232
sp|P10591.4|HSP71_YEAST	unplaced-999	81.90		315		56		1	2	315	945	1		8e-171		 540
sp|P10591.4|HSP71_YEAST	unplaced-980	77.54		334		73		1	276	607	1	1002		9e-142		 461
sp|P10591.4|HSP71_YEAST	scaffold-157	46.77		402		196		6	216	607	165338	166519		1e-81		 285
sp|P10591.4|HSP71_YEAST	scaffold-157	54.42		215		93		3	5	217	164418	165053		5e-64		 233
sp|P10591.4|HSP71_YEAST	scaffold-157	29.03		310		193		5	61	343	219904	218975		5e-32		 133
sp|P10591.4|HSP71_YEAST	scaffold-693	46.77		402		196		6	216	607	1114528	1115709		2e-80		 281
sp|P10591.4|HSP71_YEAST	scaffold-693	54.42		215		93		3	5	217	1113608	1114243		1e-63		 232
sp|P10591.4|HSP71_YEAST	scaffold-693	27.79		331		212		5	61	364	1168679	1167687		2e-29		 125
sp|P10591.4|HSP71_YEAST	unplaced-804	71.50		193		53		1	417	607	17964	17386		2e-74		 264
sp|P10591.4|HSP71_YEAST	scaffold-499	71.50		193		53		1	417	607	3580	4158		6e-74		 262
sp|P10591.4|HSP71_YEAST	unplaced-959	37.34		391		228		5	4	378	9193	10362		1e-63		 231
sp|P10591.4|HSP71_YEAST	scaffold-469	76.92		104		24		0	437	540	2	313		5e-43		 150
sp|P10591.4|HSP71_YEAST	scaffold-418	76.92		104		24		0	437	540	312	1		5e-43		 150
sp|P10591.4|HSP71_YEAST	unplaced-113	68.97		87		26		1	9	94	1	261		1e-32		 122
sp|P10591.4|HSP71_YEAST	scaffold-138	57.75		71		28		1	539	607	249	37		3e-17		78.6
sp|P10591.4|HSP71_YEAST	scaffold-61	57.75		71		28		1	539	607	5	217		3e-17		78.6
sp|P10591.4|HSP71_YEAST	unplaced-721	68.97		29		9		0	579	607	272	186		2e-05		43.9

Из таблицы мы видим, что у нас есть 3 находки, принадлежащие scaffold-199, scaffold-96 и scaffold-423. Исходя из значений e-value и процента идентичности, последние 2 яляются гомологами и выполняют ту же функцию, что и исходный белок. Scaffols-199 имеет 2 участка, гомологичных исходному белку, но, так как длина второй части выравнивания очень мала, можем предположить, что она не оказывает влияния на функцию белка, а потому будем считать, что белок имеет 3 гомолога в данном неаннотированном геноме.Ответ положительный.
Запрос: tblastn -query PRPC_EMENI.fasta -bd X5.fasta -outfmt 7. Выдача приведена ниже:
query id               subject id           % identity alignment length     mismatches gap opens     q. start  q. end  s. start  s. end evalue bit score
sp|Q9TEM3.1|PRPC_EMENI	scaffold-693		56.38		376		158	4 		86	460	1243882	1244994	6e-121	 393
sp|Q9TEM3.1|PRPC_EMENI	scaffold-693		41.79		67		38	1		20	85	1243614	1243814	5e-07	52.0
sp|Q9TEM3.1|PRPC_EMENI	scaffold-157		56.38		376		158	4		86	460	314582	315694	6e-120	 390
sp|Q9TEM3.1|PRPC_EMENI	scaffold-157		40.30		67		39	1		20	85	314314	314514	8e-07	51.2
sp|Q9TEM3.1|PRPC_EMENI	scaffold-287		26.27		373		217	17		117	451	548001	546943	9e-11	64.3
sp|Q9TEM3.1|PRPC_EMENI	scaffold-212		27.82		266		163	12		199	453	46016	45273	1e-08	57.4

На основании длины последовательности e-value и процента идентичности, мы не можем сделать однозначного вывода о том, что scaffold-693 и scaffold-15 являются гомологами нашего белка, но они определенного содержат гомологичные участки(причём одни и те же в сразу двух скэффолдах). Как можно заметить, что они имеют одинаковую длину и разделены на 2 участка выравнивания, причём второй участок начинается сразу после первого.Поэтому ответ условно положительный.
Запрос: tblastn -query TBB_NEUCR.fasta -bd X5.fasta -outfmt 7. Выдача приведена ниже:
query id               subject id   % identity alignment length    mismatches  gap opens     q. start q. end   s. start        s. end           evalue         bit score
sp|P05220.2|TBB_NEUCR	unplaced-665	81.56		450		61	1		1	428	7236   		5887   		0.0   		 742
sp|P05220.2|TBB_NEUCR	scaffold-26	86.79		386		51	0		43	428	109811		108654		0.0		 693
sp|P05220.2|TBB_NEUCR	scaffold-26	66.67		51		17	0		1	51	110007		109855		4e-13		71.6
sp|P05220.2|TBB_NEUCR	unplaced-5	39.91		441		252	3		1	431	3257		4570		1e-105		 348
sp|P05220.2|TBB_NEUCR	scaffold-57	40.14		441		251	3		1	431	88586		87273		1e-105		 348
sp|P05220.2|TBB_NEUCR	scaffold-423	28.79		389		236	8		80	428	190311		191474		6e-49		 161
sp|P05220.2|TBB_NEUCR	scaffold-423	27.50		80		40	1		9	70	189959		190198		6e-49		45.4
sp|P05220.2|TBB_NEUCR	scaffold-423	76.92		13		3	0		2	14	189873		189911		6e-49		26.6
sp|P05220.2|TBB_NEUCR	scaffold-423	27.34		384		237	8		80	422	1101339		1100191		2e-46		 150
sp|P05220.2|TBB_NEUCR	scaffold-423	33.33		63		34	1		16	70	1101622		1101434		2e-46		47.4
sp|P05220.2|TBB_NEUCR	scaffold-423	76.92		13		3	0		2	14	1101728		1101690		2e-46		26.9

На основании процента идентичности и e-value можно сделать вывод, что unplaced-665 и scaffold-26 являются гомологами нашего белка.Ответ положительный. Интересно, что внутри scaffold-26 есть последовательность нуклеотидов, не гомологичная последовательности нашего белка.
Поиск гена в контиге
Для поиска генов был выбран scaffold-499, имеющий длину 32750 п.н. Для поиска был использован megablast. Результаты выдачи приведены ниже:

Как можно видеть, второй по счёту идёт последовательность мРНК белка теплового шока HSS1. На основании идентичности и E-value, мы можем назвать этот ген наиболее правдоподобным из всех находок. Исходя из выравнивания нашего скэффолда с последовательностью гена, мы можем определить предполагаемые границы гена: с 3604 по 4144 (прямая цепь).
На основании выдачи megablast мы можем сделать вывод, что scaffold-499 содержит в себе ген белка теплового шока (может быть, это HSS1). Это подтверждает то, что scaffold-499 содержится в списке предполагаемых гомологов белка HSP71(который тоже является белком теплового шока) в задании 3.

Карта локального сходства двух бактерий
Исследовались геномы бактерий Chlamydia psittaci 6BC (AC: NC_015470) и Chlamydia trachomatis A2497 serovar A (AC: NC_016798).

По карте локального сходства можно сказать, что геномы бактерий Chlamydia psittaci 6BC и Chlamydia trachomatis A2497 serovar A содержат почти одинаковый(очень схожий) набор генов, но они по-разному расположены в их геномах, потому что мы видим, что линии (которые указывают нам на сходство последовательностей) занимают почти всю карту, но располагаются относительно осей X и Y (геномов 2-х бактерий) вразброс, совершенно по-разному.



©Кондратенко Наталья, 2017