Нуклеотидный BLAST

1. Определение таксономии и функции последовательности

Для запуска blastn копировала последовательность из файла в окошко и удаляла N-концы до первой значащей буквы. Длина входной последовательности получилась 322 нуклеотида. База данных - Nucleotide collection, потому что в неё входят все самые распространенные, значит будет наиболее полная картина. Program selection - megablast, потому что мы ищем гомологи.
Фрагмент страницы с результатами:

	
 Description                                                            Max    Total   Query  E value  % Ident  Accession
                                                                       Score   Score   Cover          
 Ophiopholis aculeata histone H3 gene, partial cds              	466	466	93%	3e-127	92.33%	DQ676922.1
 PREDICTED: Drosophila serrata histone H3 (LOC110182432), mRNA  	222	222	93%	7e-54	77.67%	XM_020950468.1
 PREDICTED: Drosophila serrata histone H3 (LOC110182431), mRNA  	222	222	93%	7e-54	77.67%	XM_020950466.1
 PREDICTED: Drosophila serrata histone H3 (LOC110182423), mRNA  	222	222	93%	7e-54	77.67%	XM_020950459.1
 PREDICTED: Drosophila serrata histone H3 (LOC110182152), mRNA          222 	222	93%	7e-54	77.67%	XM_020950158.1
 PREDICTED: Drosophila serrata histone H3 (LOC110181330), mRNA  	222	222	93%	7e-54	77.67%	XM_020949049.1
 PREDICTED: Drosophila serrata histone H3 (LOC110180699), mRNA  	222	222	93%	7e-54	77.67%	XM_020948380.1
 PREDICTED: Drosophila kikkawai histone H3 (LOC108076484), mRNA 	222	222	93%	7e-54	77.67%	XM_017169376.1
 Thais luteostoma isolate LSGB23010 histone H3 gene, partial cds	211	211	93%	1e-50	77.00%	HQ834150.1
 Reishia clavigera isolate LSGB23008 histone H3 gene, partial cds	211	211	93%	1e-50	77.00%	HQ834148.1

С функцией всё очевидно: последовательность является геном гистона H3. С таксономией сложнее: видим одну очень точную находку (первую, % идентичности = 92) - она принадлежит организму Ophiopholis aculeata из Иглокожих. Далее видим несколько находкок с % Identity 77+, которые представлены последовательностями из генома дрозофил. Получается, что достоверно я могу указать лишь принадлежность хозяина последовательности разделу Bilateria.

2. Сага о трёх бластах (не очень-то увлекательная)

Для megablast всё оставила также, только максимальное число находок сократила до 50, но первые 10 от этого, разумеется, не изменились, так что результаты смотреть выше.
Фрагмент страницы с результатами запуска обычного blastn с настройками по умолчанию (максимум находок = 50):

 Description                                                                    Max    Total   Query   E value % Ident  Accession
                                                                               Score   Score   Cover                             
 Ophiopholis aculeata histone H3 gene, partial cds                      	460	460	94%	4e-125	91.80%	DQ676922.1
 Hapithus sp. Mex histone H3 (H3) gene, partial cds                     	266	266	94%	5e-67	77.70%	KR903289.1
 Superacla choreutes histone H3 (H3) gene, partial cds                  	266	266	94%	5e-67	77.70%	KR903198.1
 Baetis sp. OPU_BS_B2010-23 clone 1 histone H3 gene, partial cds        	266	266	94%	5e-67	77.70%	JQ655111.1
 Buliminus labrosus histone H3 (H3) gene, partial cds                   	264	264	93%	2e-66	78.00%	MN022754.1
 Bulla ampulla isolate MM95 Histone 3 (H3) gene, partial cds            	263	263	94%	6e-66	77.38%	KJ022885.1
 Ornebius sp. 8 BHW-2016 isolate ROD1005 histone H3 (H3) gene, partial cds	262	262	92%	6e-66	77.93%	KU597692.1
 Ornebius sp. 8 BHW-2016 isolate ROD1000 histone H3 (H3) gene, partial cds	262	262	92%	6e-66	77.93%	KU597691.1
 Drosophila grimshawi GH23206 (Dgri\GH23206), mRNA                      	262	262	92%	6e-66	77.93%	XM_001997981.1
 Drosophila grimshawi GH23257 (Dgri\GH23257), mRNA                      	262	262	92%	6e-66	77.93%	XM_001997759.1

Фрагмент страницы с результатами запуска blastn с word size = 7, e-treshold = 0.0001, match/mismatch scores = 4;-5, максимум находок опять 50:

 Description                                                     Max   Total   Query   E value % Ident  Accession
                                                                Score  Score   Cover                             
 Ophiopholis aculeata histone H3 gene, partial cds      	 457	457	95%	1e-124	91.26%	DQ676922.1
 Hapithus sp. Mex histone H3 (H3) gene, partial cds     	 287	287	94%	1e-73	77.70%	KR903289.1
 Superacla choreutes histone H3 (H3) gene, partial cds  	 287	287	94%	1e-73	77.70%	KR903198.1
 Baetis sp. OPU_BS_B2010-23 clone 1 histone H3 gene, partial cds 287	287	94%	1e-73	77.70%	JQ655111.1
 Bulla ampulla isolate MM95 Histone 3 (H3) gene, partial cds	 285	285	94%	7e-73	77.38%	KJ022885.1
 Buliminus labrosus histone H3 (H3) gene, partial cds          	 285	285	93%	9e-73	78.00%	MN022754.1
 Vertigo antivertigo voucher NHMW:109000/AL/00423/5875 
 histone H4 (H4) and histone H3 (H3) genes, partial cds          284	284	95%	1e-72	77.02%	KY512727.1
 PREDICTED: Drosophila serrata histone H3 (LOC110182432), mRNA 	 284	284	95%	1e-72	77.02%	XM_020950468.1
 PREDICTED: Drosophila serrata histone H3 (LOC110182431), mRNA	 284	284	95%	1e-72	77.02%	XM_020950466.1
 PREDICTED: Drosophila serrata histone H3 (LOC110182423), mRNA	 284	284	95%	1e-72	77.02%	XM_020950459.1

Во всех трёх случаях BLAST выдавал по 50 находок. Отличия неглобальные. Первая последовательность в списке одна и та же. Для неё немного понижается вес и повышается e-value от 1-ого к 3-ему испытанию, а вот для остальных, наоборот, вес больше, а e-value меньше из-за "увеличения чувствительности" - уменьшения word size и изменения отношения весов за совпадения и несовпадения (получается, что для находок с меньшим числом совпадений проще набрать больший вес при 4;-5, чем при 2;-3).
Теперь разберемся с CDS вируса (последовательность). Результаты бластов в том же порядке и с теми же настройками (кроме e-treshold для "чувствительного" варианта - он 0.1):

megablast
 Description                                                    Max    Total    Query  E value  % Ident  Accession
                                                               Score   Score    Cover                             
 Acidianus bottle-shaped virus 2 strain ABV2, complete genome	555	555	100%	5e-154	100.00%	 KP282673.1
обычный blastn
 Description                                                                    Max    Total    Query  E value  % Ident Accession
                                                                               Score   Score    Cover                             
 Acidianus bottle-shaped virus 2 strain ABV2, complete genome           	542	542	100%	4e-150	100.00%	KP282673.1
 Wuchereria bancrofti genome assembly, scaffold: WBA_contig0000691      	49.1	49.1	12%	0.21	85.71%	LM001068.1
 Scleropages formosus genome assembly, chromosome: 24          	                49.1	49.1	13%	0.21	86.05%	LR584089.1
 Paramecium tetraurelia strain d4-2                                     	48.2	48.2	10%	0.21	93.55%	XM_001346809.1
 Paramecium tetraurelia macronuclear largest chromosome, complete sequence	48.2	48.2	10%	0.21	93.55%	CR548612.1
 Mouse DNA sequence from clone RP23-120A10 on chromosome 4, complete sequence	48.2	48.2	12%	0.21	88.89%	AL627347.10
 Chryseobacterium indoltheticum strain ATCC 27950 chromosome, complete genome	47.3	47.3	18%	0.74	78.57%	CP033929.1
 Chryseobacterium indoltheticum strain G0211 chromosome, complete genome	47.3	90.0	31%	0.74	78.57%	CP033928.1
 Ipomoea triloba cultivar NCNSP0323 chromosome 14                       	47.3	47.3	11%	0.74	91.43%	CP025673.1
 Ipomoea trifida cultivar NCNSP0306 chromosome 14                       	47.3	47.3	11%	0.74	91.43%	CP025657.1
"чувствительный" blastn
 Description                                                                    Max    Total    Query  E value  % Ident Accession
                                                                               Score   Score    Cover                             
 Acidianus bottle-shaped virus 2 strain ABV2, complete genome           	522	522	100%	3e-144	100.00%	KP282673.1
 PREDICTED: Papilio polytes polycomb protein Sfmbt-like (LOC106106663), mRNA	51.7	51.7	16%	0.019	81.63%	XM_013287282.1

В этой серии поисков количество находок сильно различается: всего одна (геном, из которого и взята последовательность) для megablast, 49 для обычного blastn и 2 для "чувствительного". Посмотрев на значения e-value, можно сказать, что все находки, кроме содержащей исходную последовательность, недостоверны. Из-за уменьшения word size понижаетя % покрытия, а при покрытии ~20% идентичность в 80+% особо ничего не значит.

3. Проверка наличия гомологов трёх белков в геноме Amoeboaphelidium protococcarum

Для начала сделала базу данных, состоящую из скэффолдов в предоставленном файле:

makeblastdb -in X5.fasta -dbtype nucl -parse_seqids -out genome

Так как мне нужно было искать гомологи белков, опираясь на нуклеотидные последовательности, я использовала tblastn. Белки искала в UniProt.

Белок 1. AT2A1_RABIT - Sarcoplasmic/endoplasmic reticulum calcium ATPase 1

Кальциевая АТФаза. Переносит ионы кальция через мембрану. Длина последовательности 1001 ак.

 query id, subject id, % identity, align. length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score
# 66 hits found
  unnamed   scaffold-189     54.52     1029  	   419	       13	   91       1082    55729    58779    0.0       972
  unnamed   scaffold-463     54.13     1029  	   423	       14	   91       1082    407424   404374   0.0       953
  unnamed   scaffold-17      32.17     1004  	   515	       24	   97       1077    363595   361013   7e-108    376  
  unnamed   scaffold-17      25.39     890   	   528	       23	   88       887     103958   106489   1e-62     234
  unnamed   scaffold-17      23.68     359   	   221	       12	   383      727     1470934  1469975  6e-05    47.0
  unnamed   scaffold-44      32.09     994   	   522	       22	   97       1075    89032    86465    6e-105    367
  unnamed   scaffold-44      28.77     146   	   73	        6	   604      742     328524   328889   1e-04    46.2
  unnamed   scaffold-44      45.61     57    	   29	        1	   771      825     329121   329291   6e-04    43.5
  unnamed   scaffold-44      37.50     48    	   30	        0	   678      725     222386   222243   0.62     33.9
  unnamed   scaffold-568     31.12     1009  	   595	       23	   97       1081    104293   101495   8e-105    366

Кажется, первые две находки можно назвать гомологами выбранного белка с той же функцией: длина выравнивания немного больше длины исходной последовательности, при этом количество гэпов небольшое, следовательно, покрытие хорошее, и % идентичности при нём 50+. Также e-value настолько маленькое, что даже указано как 0.0.

Белок 2. CISY1_YEAST - Citrate synthase, mitochondrial

Цитрат-синтаза - фермент цикла Кребса, который, вроде, у всех эукариот есть. Длина последовательности 479 ак. Поскольку белок митохондриальный и из дрожжей, решила использовать -db_gencode 3.

 query id, subject id, % identity, align. length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score
# 8 hits found
  unnamed   scaffold-157     64.78     372 	  	129	     2       190     559     314582  315697  1e-134   437
  unnamed   scaffold-157     51.43     70  	  	34 	     0       120     189     314305  314514  5e-07   52.4
  unnamed   scaffold-693     64.78     372 	  	129	     2       190     559     1243882 1244997 9e-134   435
  unnamed   scaffold-693     60.00     35  	  	14 	     0       155     189     1243710 1243814 2e-05   47.8
  unnamed   scaffold-212     26.59     252 	  	150	     9       299     532     46037   45333   7e-10   52.0
  unnamed   scaffold-212     21.50     107 	  	74 	     2       183     288     46416   46123   7e-10   29.6
  unnamed   scaffold-287     22.44     352 	  	216	     10      221     532     548001  546997  7e-08   55.5
  unnamed   scaffold-463     20.63     63  	  	49	     1       410     472     368849  368664  2.1     30.8

Я бы сказала, что виден случай условно положительного ответа: для находок 1 и 3 длина выравнивания примерно на пятую часть меньше длины входной последовательности, и % идентичности на оставшихся 4/5 длины примерно 65, при этом e-value хорошее. Похоже на гомологию доменов. Возможно, это домен каталитического центра, работающего с определенными химическими группами молекул.

Белок 3. RPB9_YEAST - DNA-directed RNA polymerase II subunit RPB9, RNA polymerase II subunit B9

Субчастица Второй ДНК-зависимой РНК полимеразы. Матричный синтез точно у всех есть. Длина - 122 ак.

 query id, subject id, % identity, align. length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score
# 6 hits found
  unnamed   scaffold-463     36.84     152 	    78  	    5       59      206     28860    28447    2e-24    103
  unnamed   scaffold-359     42.73     110 	    59  	    3       101     206     536802   537131   8e-24    101
  unnamed   scaffold-199     23.64     110 	    68  	    3       96      201     1044449  1044156  0.030   34.7
  unnamed   scaffold-17      23.64     110 	    68  	    3       96      201     153881   153588   0.038   34.3
  unnamed   scaffold-243     27.14     70  	    38  	    2       139     206     171735   171911   0.24    32.0
  unnamed   scaffold-693     27.14     70  	    38  	    2       139     206     419582   419758   0.24    32.0

По значению e-value здесь имеет смысл смотреть только на два верхних результата. Снова предположу гомологию доменов, но, вероятно, отношение их длины к длине всей последовательности в данном случае меньше, чем в предыдущем, поэтому и % идентичности пониже.

4. Поиск гена белка в контиге

Контиг взяла из генома предыдущего задания. Название: unplaced-950; длина: 41249 bp. Blastx в refseq_protein, царство Fungi. Результаты выдачи:

 Description                                                            Max    Total   Query   E value % Ident  Accession
                                                                       Score   Score   Cover 
 uncharacterized protein SmJEL517_g00850 [Synchytrium microbalum]	478	556	3%	4e-144	77.05%	XP_031027294.1
 STE/STE20/PAKA protein kinase [Spizellomyces punctatus DAOM BR117]	478	560	2%	1e-143	78.95%	XP_016611929.1
 Pkinase-domain-containing protein [Saitoella complicata NRRL Y-17804]	464	464	2%	2e-143	74.75%	XP_019025085.1
 Pkinase-domain-containing protein [Jaminaea rosea]             	440	440	2%	8e-137	72.45%	XP_025363566.1
 kinase-like domain-containing protein [Lobosporangium transversale]	442	499	2%	2e-135	69.87%	XP_021879369.1

Можно с высокой степенью достоверности сказать, что в выбранном контиге находится ген некой протеинкиназы.