Нуклеотидный BLAST
1. Определение таксономии и функции последовательности
Для запуска blastn копировала последовательность из файла в окошко и удаляла N-концы до первой значащей буквы. Длина входной последовательности получилась 322 нуклеотида. База данных - Nucleotide collection, потому что в неё входят все самые распространенные, значит будет наиболее полная картина. Program selection - megablast, потому что мы ищем гомологи.
Фрагмент страницы с результатами:
Description Max Total Query E value % Ident Accession Score Score Cover Ophiopholis aculeata histone H3 gene, partial cds 466 466 93% 3e-127 92.33% DQ676922.1 PREDICTED: Drosophila serrata histone H3 (LOC110182432), mRNA 222 222 93% 7e-54 77.67% XM_020950468.1 PREDICTED: Drosophila serrata histone H3 (LOC110182431), mRNA 222 222 93% 7e-54 77.67% XM_020950466.1 PREDICTED: Drosophila serrata histone H3 (LOC110182423), mRNA 222 222 93% 7e-54 77.67% XM_020950459.1 PREDICTED: Drosophila serrata histone H3 (LOC110182152), mRNA 222 222 93% 7e-54 77.67% XM_020950158.1 PREDICTED: Drosophila serrata histone H3 (LOC110181330), mRNA 222 222 93% 7e-54 77.67% XM_020949049.1 PREDICTED: Drosophila serrata histone H3 (LOC110180699), mRNA 222 222 93% 7e-54 77.67% XM_020948380.1 PREDICTED: Drosophila kikkawai histone H3 (LOC108076484), mRNA 222 222 93% 7e-54 77.67% XM_017169376.1 Thais luteostoma isolate LSGB23010 histone H3 gene, partial cds 211 211 93% 1e-50 77.00% HQ834150.1 Reishia clavigera isolate LSGB23008 histone H3 gene, partial cds 211 211 93% 1e-50 77.00% HQ834148.1
С функцией всё очевидно: последовательность является геном гистона H3. С таксономией сложнее: видим одну очень точную находку (первую, % идентичности = 92) - она принадлежит организму Ophiopholis aculeata из Иглокожих. Далее видим несколько находкок с % Identity 77+, которые представлены последовательностями из генома дрозофил. Получается, что достоверно я могу указать лишь принадлежность хозяина последовательности разделу Bilateria.
2. Сага о трёх бластах (не очень-то увлекательная)
Для megablast всё оставила также, только максимальное число находок сократила до 50, но первые 10 от этого, разумеется, не изменились, так что результаты смотреть выше.
Фрагмент страницы с результатами запуска обычного blastn с настройками по умолчанию (максимум находок = 50):
Description Max Total Query E value % Ident Accession Score Score Cover Ophiopholis aculeata histone H3 gene, partial cds 460 460 94% 4e-125 91.80% DQ676922.1 Hapithus sp. Mex histone H3 (H3) gene, partial cds 266 266 94% 5e-67 77.70% KR903289.1 Superacla choreutes histone H3 (H3) gene, partial cds 266 266 94% 5e-67 77.70% KR903198.1 Baetis sp. OPU_BS_B2010-23 clone 1 histone H3 gene, partial cds 266 266 94% 5e-67 77.70% JQ655111.1 Buliminus labrosus histone H3 (H3) gene, partial cds 264 264 93% 2e-66 78.00% MN022754.1 Bulla ampulla isolate MM95 Histone 3 (H3) gene, partial cds 263 263 94% 6e-66 77.38% KJ022885.1 Ornebius sp. 8 BHW-2016 isolate ROD1005 histone H3 (H3) gene, partial cds 262 262 92% 6e-66 77.93% KU597692.1 Ornebius sp. 8 BHW-2016 isolate ROD1000 histone H3 (H3) gene, partial cds 262 262 92% 6e-66 77.93% KU597691.1 Drosophila grimshawi GH23206 (Dgri\GH23206), mRNA 262 262 92% 6e-66 77.93% XM_001997981.1 Drosophila grimshawi GH23257 (Dgri\GH23257), mRNA 262 262 92% 6e-66 77.93% XM_001997759.1
Фрагмент страницы с результатами запуска blastn с word size = 7, e-treshold = 0.0001, match/mismatch scores = 4;-5, максимум находок опять 50:
Description Max Total Query E value % Ident Accession Score Score Cover Ophiopholis aculeata histone H3 gene, partial cds 457 457 95% 1e-124 91.26% DQ676922.1 Hapithus sp. Mex histone H3 (H3) gene, partial cds 287 287 94% 1e-73 77.70% KR903289.1 Superacla choreutes histone H3 (H3) gene, partial cds 287 287 94% 1e-73 77.70% KR903198.1 Baetis sp. OPU_BS_B2010-23 clone 1 histone H3 gene, partial cds 287 287 94% 1e-73 77.70% JQ655111.1 Bulla ampulla isolate MM95 Histone 3 (H3) gene, partial cds 285 285 94% 7e-73 77.38% KJ022885.1 Buliminus labrosus histone H3 (H3) gene, partial cds 285 285 93% 9e-73 78.00% MN022754.1 Vertigo antivertigo voucher NHMW:109000/AL/00423/5875 histone H4 (H4) and histone H3 (H3) genes, partial cds 284 284 95% 1e-72 77.02% KY512727.1 PREDICTED: Drosophila serrata histone H3 (LOC110182432), mRNA 284 284 95% 1e-72 77.02% XM_020950468.1 PREDICTED: Drosophila serrata histone H3 (LOC110182431), mRNA 284 284 95% 1e-72 77.02% XM_020950466.1 PREDICTED: Drosophila serrata histone H3 (LOC110182423), mRNA 284 284 95% 1e-72 77.02% XM_020950459.1
Во всех трёх случаях BLAST выдавал по 50 находок. Отличия неглобальные. Первая последовательность в списке одна и та же. Для неё немного понижается вес и повышается e-value от 1-ого к 3-ему испытанию, а вот для остальных, наоборот, вес больше, а e-value меньше из-за "увеличения чувствительности" - уменьшения word size и изменения отношения весов за совпадения и несовпадения (получается, что для находок с меньшим числом совпадений проще набрать больший вес при 4;-5, чем при 2;-3).
Теперь разберемся с CDS вируса (последовательность). Результаты бластов в том же порядке и с теми же настройками (кроме e-treshold для "чувствительного" варианта - он 0.1):
megablast
Description Max Total Query E value % Ident Accession Score Score Cover Acidianus bottle-shaped virus 2 strain ABV2, complete genome 555 555 100% 5e-154 100.00% KP282673.1
обычный blastn
Description Max Total Query E value % Ident Accession Score Score Cover Acidianus bottle-shaped virus 2 strain ABV2, complete genome 542 542 100% 4e-150 100.00% KP282673.1 Wuchereria bancrofti genome assembly, scaffold: WBA_contig0000691 49.1 49.1 12% 0.21 85.71% LM001068.1 Scleropages formosus genome assembly, chromosome: 24 49.1 49.1 13% 0.21 86.05% LR584089.1 Paramecium tetraurelia strain d4-2 48.2 48.2 10% 0.21 93.55% XM_001346809.1 Paramecium tetraurelia macronuclear largest chromosome, complete sequence 48.2 48.2 10% 0.21 93.55% CR548612.1 Mouse DNA sequence from clone RP23-120A10 on chromosome 4, complete sequence 48.2 48.2 12% 0.21 88.89% AL627347.10 Chryseobacterium indoltheticum strain ATCC 27950 chromosome, complete genome 47.3 47.3 18% 0.74 78.57% CP033929.1 Chryseobacterium indoltheticum strain G0211 chromosome, complete genome 47.3 90.0 31% 0.74 78.57% CP033928.1 Ipomoea triloba cultivar NCNSP0323 chromosome 14 47.3 47.3 11% 0.74 91.43% CP025673.1 Ipomoea trifida cultivar NCNSP0306 chromosome 14 47.3 47.3 11% 0.74 91.43% CP025657.1
"чувствительный" blastn
Description Max Total Query E value % Ident Accession Score Score Cover Acidianus bottle-shaped virus 2 strain ABV2, complete genome 522 522 100% 3e-144 100.00% KP282673.1 PREDICTED: Papilio polytes polycomb protein Sfmbt-like (LOC106106663), mRNA 51.7 51.7 16% 0.019 81.63% XM_013287282.1
В этой серии поисков количество находок сильно различается: всего одна (геном, из которого и взята последовательность) для megablast, 49 для обычного blastn и 2 для "чувствительного". Посмотрев на значения e-value, можно сказать, что все находки, кроме содержащей исходную последовательность, недостоверны. Из-за уменьшения word size понижаетя % покрытия, а при покрытии ~20% идентичность в 80+% особо ничего не значит.
3. Проверка наличия гомологов трёх белков в геноме Amoeboaphelidium protococcarum
Для начала сделала базу данных, состоящую из скэффолдов в предоставленном файле:
makeblastdb -in X5.fasta -dbtype nucl -parse_seqids -out genome
Так как мне нужно было искать гомологи белков, опираясь на нуклеотидные последовательности, я использовала tblastn. Белки искала в UniProt.
Белок 1. AT2A1_RABIT - Sarcoplasmic/endoplasmic reticulum calcium ATPase 1
Кальциевая АТФаза. Переносит ионы кальция через мембрану. Длина последовательности 1001 ак.
query id, subject id, % identity, align. length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score # 66 hits found unnamed scaffold-189 54.52 1029 419 13 91 1082 55729 58779 0.0 972 unnamed scaffold-463 54.13 1029 423 14 91 1082 407424 404374 0.0 953 unnamed scaffold-17 32.17 1004 515 24 97 1077 363595 361013 7e-108 376 unnamed scaffold-17 25.39 890 528 23 88 887 103958 106489 1e-62 234 unnamed scaffold-17 23.68 359 221 12 383 727 1470934 1469975 6e-05 47.0 unnamed scaffold-44 32.09 994 522 22 97 1075 89032 86465 6e-105 367 unnamed scaffold-44 28.77 146 73 6 604 742 328524 328889 1e-04 46.2 unnamed scaffold-44 45.61 57 29 1 771 825 329121 329291 6e-04 43.5 unnamed scaffold-44 37.50 48 30 0 678 725 222386 222243 0.62 33.9 unnamed scaffold-568 31.12 1009 595 23 97 1081 104293 101495 8e-105 366
Кажется, первые две находки можно назвать гомологами выбранного белка с той же функцией: длина выравнивания немного больше длины исходной последовательности, при этом количество гэпов небольшое, следовательно, покрытие хорошее, и % идентичности при нём 50+. Также e-value настолько маленькое, что даже указано как 0.0.
Белок 2. CISY1_YEAST - Citrate synthase, mitochondrial
Цитрат-синтаза - фермент цикла Кребса, который, вроде, у всех эукариот есть. Длина последовательности 479 ак. Поскольку белок митохондриальный и из дрожжей, решила использовать -db_gencode 3.
query id, subject id, % identity, align. length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score # 8 hits found unnamed scaffold-157 64.78 372 129 2 190 559 314582 315697 1e-134 437 unnamed scaffold-157 51.43 70 34 0 120 189 314305 314514 5e-07 52.4 unnamed scaffold-693 64.78 372 129 2 190 559 1243882 1244997 9e-134 435 unnamed scaffold-693 60.00 35 14 0 155 189 1243710 1243814 2e-05 47.8 unnamed scaffold-212 26.59 252 150 9 299 532 46037 45333 7e-10 52.0 unnamed scaffold-212 21.50 107 74 2 183 288 46416 46123 7e-10 29.6 unnamed scaffold-287 22.44 352 216 10 221 532 548001 546997 7e-08 55.5 unnamed scaffold-463 20.63 63 49 1 410 472 368849 368664 2.1 30.8
Я бы сказала, что виден случай условно положительного ответа: для находок 1 и 3 длина выравнивания примерно на пятую часть меньше длины входной последовательности, и % идентичности на оставшихся 4/5 длины примерно 65, при этом e-value хорошее. Похоже на гомологию доменов. Возможно, это домен каталитического центра, работающего с определенными химическими группами молекул.
Белок 3. RPB9_YEAST - DNA-directed RNA polymerase II subunit RPB9, RNA polymerase II subunit B9
Субчастица Второй ДНК-зависимой РНК полимеразы. Матричный синтез точно у всех есть. Длина - 122 ак.
query id, subject id, % identity, align. length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score # 6 hits found unnamed scaffold-463 36.84 152 78 5 59 206 28860 28447 2e-24 103 unnamed scaffold-359 42.73 110 59 3 101 206 536802 537131 8e-24 101 unnamed scaffold-199 23.64 110 68 3 96 201 1044449 1044156 0.030 34.7 unnamed scaffold-17 23.64 110 68 3 96 201 153881 153588 0.038 34.3 unnamed scaffold-243 27.14 70 38 2 139 206 171735 171911 0.24 32.0 unnamed scaffold-693 27.14 70 38 2 139 206 419582 419758 0.24 32.0
По значению e-value здесь имеет смысл смотреть только на два верхних результата. Снова предположу гомологию доменов, но, вероятно, отношение их длины к длине всей последовательности в данном случае меньше, чем в предыдущем, поэтому и % идентичности пониже.
4. Поиск гена белка в контиге
Контиг взяла из генома предыдущего задания. Название: unplaced-950; длина: 41249 bp. Blastx в refseq_protein, царство Fungi. Результаты выдачи:
Description Max Total Query E value % Ident Accession Score Score Cover uncharacterized protein SmJEL517_g00850 [Synchytrium microbalum] 478 556 3% 4e-144 77.05% XP_031027294.1 STE/STE20/PAKA protein kinase [Spizellomyces punctatus DAOM BR117] 478 560 2% 1e-143 78.95% XP_016611929.1 Pkinase-domain-containing protein [Saitoella complicata NRRL Y-17804] 464 464 2% 2e-143 74.75% XP_019025085.1 Pkinase-domain-containing protein [Jaminaea rosea] 440 440 2% 8e-137 72.45% XP_025363566.1 kinase-like domain-containing protein [Lobosporangium transversale] 442 499 2% 2e-135 69.87% XP_021879369.1
Можно с высокой степенью достоверности сказать, что в выбранном контиге находится ген некой протеинкиназы.