Произведем определение функции и таксономии для последовательности, полученной при анализе данных секвенирования по Сэнгеру: pr6.fasta. Для этого используем blastn: поиск нуклеотидных последовательностей, похожих на входную нуклеотидную последовательность. Наиболее близкий полученный результат — цитохром оксидаза из митохондриального генома организма Polycirrus medusa (локус GU672524): последовательность этой записи полностью содержится во входной последовательности, но с начала входной последовательности дополнительно содержится еще 3 нуклеотида. Поскольку для прочих последовательностей Ident = 100% не достигается, участок не является абсолютно консервативным для нескольких таксонов, и его функция и таксон определены однозначно.
Сравним выдачи алгоритмов blastn, megablast и discontiguous megablast для той же последовательности, но с ограничением по таксону: исключить последовательности группы Eumetazoa (для удаления слишком похожих находок при достаточно высокой консервативности митохондриальных генов). Далее приведена таблица, содержащая отличающиеся параметры поиска в этих запросах:
blastn | megablast | discontiguous megablast | |
Длина слова | 11 | 28 | 11 |
Цена совпадения и несовпадения | 2, -3 | 1, -2 | 2, -3 |
Штраф за начало и удлинение гэпа | 5, 2 | 0, 0 | 5, 2 |
Кроме того, запрос discontiguous megablast имеет два дополнительных параметра: Template length:18 и Window size:40.
Далее приведены 15 лучших последовательностей из выдачи каждого из алгоритмов:
Score E Sequences producing significant alignments: (Bits) Value KJ021220.1 Metacordyceps liangshanensis isolate E2 cytochrome... 430 9e-117 KJ021217.1 Metacordyceps liangshanensis isolate 60 cytochrome... 425 4e-115 KJ021219.1 Metacordyceps liangshanensis isolate E1 cytochrome... 421 5e-114 KJ021216.1 Metacordyceps liangshanensis isolate 59 cytochrome... 421 5e-114 KU318329.1 Clea helena isolate ACH4 cytochrome oxidase subuni... 419 2e-113 BT070772.1 Picea sitchensis clone WS0274_C01 unknown mRNA 403 1e-108 KJ021206.1 Ophiocordyceps sinensis isolate 62(1) cytochrome o... 401 4e-108 KJ021215.1 Metacordyceps liangshanensis isolate 58 cytochrome... 398 5e-107 KJ021213.1 Metacordyceps liangshanensis isolate 56 cytochrome... 398 5e-107 GU828625.1 Penestoglossa dardoniella voucher MM00189 cytochro... 385 3e-103 KR795343.1 Amauronematus fallax voucher BIOUG01237-A10 cytoch... 340 1e-89 AB000212.1 Vaucheria sessilis mitochondrial COXI gene for cyt... 324 1e-84 AY312031.1 Ustilago maydis specimen-voucher ZMB 190138-1 cyto... 307 8e-80 FR848924.1 Bathydorus spinosus mitochondrial partial COI gene... 293 2e-75 FR848922.1 Aulosaccus mitsukurii mitochondrial partial COI ge... 293 2e-75
Score E Sequences producing significant alignments: (Bits) Value KJ021220.1 Metacordyceps liangshanensis isolate E2 cytochrome... 430 9e-117 KJ021217.1 Metacordyceps liangshanensis isolate 60 cytochrome... 425 4e-115 KJ021219.1 Metacordyceps liangshanensis isolate E1 cytochrome... 421 5e-114 KJ021216.1 Metacordyceps liangshanensis isolate 59 cytochrome... 421 5e-114 KU318329.1 Clea helena isolate ACH4 cytochrome oxidase subuni... 419 2e-113 BT070772.1 Picea sitchensis clone WS0274_C01 unknown mRNA 403 1e-108 KJ021206.1 Ophiocordyceps sinensis isolate 62(1) cytochrome o... 401 4e-108 KJ021215.1 Metacordyceps liangshanensis isolate 58 cytochrome... 398 5e-107 KJ021213.1 Metacordyceps liangshanensis isolate 56 cytochrome... 398 5e-107 GU828625.1 Penestoglossa dardoniella voucher MM00189 cytochro... 385 3e-103 KJ021200.1 Ophiocordyceps sinensis isolate 48 cytochrome oxid... 383 1e-102 KJ021203.1 Ophiocordyceps sinensis isolate 51 cytochrome oxid... 378 5e-101 KJ021209.1 Metacordyceps taii isolate 36 cytochrome oxidase s... 374 6e-100 KJ021212.1 Metacordyceps taii isolate 41 cytochrome oxidase s... 369 3e-98 KJ021195.1 Cordyceps gunnii isolate 35 cytochrome oxidase sub... 369 3e-98
Отметим, что выдачи двух алгоритмов очень близки: лучшие результаты одинаковы, далее последовательности из выдачи discontiguous megablast имеют более высокий E-value. При этом время работы discontiguous megablast больше, чем у blastn.
Score E Sequences producing significant alignments: (Bits) Value KC869418.1 Clathria armata cytochrome oxidase subunit I (COI)... 158 9e-35 AM076984.1 Verongula gigantea mitochondrial partial cox1 gene... 126 3e-25 KT921334.1 Verongula reiswigi voucher personal collection:P04... 122 3e-24 KJ546361.1 Pseudoceratina sp. 010313-06 cytochrome oxidase su... 121 1e-23 EF043378.1 Pseudoceratina sp. IH-2007 cytochrome oxidase subu... 117 2e-22 KM254483.1 Neoptilota densa voucher GWS022270 cytochrome oxid... 113 2e-21 FN667710.1 Hexadella dedritifera mitochondrial partial COI ge... 111 7e-21 FN667709.1 Hexadella pruvoti mitochondrial partial COI gene f... 100 2e-17 JQ951894.1 Ianthella basta isolate 13B cytochrome oxidase sub... 99.0 6e-17 JQ951884.1 Ianthella basta isolate 2B cytochrome oxidase subu... 99.0 6e-17 HM592735.1 Stelletta tuberosa voucher ZMA:POR 21665 cytochrom... 78.7 7e-11 HM592678.1 Stelletta tuberosa voucher MNHN:Porifera, DCL4066 ... 75.0 1e-09
Будучи оптимизированным для работы с очень близкими последовательностями, megablast выдает неудовлетворительный результат при поиске с ограничением по таксону: всего 12 результатов со значительно более низким E-value, чем в первых двух выдачах.
Таким образом, сравнение демострирует, что при поиске сходства между последовательностями в геноме таксономически далеких организмов использование megablast нецелесообразно; значительных различий между работой blastn и discontiguous megablast установлено не было.
Проверим наличие гомологов гистона H2A (взят из протеома Drosophila melanogaster, идентификатор NP_001262997.1 ), субъединицы B АТФ-синтазы (Drosophila melanogaster, NP_001259081.1) и одна из гистон-метилаз (Zea mays, ACF20188.1) в геномe Amoeboaphelidium protococarum. Для всех этих белков ожидается высокая степень консервативности: функции этих белков одинаковы для аэробных эукариот, поэтому белки, предположительно, практически не меняются в процессе эволюции. Для проверки применим tblastn: выравнивание входной последовательности белка с транслированной нуклеотидной последовательностью. Параметры лучших (с максимальным e-value) выравниваний представлены в таблице 2.
идентификатор белковой последовательности | длина белковой последовательности, а.о. | скэффолд с нуклеотидной п-тью | координаты нуклеотидной п-ти | e-value | query cover, % |
NP_001262997.1 | 141 | 57 | 91949..91650 | 8e-32 | 72 |
NP_001259081.1 | 511 | 423 | 1380759..1382123 | 0.0 (< e-200) |
89 |
ACF20188.1 | 641 | 277 | 86566..86973 | 3e-32 | 22 |
Установим формальный критерий для возможности предположения гомологии последовательностей: для их лучшего выравнивания query cover > 70%, e-value < e-7.
Тогда для гистона H2A и субъединицы B АТФ-синтазы можно предположить наличие гомологов в геноме Amoeboaphelidium protococarum. Выдача программы для гистон-метилазы содержит выравнивания с низкими e-value (до 3e-32), но query cover этих выравниваний не превосходит 30%: возможно, имеет место сходство только отдельных доменов внутри последовательностей при том, что последовательности в целом негомологичны.
Применим blastx для поиска гена белка в scaffold-456 сборки, использованной в предыдущем задании. В этом скэффолде 11344 п.н., поэтому в нем возможно наличие гена.
Далее представлено изображение лучшего найденного локального выравнивания данной последовательности: оно проведено с последовательностью альдегидо-кеторедуктазы организма Caldisalinibacter kiritimatiensis (WP_006305835.1):
Query 7409 FVRNCIHLISISSFVVDLADIYGGGDH*CEVAFGKALALEPSLRSQMKLITKVIEFYYRL 7588 F+ CI + I+SF D ADIYGG + CE FG+AL L+P LR +M++ITK Sbjct 35 FIEQCIDM-GITSF--DHADIYGG--YICEELFGEALELKPQLRDKMEIITK-------- 81 Query 7589 LNiiiiisiTRKVRKL*CDIRFPNPSHPDVHVKHYDTSKEYIMHQVEDSLRAVLTDYFDI 7768 C I+ +P+ P+ VKHYDTSKE+I++ V +SL+ + TDY D+ Sbjct 82 -----------------CGIKIISPNRPEHRVKHYDTSKEHIINSVNNSLKNLRTDYIDL 124 Query 7769 LLIHRPDPFMNADEVAEAFRDL*ASGKVKYFGVSNFKTS*IELLESRLPFPLVTN*IECS 7948 LLIHRPDPFMN +EVAEAF L GKV+ FGVSNF S +L S L PLVTN IE S Sbjct 125 LLIHRPDPFMNPEEVAEAFNTLYRDGKVRNFGVSNFTPSQFNMLSSYLDMPLVTNQIEIS 184 Query 7949 VAHTAPFYDGTLDYSQMKRSSPMIWSPLYGGKLFN*QSEDPQVQRLREAMSKIGKNHNNA 8128 V F +GT+D KR P+ WSPL GGK+F SED + RLR + KI N Sbjct 185 VMQYENFRNGTIDLCLEKRIPPLAWSPLAGGKVFT--SEDEKSVRLRNVLEKIADELNVD 242 Query 8129 SIDQVAYAWLLNHPSNMCLILGTND*KRIEVAAKSVTIKLTRQEWFAILEASNGKRVP 8302 ID++ YAWLLNHP+ + I+G+ R++ A +S+ IKL RQ+WF ILEASNG+RVP Sbjct 243 GIDKIMYAWLLNHPAKIIPIVGSGKISRVKRAVESLDIKLDRQQWFEILEASNGRRVP 300
Для этого выравнивания e-value = 9e-75: получение выравнивания такого качества при случайной входной последовательности такой же длины и случайном банке последовательностей крайне маловероятно и может быть только результатом гомологии; покрытие белковой последовательности выравниванием 89% позволяет предположить, что сходство является результатом гомологии всей последовательности белка, а не только отдельных доменов, предположительному белку, транслируемому со scaffold-456. Таким образом, можно предположить наличие гомолога альдегидо-кеторедуктазы в scaffold-456.