Учебный сайт Сергея Маргасюка

Нуклеотидный blast

Определение функции прочтенной последовательности

Произведем определение функции и таксономии для последовательности, полученной при анализе данных секвенирования по Сэнгеру: pr6.fasta. Для этого используем blastn: поиск нуклеотидных последовательностей, похожих на входную нуклеотидную последовательность. Наиболее близкий полученный результат — цитохром оксидаза из митохондриального генома организма Polycirrus medusa (локус GU672524): последовательность этой записи полностью содержится во входной последовательности, но с начала входной последовательности дополнительно содержится еще 3 нуклеотида. Поскольку для прочих последовательностей Ident = 100% не достигается, участок не является абсолютно консервативным для нескольких таксонов, и его функция и таксон определены однозначно.

Сравнение выдачи алгоритмов blast

Сравним выдачи алгоритмов blastn, megablast и discontiguous megablast для той же последовательности, но с ограничением по таксону: исключить последовательности группы Eumetazoa (для удаления слишком похожих находок при достаточно высокой консервативности митохондриальных генов). Далее приведена таблица, содержащая отличающиеся параметры поиска в этих запросах:

Таблица 1: параметры blast
blastn megablast discontiguous megablast
Длина слова 11 28 11
Цена совпадения и несовпадения 2, -3 1, -2 2, -3
Штраф за начало и удлинение гэпа 5, 2 0, 0 5, 2

Кроме того, запрос discontiguous megablast имеет два дополнительных параметра: Template length:18 и Window size:40.

Далее приведены 15 лучших последовательностей из выдачи каждого из алгоритмов:

Вставка 1: выдача blastn (фрагмент)
                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

KJ021220.1  Metacordyceps liangshanensis isolate E2 cytochrome...  430     9e-117
KJ021217.1  Metacordyceps liangshanensis isolate 60 cytochrome...  425     4e-115
KJ021219.1  Metacordyceps liangshanensis isolate E1 cytochrome...  421     5e-114
KJ021216.1  Metacordyceps liangshanensis isolate 59 cytochrome...  421     5e-114
KU318329.1  Clea helena isolate ACH4 cytochrome oxidase subuni...  419     2e-113
BT070772.1  Picea sitchensis clone WS0274_C01 unknown mRNA         403     1e-108
KJ021206.1  Ophiocordyceps sinensis isolate 62(1) cytochrome o...  401     4e-108
KJ021215.1  Metacordyceps liangshanensis isolate 58 cytochrome...  398     5e-107
KJ021213.1  Metacordyceps liangshanensis isolate 56 cytochrome...  398     5e-107
GU828625.1  Penestoglossa dardoniella voucher MM00189 cytochro...  385     3e-103
KR795343.1  Amauronematus fallax voucher BIOUG01237-A10 cytoch...  340     1e-89 
AB000212.1  Vaucheria sessilis mitochondrial COXI gene for cyt...  324     1e-84 
AY312031.1  Ustilago maydis specimen-voucher ZMB 190138-1 cyto...  307     8e-80 
FR848924.1  Bathydorus spinosus mitochondrial partial COI gene...  293     2e-75 
FR848922.1  Aulosaccus mitsukurii mitochondrial partial COI ge...  293     2e-75 
		
Вставка 2: выдача discontiguous megablast (фрагмент)
                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

KJ021220.1  Metacordyceps liangshanensis isolate E2 cytochrome...  430     9e-117
KJ021217.1  Metacordyceps liangshanensis isolate 60 cytochrome...  425     4e-115
KJ021219.1  Metacordyceps liangshanensis isolate E1 cytochrome...  421     5e-114
KJ021216.1  Metacordyceps liangshanensis isolate 59 cytochrome...  421     5e-114
KU318329.1  Clea helena isolate ACH4 cytochrome oxidase subuni...  419     2e-113
BT070772.1  Picea sitchensis clone WS0274_C01 unknown mRNA         403     1e-108
KJ021206.1  Ophiocordyceps sinensis isolate 62(1) cytochrome o...  401     4e-108
KJ021215.1  Metacordyceps liangshanensis isolate 58 cytochrome...  398     5e-107
KJ021213.1  Metacordyceps liangshanensis isolate 56 cytochrome...  398     5e-107
GU828625.1  Penestoglossa dardoniella voucher MM00189 cytochro...  385     3e-103
KJ021200.1  Ophiocordyceps sinensis isolate 48 cytochrome oxid...  383     1e-102
KJ021203.1  Ophiocordyceps sinensis isolate 51 cytochrome oxid...  378     5e-101
KJ021209.1  Metacordyceps taii isolate 36 cytochrome oxidase s...  374     6e-100
KJ021212.1  Metacordyceps taii isolate 41 cytochrome oxidase s...  369     3e-98 
KJ021195.1  Cordyceps gunnii isolate 35 cytochrome oxidase sub...  369     3e-98 
		

Отметим, что выдачи двух алгоритмов очень близки: лучшие результаты одинаковы, далее последовательности из выдачи discontiguous megablast имеют более высокий E-value. При этом время работы discontiguous megablast больше, чем у blastn.

Вставка 3: выдача megablast (фрагмент)
                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

KC869418.1  Clathria armata cytochrome oxidase subunit I (COI)...  158     9e-35
AM076984.1  Verongula gigantea mitochondrial partial cox1 gene...  126     3e-25
KT921334.1  Verongula reiswigi voucher personal collection:P04...  122     3e-24
KJ546361.1  Pseudoceratina sp. 010313-06 cytochrome oxidase su...  121     1e-23
EF043378.1  Pseudoceratina sp. IH-2007 cytochrome oxidase subu...  117     2e-22
KM254483.1  Neoptilota densa voucher GWS022270 cytochrome oxid...  113     2e-21
FN667710.1  Hexadella dedritifera mitochondrial partial COI ge...  111     7e-21
FN667709.1  Hexadella pruvoti mitochondrial partial COI gene f...  100     2e-17
JQ951894.1  Ianthella basta isolate 13B cytochrome oxidase sub...  99.0    6e-17
JQ951884.1  Ianthella basta isolate 2B cytochrome oxidase subu...  99.0    6e-17
HM592735.1  Stelletta tuberosa voucher ZMA:POR 21665 cytochrom...  78.7    7e-11
HM592678.1  Stelletta tuberosa voucher MNHN:Porifera, DCL4066 ...  75.0    1e-09
		

Будучи оптимизированным для работы с очень близкими последовательностями, megablast выдает неудовлетворительный результат при поиске с ограничением по таксону: всего 12 результатов со значительно более низким E-value, чем в первых двух выдачах.

Таким образом, сравнение демострирует, что при поиске сходства между последовательностями в геноме таксономически далеких организмов использование megablast нецелесообразно; значительных различий между работой blastn и discontiguous megablast установлено не было.

Поиск гомологов трех белков в геноме Amoeboaphelidium protococarum

Проверим наличие гомологов гистона H2A (взят из протеома Drosophila melanogaster, идентификатор NP_001262997.1 ), субъединицы B АТФ-синтазы (Drosophila melanogaster, NP_001259081.1) и одна из гистон-метилаз (Zea mays, ACF20188.1) в геномe Amoeboaphelidium protococarum. Для всех этих белков ожидается высокая степень консервативности: функции этих белков одинаковы для аэробных эукариот, поэтому белки, предположительно, практически не меняются в процессе эволюции. Для проверки применим tblastn: выравнивание входной последовательности белка с транслированной нуклеотидной последовательностью. Параметры лучших (с максимальным e-value) выравниваний представлены в таблице 2.

Таблица 2: результат работы
идентификатор белковой последовательности длина белковой последовательности, а.о. скэффолд с нуклеотидной п-тью координаты нуклеотидной п-ти e-value query cover, %
NP_001262997.1 141 57 91949..91650 8e-32 72
NP_001259081.1 511 423 1380759..1382123
0.0 (< e-200)
89
ACF20188.1 641 277 86566..86973 3e-32 22

Установим формальный критерий для возможности предположения гомологии последовательностей: для их лучшего выравнивания query cover > 70%, e-value < e-7.

Тогда для гистона H2A и субъединицы B АТФ-синтазы можно предположить наличие гомологов в геноме Amoeboaphelidium protococarum. Выдача программы для гистон-метилазы содержит выравнивания с низкими e-value (до 3e-32), но query cover этих выравниваний не превосходит 30%: возможно, имеет место сходство только отдельных доменов внутри последовательностей при том, что последовательности в целом негомологичны.

Поиск гена белка в scaffold-456 сборки генома Amoeboaphelidium protococarum

Применим blastx для поиска гена белка в scaffold-456 сборки, использованной в предыдущем задании. В этом скэффолде 11344 п.н., поэтому в нем возможно наличие гена.

Далее представлено изображение лучшего найденного локального выравнивания данной последовательности: оно проведено с последовательностью альдегидо-кеторедуктазы организма Caldisalinibacter kiritimatiensis (WP_006305835.1):

Вставка 4: локальное выравнивание scaffold-456
Query  7409  FVRNCIHLISISSFVVDLADIYGGGDH*CEVAFGKALALEPSLRSQMKLITKVIEFYYRL  7588
             F+  CI +  I+SF  D ADIYGG  + CE  FG+AL L+P LR +M++ITK        
Sbjct  35    FIEQCIDM-GITSF--DHADIYGG--YICEELFGEALELKPQLRDKMEIITK--------  81

Query  7589  LNiiiiisiTRKVRKL*CDIRFPNPSHPDVHVKHYDTSKEYIMHQVEDSLRAVLTDYFDI  7768
                              C I+  +P+ P+  VKHYDTSKE+I++ V +SL+ + TDY D+
Sbjct  82    -----------------CGIKIISPNRPEHRVKHYDTSKEHIINSVNNSLKNLRTDYIDL  124

Query  7769  LLIHRPDPFMNADEVAEAFRDL*ASGKVKYFGVSNFKTS*IELLESRLPFPLVTN*IECS  7948
             LLIHRPDPFMN +EVAEAF  L   GKV+ FGVSNF  S   +L S L  PLVTN IE S
Sbjct  125   LLIHRPDPFMNPEEVAEAFNTLYRDGKVRNFGVSNFTPSQFNMLSSYLDMPLVTNQIEIS  184

Query  7949  VAHTAPFYDGTLDYSQMKRSSPMIWSPLYGGKLFN*QSEDPQVQRLREAMSKIGKNHNNA  8128
             V     F +GT+D    KR  P+ WSPL GGK+F   SED +  RLR  + KI    N  
Sbjct  185   VMQYENFRNGTIDLCLEKRIPPLAWSPLAGGKVFT--SEDEKSVRLRNVLEKIADELNVD  242

Query  8129  SIDQVAYAWLLNHPSNMCLILGTND*KRIEVAAKSVTIKLTRQEWFAILEASNGKRVP  8302
              ID++ YAWLLNHP+ +  I+G+    R++ A +S+ IKL RQ+WF ILEASNG+RVP
Sbjct  243   GIDKIMYAWLLNHPAKIIPIVGSGKISRVKRAVESLDIKLDRQQWFEILEASNGRRVP  300
		

Для этого выравнивания e-value = 9e-75: получение выравнивания такого качества при случайной входной последовательности такой же длины и случайном банке последовательностей крайне маловероятно и может быть только результатом гомологии; покрытие белковой последовательности выравниванием 89% позволяет предположить, что сходство является результатом гомологии всей последовательности белка, а не только отдельных доменов, предположительному белку, транслируемому со scaffold-456. Таким образом, можно предположить наличие гомолога альдегидо-кеторедуктазы в scaffold-456.


© Сергей Маргасюк, 2015-2016