НУКЛЕОТИДНЫЙ BLAST

ОПРЕДЕЛЕНИЕ ТАКСОНОМИИ И ФУНКЦИИ ПОСЛЕДОВАТЕЛЬНОСТИ

Для определения таксономии и функции использовался нуклеотидный бласт, алгоритм - blastn, выравнивающий нуклеотидные последовательности относительно нуклеотидных последовательностей, подходящий для довольно близких последовательностей. Работа велась с воостановленной по хроматограмме последовательностью из шестого практикума. Ниже можно ознакомится с содержанием полученной последовательности:

Ae6_18SII_F_H05_WSBS-Seq-1-08-15.ab1
Ae6_18SII_R_H06_WSBS-Seq-1-08-15.ab1

На Рис.1 содержится скриншот выдачи бласта, более подробная информация представлена в Таблице 1.

Рис. 1. Выдача blastn для поиска по последовательности Среди первых 100 находок нуклеотидного бласта все обладали нулевым значением E-value, Max score среди всех находок колебался в пределах 1088-1644, покрытие от 92 до 100%, процент идентичности от 87 до 99%.

Таким образом, все построенные выравнивания обладают очень высокими показателями. Выравнивания с наибольшими Max score отличались почти полным отсутствием гэпов (от 0 до 2) и различием последовательностей в 1-3 нуклеотида (при длинне последовательности в 914 пн).

Таблица 1. Выдача нуклеотидного бласта (первые 30 выравниваний).
ID% identityalignment lengthmismatchesgap opensq. startq. ends. starts. endevaluebit score
KR778794.199.8919141 0 1 9142 9150.01644
KR778793.199.8919141 0 1 9144 9170.01644
KR778795.199.7819142 0 1 9144 9170.01640
FJ612478.199.7819151 1 1 9142 9160.01638
AF508126.199.1269157 1 1 91425 9390.01611
FJ612476.198.14291513 4 1 9142 9130.01559
DQ790087.197.92391516 3 1 91427 9390.01553
AY532363.197.92391516 3 1 91412 9240.01553
AF508124.197.92391515 4 1 91422 9330.01550
AY532362.197.81491516 4 1 9148 9190.01546
FJ612494.197.37791521 3 1 9142 9140.01532
KR778797.195.95691534 3 1 9143 9150.01472
KR778796.195.62491438 2 1 9143 9140.01462
KR920030.195.73891535 4 1 9144 9150.01460
AY532357.195.42591837 4 1 91429 9450.01452
FJ612481.195.08791641 4 1 9142 9150.01434
FJ612479.195.08791641 4 1 9142 9150.01434
AY532360.195.08791641 4 1 9147 9200.01434
FJ612480.194.86991643 4 1 9142 9150.01425
AY040696.195.20791831 12 1 9148 9160.01418
AY532361.194.57792242 6 1 9142 9230.01418
AF508123.194.66291844 5 1 91422 9380.01416
FJ612484.194.56890242 5 20 9141 9020.01389
AY532358.193.82492347 8 1 91425 9460.01380
AF209464.193.93392346 9 1 91422 9430.01380
AF448158.192.53292458 7 1 91422 9440.01333
FJ612486.192.29992261 9 1 9142 9210.01321
KF850491.194.37985441 5 11 8574 8570.01308
KC460270.193.05287855 5 42 9147 8830.01292
AY532355.191.38190570 7 16 9141 9030.01256

Среди найденных последовательностей, все являются фрагментами 18S-РНК, входящий в состав малой субъединицы рибосомы. Из чего и был сделан вывод о функции последовательности.

Среди полученных находок первые пять обладали наиболее высокими показателями выравнивания, однако их источники относились к 4 различным видам, ниже в таблице 2 приведена информация о таксономическом положении этих последовательностей и Max score их выравнивания с определяемой последовательностью.

Таблица 2. Таксономическое положение последовательностей выравнивания
Max score1640-1644164416381611
Superkingdom Eukaryota Eukaryota Eukaryota Eukaryota
KingdomMetazoaMetazoaMetazoaMetazoa
PhylumAnnelidaAnnelidaAnnelidaAnnelida
ClassPolychaetaPolychaetaPolychaetaPolychaeta
SubclassScolecidaScolecidaScolecidaScolecida
Family Orbiniidae Orbiniidae Orbiniidae Orbiniidae
Genus Leodamas Leitoscoloplos Leodamas Scoloplos
SpeciesLeodamas dubiaLeitoscoloplos bifurcatusLeodamas rubraScoloplos johnstonei
Taxonomy ID17325081732507 646008205119

Как видно из таблицы, все данные поледовательности принадлежат к классу полихет, относятся к одному семейству Orbiniidae, но к разным родам. Однако 3 из 5 поледовательностей принадлежат роду Leodamas, при этом две последовательности с наивысшими значениями max score (1644 и 1640), относятся к виду Leodamas dubia, в связи с чем я склонна предполагать, что данный фрагмент ближе всего именно к этому виду.

Для того, чтобы точнее разобраться в данной ситуации было произведено выравнивание данных пяти последовательностей (фрагменты, использованные бластом для выравнивания). Ниже приведен результат:

Рис.2. Выравнивание пяти последовательностей.

Из выравнивания видно, что все последовательности чрезвычайно близки и отличаются друг от друга лишь несколькими нуклеотидами. Так как даже среди поледовательностей одного вида (2 и 4 на Рис.2 с выравниванием) число отличий приблизительно равно числу отличий от изучаемой последовательности. Сильнее всего отличается последовательность из рода Scoloplos, из чего можно сделать вывод, что данная последоательность относится либо к роду Leodamas, либо Leitoscoloplos, а учитывая, что Leodamas rubra отличается от последовательности больше, чем три с более высокими показателями выравнивания - это либо вид Leodamas dubia, либо Leitoscoloplos bifurcatus. Точно определить вид по данному выравниванию нельзя, но я склоняюсь к варанту с Leodamas dubia, так как оба выравнивания с этим видом имели очень высокие показатели.

Таблица 3. Результаты.
Функция18s-РНК
СемействоOrbiniidae
РодLeodamas (Leitoscoloplos)
ВидLeodamas dubia (Leitoscoloplos bifurcatus)
Рис.3. Представитель семейства Orbiniidae

СРАВНЕНИЕ АЛГОРИТМОВ ПОИСКА

На примере данной последовательности был проведен анализ трех алгоритмов бласта. Для того, чтобы определить отличия в выдаче находки были ограничены таксоном Neritoidea - суперсемейством моллюсков (данный выбор был сделан т.к. было принято решение о принадлежности последовательности к таксону кольчатых червей), чтобы ограничить количество находок до обозримого количество с различающимся %идентичности.

Ниже приведены скриншоты выдачи трех алгоритмов нуклеотидного бласта, таблицы содержащие их находки и сводная таблица с результатами.

Рис. 4. Выдача алгоритма Megablast Рис. 5. Выдача алгоритма discontiguous megablast Рис. 6. Выдача алгоритма blastn
Таблица 4. Выдача алгоритма megablast.
ID% identityalignment lengthmismatchesgap opensq. startq. ends. starts. endevaluebit score
AM048635.187.037918109 9 1 9148 9190.0 1027
GQ160808.187.023917110 8 1 9146 9160.0 1026
GQ160807.187.023917110 8 1 9146 9160.0 1026
AM048634.186.819918111 9 1 9148 9190.0 1022
AM048633.186.914917111 8 1 9148 9180.0 1020
FJ977658.186.819918111 9 1 9146 9170.0 1016
AM048632.186.703925106 13 1 9148 9260.0 1011
AF120515.186.710918112 9 1 9146 9170.0 1011
FJ977656.186.616919112 10 1 9146 9180.0 1005
FJ977655.186.616919112 10 1 9146 9180.0 1005
FJ977654.186.601918113 9 1 9146 9170.0 1005
FJ977657.186.478917115 8 1 9146 9160.0 998
X91971.1 86.285926106 17 1 91426 9420.0 987
AY923889.187.298866102 7 15 8781 8600.0 983
DQ093429.186.329907113 10 12 9141 9000.0 977
AY679782.186.437870104 13 52 91423 8850.0 941
AY923890.187.10883098 8 51 8781 8230.0 931
AF534978.181.529942135 31 1 91126 9590.0 739
AF534977.181.376945135 31 1 91326 9610.0 732
AF534980.181.250944138 31 1 91326 9610.0 726
AF046055.186.61753867 5 1 5358 5431.52e-168 590
L78882.1 86.62144155 4 32 4702 4407.37e-137 484
L78883.1 86.39544155 5 33 4701 4391.23e-134 477
DQ916542.185.44036447 6 16 3761 3611.66e-103 374
AF534979.183.16138653 11 1 37726 4084.69e-94 342
GQ371117.189.45021821 2 432 64917 2321.74e-73 274
GQ337493.188.59622821 5 422 6498 2306.24e-73 272
GQ371118.188.44422522 4 425 64912 2328.08e-72 268
Таблица 5. Выдача алгоритма discontiguous megablast.
ID% identityalignment lengthmismatchesgap opensq. startq. ends. starts. endevaluebit score
GQ160808.1 86.900916113 5 1 9146 9160.0 1095
GQ160807.1 86.900916113 5 1 9146 9160.0 1095
AM048635.1 86.914917112 6 1 9148 9190.0 1094
AM048634.1 86.696917114 6 1 9148 9190.0 1090
AM048633.1 86.790916114 5 1 9148 9180.0 1090
FJ977658.1 86.696917114 6 1 9146 9170.0 1085
AF120515.1 86.587917115 6 1 9146 9170.0 1079
FJ977654.1 86.478917116 6 1 9146 9170.0 1076
AM048632.1 86.472924110 9 1 9148 9260.0 1076
FJ977656.1 86.492918115 7 1 9146 9180.0 1074
FJ977655.1 86.492918115 7 1 9146 9180.0 1074
FJ977657.1 86.354916118 5 1 9146 9160.0 1072
X91971.1 86.054925110 12 1 91426 9420.0 1050
DQ093429.1 86.077905119 5 12 9141 9000.0 1049
AY923889.1 87.168865105 4 15 8781 8600.0 1047
AY679782.1 86.358865107 9 56 91426 8850.0 998
AY923890.1 86.972829101 5 51 8781 8230.0 993
AF534978.1 80.831939147 17 1 91126 9590.0 836
AF534977.1 80.638940151 15 1 91326 9610.0 836
AF534980.1 80.553941150 17 1 91326 9610.0 825
AF046055.1 86.40653770 3 1 5358 5430.0 628
L78882.1 86.36444058 2 32 4702 4403.79e-147 517
L78883.1 86.13644058 3 33 4701 4391.96e-144 508
DQ916542.1 84.80736253 2 16 3761 3612.56e-111 398
AF534979.1 82.81238458 6 1 37726 4088.37e-105 376
GQ371117.1 88.21022925 2 432 66017 2434.06e-77 284
GQ371118.1 88.05322625 2 435 66020 2431.73e-75 279
GQ337493.1 87.02923926 4 422 6608 2411.73e-75 279
Таблица 6. Выдача алгоритма discontiguous blastn.
ID% identityalignment lengthmismatchesgap opensq. startq. ends. starts. endevaluebit score
GQ160808.1 86.900 916 113 5 1 9146 916 0.0 1095
GQ160807.1 86.900 916 113 5 1 9146 916 0.0 1095
AM048635.1 86.914 917 112 6 1 9148 919 0.0 1094
AM048634.1 86.696 917 114 6 1 9148 919 0.0 1090
AM048633.1 86.790 916 114 5 1 9148 918 0.0 1090
FJ977658.1 86.696 917 114 6 1 9146 917 0.0 1085
AF120515.1 86.587 917 115 6 1 9146 917 0.0 1079
FJ977654.1 86.478 917 116 6 1 9146 917 0.0 1076
AM048632.1 86.472 924 110 9 1 9148 926 0.0 1076
FJ977656.1 86.492 918 115 7 1 9146 918 0.0 1074
FJ977655.1 86.492 918 115 7 1 9146 918 0.0 1074
FJ977657.1 86.354 916 118 5 1 9146 916 0.0 1072
X91971.1 86.054 925 110 12 1 91426 942 0.0 1050
DQ093429.1 86.077 905 119 5 12 9141 900 0.0 1049
AY923889.1 87.168 865 105 4 15 8781 860 0.0 1047
AY679782.1 86.358 865 107 9 56 91426 885 0.0 998
AY923890.1 86.972 829 101 5 51 8781 823 0.0 993
AF534978.1 80.831 939 147 17 1 91126 959 0.0 836
AF534977.1 80.638 940 151 15 1 91326 961 0.0 836
AF534980.1 80.553 941 150 17 1 91326 961 0.0 825
AF046055.1 86.406 537 70 3 1 5358 543 0.0 628
L78882.1 86.364 440 58 2 32 4702 440 3.57e-147 517
L78883.1 86.136 440 58 3 33 4701 439 1.85e-144 508
DQ916542.1 84.807 362 53 2 16 3761 361 2.41e-111 398
AF534979.1 82.812 384 58 6 1 37726 408 7.88e-105 376
GQ371117.1 88.210 229 25 2 432 66017 243 3.83e-77 284
GQ371118.1 88.053 226 25 2 435 66020 243 1.63e-75 279
GQ337493.1 87.029 239 26 4 422 6608 241 1.63e-75 279
KF728890.1 87.097 31 3 1 530 56014671 14642 0.032 35.6
LC127067.1 91.667 24 1 1 534 55714390 14368 0.38 31.9
KU342667.1 100.00017 0 0 541 55714122 14106 0.38 31.9
KU342665.1 91.667 24 1 1 534 55711675 11653 0.38 31.9
KF728889.1 88.889 27 2 1 534 56014667 14642 0.38 31.9
KF728888.1 88.889 27 2 1 534 56014629 14604 0.38 31.9
GU810158.1 88.889 27 2 1 534 56014566 14541 0.38 31.9

Таблица 7. Результаты сравнения

АлгоритмЧисло п-тейMax score% identityQuery coverE value
Megablast28268-102781-89%23-100%0-8e-72
Discontiguous megablast28279-109581-88%24-100%0-2e-75
Blastn3531.9-109581-100%1-100%0-0.38

Как видно из приведенных выше таблиц, три алгоритма отличаются по выдаче:

  1. Blastn выдает наибольшее количество поледовательностей (последовательности с низким Query cover, высоким e-value - малодоверительные значения), часть этих последовательностей отметается другими алгоритмами.
  2. Число последовательносстей, найденных Discontiguous megablast и megablast, равны. При исключении всевозможных таксонов из поиска не было найдено ситуации где бы число находок этих двух алгоритмов отличалось.
  3. Парамерты находок для megablast и Discontiguous megablast с blastn для одних и тех же последовательностей существенно отличаются (длина слов ипользовалассь по умолчанию 28, 11 и 11 соответственно), изменяется порядок следования находок при сортировке в списке. Теоретически может привести к тому, что выдача Discontiguous megablast и megablast будут отличаться находками (если находки с низкими параметрами будут выбраковываться).

ПОИСК ГОМОЛОГОВ БЕЛКОВ В ГЕНОМЕ

Поиск трех различных белков осуществялялся в геноме организма Amoeboaphelidium protococcarum. Сборка его генома была найдена в директории y15/term3/block2/pr8 на диске P.

Поиск производился с помощью tblastn, переводящего белковую последовательность в нуклеотидную и выравнивающую ее с нуклеотидной. Белковые последовательности были найдены поиском по идентификатору и выравнены со сборкой геномов. Ниже приведены таблицы с результатами поиска и решения о присутствии гомологов для трех различных эукариотических белков.

TBB_NEUCR

Таблица 8. Находки TBB_NEUCR-кодирующей последовательности среди генома
ID% identity % positivesalignment lengthmismatchesgap opensq. start q. ends. starts. endevalue bit score
unplaced-665 81.55688.44450 61 11 428 7236 5887 0.0 742
scaffold-26 86.78894.04386 51 043 428 109811 108654 0.0 693
scaffold-26 66.66776.4751 17 01 51 110007 109855 3.94e-13 71.6
scaffold-57 40.13659.41441 251 31 431 88586 87273 2.71e-107 348
unplaced-5 39.90959.41441 252 31 431 3257 4570 3.57e-107 348
scaffold-423 28.79250.64389 236 880 428 190311 191474 6.07e-49 161
scaffold-423 27.50047.5080 40 19 70 189959 190198 6.07e-49 45.4
scaffold-423 76.92384.6213 3 02 14 189873 189911 6.07e-49 26.6
scaffold-423 27.34449.74384 237 880 422 110133911001911.75e-46 150
scaffold-423 33.33355.5663 34 116 70 110162211014341.75e-46 47.4
scaffold-423 76.92384.6213 3 02 14 110172811016901.75e-46 26.9
scaffold-423 21.50545.1693 70 2317 406 223991 223713 0.37 32.7

Таким образом, из таблицы видно, что скэффолд 26 содержит поледовательность очень близкую к последовательности данного белка: высокий процент идентичности последовательности, с большим покрытием и отсутствием гэпов говорит о том, что среди данной сборки содержится гомолог TBB_NEUCR, что вполне объясняется важной структурной ролью белка тубулина в клетке.

TERT_SCHPO

Таблица 9. Находки TERT_SCHPO-кодирующего участка в геноме.
ID% identity % positivesalignment lengthmismatchesgap opensq. start q. ends. starts. endevalue bit score
scaffold-17 25.051 46.64 491 305 16 320 780 610900 612273 1.17e-23 108
scaffold-17 35.849 56.60 53 33 1 505 557 639070 639225 4.1 30.8
unplaced-307 26.839 45.73 503 282 17 320 780 14863 16239 7.07e-22 102
unplaced-307 35.849 56.60 53 33 1 505 557 42110 42265 3.9 30.8
scaffold-105 28.261 46.74 92 62 1 810 897 24415 24140 0.51 33.9
unplaced-647 41.667 58.33 36 21 0 170 205 141 248 4.9 28.1
scaffold-170 40.000 55.00 40 24 0 864 903 255605 255486 7.6 30.0

Как видно, все построенные выравнивания характеризуются очень низким %идентичности и битскорм, при выской длине выравнивания и очень высоком значении e-value, что свидетельтвует о том, что данный набор скэффолдов не содержит гомологов теломеразы TERT_SCHPO.Теломераза содержится в клетках, характеризующихся благодаря ее активности способностью к необграниченному числу делений, что характерно для раковых или стволовых клеток. В связи с этим неудивительно, что в геноме протиста не содержится генов, кодирующих гомолог теломеразы.

EIF3G_SCHPO

Таблица 10. Находки EIF3G_SCHPO-кодирующего участка в геноме.
ID% identity % positivesalignment lengthmismatchesgap opensq. start q. ends. starts. endevalue bit score
scaffold-199 78.982 90.31 609 125 2 2 607 1109256 1107430 0.0 920
scaffold-199 55.556 74.07 27 12 0 82 108 1110027 1109947 0.002 40.8
scaffold-96 66.063 80.23 607 201 4 3 606 89928 91742 0.0 744
scaffold-423 65.733 79.90 607 203 4 3 606 1313216 1311402 0.0 737
scaffold-423 37.340 57.03 391 228 5 4 378 781726 782895 7.24e-65 232
unplaced-999 81.905 91.43 315 56 1 2 315 945 1 7.37e-172 540
unplaced-980 77.545 89.52 334 73 1 276 607 1 1002 2.48e-143 461
scaffold-157 46.766 64.43 402 196 6 216 607 165338 166519 5.76e-83 285
scaffold-157 54.419 71.16 215 93 3 5 217 164418 165053 4.66e-65 233
scaffold-157 29.032 49.68 310 193 5 61 343 219904 218975 4.68e-32 133
scaffold-693 46.766 63.93 402 196 6 216 607 1114528 1115709 1.15e-81 281
scaffold-693 54.419 71.16 215 93 3 5 217 1113608 1114243 8.81e-65 232
scaffold-693 27.795 48.64 331 212 5 61 364 1168679 1167687 1.88e-29 125
unplaced-804 71.503 86.53 193 53 1 417 607 17964 17386 1.10e-75 264
scaffold-499 71.503 87.05 193 53 1 417 607 3580 4158 3.74e-75 262
unplaced-959 37.340 57.03 391 228 5 4 378 9193 10362 1.42e-64 231
scaffold-469 76.923 92.31 104 24 0 437 540 2 313 1.48e-43 150
scaffold-418 76.923 92.31 104 24 0 437 540 312 1 1.48e-43 150
unplaced-113 68.966 78.16 87 26 1 9 94 1 261 2.64e-33 122
scaffold-138 57.746 76.06 71 28 1 539 607 249 37 5.14e-18 78.6
scaffold-61 57.746 76.06 71 28 1 539 607 5 217 5.14e-18 78.6
unplaced-721 68.966 79.31 29 9 0 579 607 272 186 9.60e-06 43.9
scaffold-444 26.923 47.44 78 46 1 533 599 345240 345473 1.5 31.6

Высокий % идентичностки, при большой длине выравнивания с нулевым значением E-value для 199 скэффолда говорит о том что в данном геноме содержится белок с возможным сохранением функции (высокая идентичность при покрытии в 94%). Необычно также, то выравнивание с 96 контигом также отличается нулевым e-value при 94%, но более низкой идентичности 64%.

РЕЗУЛЬТАТ

Таблица 11. Результат поиска гомологов трех белков.
ГЕНФУНКЦИЯРЕШЕНИЕСКЭФФОЛД
TBB_NEUCRТубулин, белок, участвующий в образовании микротрубочекГомолог с той же функциейскэффолд 26
TERT_SCHPOТеломеразаНет гомологов-
EIF3G_SCHPOФактор инициации трансляции eIF3g, содержит также РНК связывающий доменГомолог с той же функциейскэффолд 199

ПОИСК ГЕНА, ЗАКОДИРОВАННОГО В СКЭФФОЛДЕ

Для поиска гена был выбран скэффолд 51, имеющий длину 57241. Поиск генов осуществлялся с помощью blastx. Для того, чтобы ограничить чилсо находок было задано максимальное значение E-value 1.0e-5, и поиск ограничен таксоном Opisthokonta. Остальные параметры использовались по умолчанию.

Таким образом, было обнаружено 100 находок генов, почти все из которых кодируют один и тот же фермент, со значением e-value 0.0, одинаковым покрытием 5% и процентом идентичности более 60%. Все находки располагались на одном и том же участке скэффолда, из чего был сделан вывод, что данный скэффолд содержит в себе последовательность только гена оксоглутарат дегидрогеназы (компонент E1), белка, входящего в состав оксоглутарат-дегидрогеназного комплекса, учавствующего в цикле Кребса.

С таблицей находок можно ознакомится в файле.

Таблица 11. Находки генов для скаффолда 51.
ID% identity % positivesalignment lengthmismatchesgap opensq. start q. ends. starts. endevalue bit score
KNE62055.1 64.201 75.74 1014 329 9 19011 16066 48 1059 0.0 1316
KNE63048.1 63.905 75.44 1014 332 9 19011 16066 48 1059 0.0 1313
OAQ36299.1 63.572 78.00 991 343 7 19020 16069 52 1031 0.0 1312
ESA04323.1 63.883 76.66 994 333 8 19017 16069 61 1039 0.0 1311
EXX76063.1 63.883 76.66 994 333 8 19017 16069 61 1039 0.0 1310
PIA17819.1 63.864 76.08 999 340 6 19020 16066 34 1025 0.0 1305
ORZ00543.1 61.996 76.81 992 362 6 19020 16069 49 1033 0.0 1300
KFH71839.1 62.209 77.51 987 363 5 19020 16069 52 1031 0.0 1298
KFH71780.1 62.866 76.99 991 350 7 19020 16069 52 1031 0.0 1298
Главнaя страница

© Анна Камышева 2017