НУКЛЕОТИДНЫЙ BLAST
ОПРЕДЕЛЕНИЕ ТАКСОНОМИИ И ФУНКЦИИ ПОСЛЕДОВАТЕЛЬНОСТИ |
Для определения таксономии и функции использовался нуклеотидный бласт, алгоритм - blastn, выравнивающий нуклеотидные последовательности
относительно нуклеотидных последовательностей, подходящий для довольно близких последовательностей. Работа велась с воостановленной по хроматограмме последовательностью из
шестого практикума. Ниже можно ознакомится с содержанием полученной последовательности: |
Ae6_18SII_F_H05_WSBS-Seq-1-08-15.ab1 Ae6_18SII_R_H06_WSBS-Seq-1-08-15.ab1 |
На Рис.1 содержится скриншот выдачи бласта, более подробная информация представлена в Таблице 1. |
Рис. 1. Выдача blastn для поиска по последовательности |
Среди первых 100 находок нуклеотидного бласта все обладали нулевым значением E-value, Max score среди всех находок колебался в пределах 1088-1644, покрытие от
92 до 100%, процент идентичности от 87 до 99%. Таким образом, все построенные выравнивания обладают очень высокими показателями. Выравнивания с наибольшими Max score
отличались почти полным отсутствием гэпов (от 0 до 2) и различием последовательностей в 1-3 нуклеотида (при длинне последовательности в 914 пн). |
|
Таблица 1. Выдача нуклеотидного бласта (первые 30 выравниваний).
ID | % identity | alignment length | mismatches | gap opens | q. start | q. end | s. start | s. end | evalue | bit score |
KR778794.1 | 99.891 | 914 | 1 | 0 | 1 | 914 | 2 | 915 | 0.0 | 1644 |
KR778793.1 | 99.891 | 914 | 1 | 0 | 1 | 914 | 4 | 917 | 0.0 | 1644 |
KR778795.1 | 99.781 | 914 | 2 | 0 | 1 | 914 | 4 | 917 | 0.0 | 1640 |
FJ612478.1 | 99.781 | 915 | 1 | 1 | 1 | 914 | 2 | 916 | 0.0 | 1638 |
AF508126.1 | 99.126 | 915 | 7 | 1 | 1 | 914 | 25 | 939 | 0.0 | 1611 |
FJ612476.1 | 98.142 | 915 | 13 | 4 | 1 | 914 | 2 | 913 | 0.0 | 1559 |
DQ790087.1 | 97.923 | 915 | 16 | 3 | 1 | 914 | 27 | 939 | 0.0 | 1553 |
AY532363.1 | 97.923 | 915 | 16 | 3 | 1 | 914 | 12 | 924 | 0.0 | 1553 |
AF508124.1 | 97.923 | 915 | 15 | 4 | 1 | 914 | 22 | 933 | 0.0 | 1550 |
AY532362.1 | 97.814 | 915 | 16 | 4 | 1 | 914 | 8 | 919 | 0.0 | 1546 |
FJ612494.1 | 97.377 | 915 | 21 | 3 | 1 | 914 | 2 | 914 | 0.0 | 1532 |
KR778797.1 | 95.956 | 915 | 34 | 3 | 1 | 914 | 3 | 915 | 0.0 | 1472 |
KR778796.1 | 95.624 | 914 | 38 | 2 | 1 | 914 | 3 | 914 | 0.0 | 1462 |
KR920030.1 | 95.738 | 915 | 35 | 4 | 1 | 914 | 4 | 915 | 0.0 | 1460 |
AY532357.1 | 95.425 | 918 | 37 | 4 | 1 | 914 | 29 | 945 | 0.0 | 1452 |
FJ612481.1 | 95.087 | 916 | 41 | 4 | 1 | 914 | 2 | 915 | 0.0 | 1434 |
FJ612479.1 | 95.087 | 916 | 41 | 4 | 1 | 914 | 2 | 915 | 0.0 | 1434 |
AY532360.1 | 95.087 | 916 | 41 | 4 | 1 | 914 | 7 | 920 | 0.0 | 1434 |
FJ612480.1 | 94.869 | 916 | 43 | 4 | 1 | 914 | 2 | 915 | 0.0 | 1425 |
AY040696.1 | 95.207 | 918 | 31 | 12 | 1 | 914 | 8 | 916 | 0.0 | 1418 |
AY532361.1 | 94.577 | 922 | 42 | 6 | 1 | 914 | 2 | 923 | 0.0 | 1418 |
AF508123.1 | 94.662 | 918 | 44 | 5 | 1 | 914 | 22 | 938 | 0.0 | 1416 |
FJ612484.1 | 94.568 | 902 | 42 | 5 | 20 | 914 | 1 | 902 | 0.0 | 1389 |
AY532358.1 | 93.824 | 923 | 47 | 8 | 1 | 914 | 25 | 946 | 0.0 | 1380 |
AF209464.1 | 93.933 | 923 | 46 | 9 | 1 | 914 | 22 | 943 | 0.0 | 1380 |
AF448158.1 | 92.532 | 924 | 58 | 7 | 1 | 914 | 22 | 944 | 0.0 | 1333 |
FJ612486.1 | 92.299 | 922 | 61 | 9 | 1 | 914 | 2 | 921 | 0.0 | 1321 |
KF850491.1 | 94.379 | 854 | 41 | 5 | 11 | 857 | 4 | 857 | 0.0 | 1308 |
KC460270.1 | 93.052 | 878 | 55 | 5 | 42 | 914 | 7 | 883 | 0.0 | 1292 |
AY532355.1 | 91.381 | 905 | 70 | 7 | 16 | 914 | 1 | 903 | 0.0 | 1256 | |
Среди найденных последовательностей, все являются фрагментами 18S-РНК, входящий в состав малой субъединицы рибосомы. Из чего и был сделан
вывод о функции последовательности. |
Среди полученных находок первые пять обладали наиболее высокими показателями выравнивания, однако их источники относились к 4 различным видам,
ниже в таблице 2 приведена информация о таксономическом положении этих последовательностей и Max score их выравнивания с определяемой последовательностью. |
Таблица 2. Таксономическое положение последовательностей выравнивания
Max score | 1640-1644 | 1644 | 1638 | 1611 |
Superkingdom | Eukaryota | Eukaryota | Eukaryota | Eukaryota |
Kingdom | Metazoa | Metazoa | Metazoa | Metazoa |
Phylum | Annelida | Annelida | Annelida | Annelida |
Class | Polychaeta | Polychaeta | Polychaeta | Polychaeta |
Subclass | Scolecida | Scolecida | Scolecida | Scolecida |
Family | Orbiniidae | Orbiniidae | Orbiniidae | Orbiniidae |
Genus | Leodamas | Leitoscoloplos | Leodamas | Scoloplos |
Species | Leodamas dubia | Leitoscoloplos bifurcatus | Leodamas rubra | Scoloplos johnstonei |
Taxonomy ID | 1732508 | 1732507 | 646008 | 205119 |
|
Как видно из таблицы, все данные поледовательности принадлежат к классу полихет, относятся к одному семейству Orbiniidae,
но к разным родам. Однако 3 из 5 поледовательностей принадлежат роду Leodamas, при этом две последовательности с наивысшими значениями max score
(1644 и 1640), относятся к виду Leodamas dubia, в связи с чем я склонна предполагать, что данный фрагмент ближе всего именно к этому виду. |
Для того, чтобы точнее разобраться в данной ситуации было произведено выравнивание данных пяти последовательностей (фрагменты, использованные
бластом для выравнивания). Ниже приведен результат: |
Рис.2. Выравнивание пяти последовательностей.
|
Из выравнивания видно, что все последовательности чрезвычайно близки и отличаются друг от друга лишь несколькими нуклеотидами. Так как даже
среди поледовательностей одного вида (2 и 4 на Рис.2 с выравниванием) число отличий приблизительно равно числу отличий от изучаемой последовательности.
Сильнее всего отличается последовательность из рода Scoloplos, из чего можно сделать вывод, что данная последоательность относится либо к роду Leodamas,
либо Leitoscoloplos, а учитывая, что Leodamas rubra отличается от последовательности больше, чем три с более высокими показателями выравнивания -
это либо вид Leodamas dubia, либо Leitoscoloplos bifurcatus. Точно определить вид по данному выравниванию нельзя, но я склоняюсь к варанту
с Leodamas dubia, так как оба выравнивания с этим видом имели очень высокие показатели. |
Таблица 3. Результаты.
Функция | 18s-РНК |
Семейство | Orbiniidae |
Род | Leodamas (Leitoscoloplos) |
Вид | Leodamas dubia (Leitoscoloplos bifurcatus) |
|
Рис.3. Представитель семейства Orbiniidae |
|
СРАВНЕНИЕ АЛГОРИТМОВ ПОИСКА |
На примере данной последовательности был проведен анализ трех алгоритмов бласта. Для того, чтобы определить отличия в выдаче
находки были ограничены таксоном Neritoidea - суперсемейством моллюсков (данный выбор был сделан т.к. было принято решение о принадлежности
последовательности к таксону кольчатых червей), чтобы ограничить количество находок до обозримого количество с различающимся %идентичности.
Ниже приведены скриншоты выдачи трех алгоритмов нуклеотидного бласта, таблицы содержащие их находки и сводная таблица с результатами. |
Рис. 4. Выдача алгоритма Megablast |
Рис. 5. Выдача алгоритма discontiguous megablast |
Рис. 6. Выдача алгоритма blastn |
|
Таблица 4. Выдача алгоритма megablast.
ID | % identity | alignment length | mismatches | gap opens | q. start | q. end | s. start | s. end | evalue | bit score |
AM048635.1 | 87.037 | 918 | 109 | 9 | 1 | 914 | 8 | 919 | 0.0 | 1027 |
GQ160808.1 | 87.023 | 917 | 110 | 8 | 1 | 914 | 6 | 916 | 0.0 | 1026 |
GQ160807.1 | 87.023 | 917 | 110 | 8 | 1 | 914 | 6 | 916 | 0.0 | 1026 |
AM048634.1 | 86.819 | 918 | 111 | 9 | 1 | 914 | 8 | 919 | 0.0 | 1022 |
AM048633.1 | 86.914 | 917 | 111 | 8 | 1 | 914 | 8 | 918 | 0.0 | 1020 |
FJ977658.1 | 86.819 | 918 | 111 | 9 | 1 | 914 | 6 | 917 | 0.0 | 1016 |
AM048632.1 | 86.703 | 925 | 106 | 13 | 1 | 914 | 8 | 926 | 0.0 | 1011 |
AF120515.1 | 86.710 | 918 | 112 | 9 | 1 | 914 | 6 | 917 | 0.0 | 1011 |
FJ977656.1 | 86.616 | 919 | 112 | 10 | 1 | 914 | 6 | 918 | 0.0 | 1005 |
FJ977655.1 | 86.616 | 919 | 112 | 10 | 1 | 914 | 6 | 918 | 0.0 | 1005 |
FJ977654.1 | 86.601 | 918 | 113 | 9 | 1 | 914 | 6 | 917 | 0.0 | 1005 |
FJ977657.1 | 86.478 | 917 | 115 | 8 | 1 | 914 | 6 | 916 | 0.0 | 998 |
X91971.1 | 86.285 | 926 | 106 | 17 | 1 | 914 | 26 | 942 | 0.0 | 987 |
AY923889.1 | 87.298 | 866 | 102 | 7 | 15 | 878 | 1 | 860 | 0.0 | 983 |
DQ093429.1 | 86.329 | 907 | 113 | 10 | 12 | 914 | 1 | 900 | 0.0 | 977 |
AY679782.1 | 86.437 | 870 | 104 | 13 | 52 | 914 | 23 | 885 | 0.0 | 941 |
AY923890.1 | 87.108 | 830 | 98 | 8 | 51 | 878 | 1 | 823 | 0.0 | 931 |
AF534978.1 | 81.529 | 942 | 135 | 31 | 1 | 911 | 26 | 959 | 0.0 | 739 |
AF534977.1 | 81.376 | 945 | 135 | 31 | 1 | 913 | 26 | 961 | 0.0 | 732 |
AF534980.1 | 81.250 | 944 | 138 | 31 | 1 | 913 | 26 | 961 | 0.0 | 726 |
AF046055.1 | 86.617 | 538 | 67 | 5 | 1 | 535 | 8 | 543 | 1.52e-168 | 590 |
L78882.1 | 86.621 | 441 | 55 | 4 | 32 | 470 | 2 | 440 | 7.37e-137 | 484 |
L78883.1 | 86.395 | 441 | 55 | 5 | 33 | 470 | 1 | 439 | 1.23e-134 | 477 |
DQ916542.1 | 85.440 | 364 | 47 | 6 | 16 | 376 | 1 | 361 | 1.66e-103 | 374 |
AF534979.1 | 83.161 | 386 | 53 | 11 | 1 | 377 | 26 | 408 | 4.69e-94 | 342 |
GQ371117.1 | 89.450 | 218 | 21 | 2 | 432 | 649 | 17 | 232 | 1.74e-73 | 274 |
GQ337493.1 | 88.596 | 228 | 21 | 5 | 422 | 649 | 8 | 230 | 6.24e-73 | 272 |
GQ371118.1 | 88.444 | 225 | 22 | 4 | 425 | 649 | 12 | 232 | 8.08e-72 | 268 | |
Таблица 5. Выдача алгоритма discontiguous megablast.
ID | % identity | alignment length | mismatches | gap opens | q. start | q. end | s. start | s. end | evalue | bit score |
GQ160808.1 | 86.900 | 916 | 113 | 5 | 1 | 914 | 6 | 916 | 0.0 | 1095 |
GQ160807.1 | 86.900 | 916 | 113 | 5 | 1 | 914 | 6 | 916 | 0.0 | 1095 |
AM048635.1 | 86.914 | 917 | 112 | 6 | 1 | 914 | 8 | 919 | 0.0 | 1094 |
AM048634.1 | 86.696 | 917 | 114 | 6 | 1 | 914 | 8 | 919 | 0.0 | 1090 |
AM048633.1 | 86.790 | 916 | 114 | 5 | 1 | 914 | 8 | 918 | 0.0 | 1090 |
FJ977658.1 | 86.696 | 917 | 114 | 6 | 1 | 914 | 6 | 917 | 0.0 | 1085 |
AF120515.1 | 86.587 | 917 | 115 | 6 | 1 | 914 | 6 | 917 | 0.0 | 1079 |
FJ977654.1 | 86.478 | 917 | 116 | 6 | 1 | 914 | 6 | 917 | 0.0 | 1076 |
AM048632.1 | 86.472 | 924 | 110 | 9 | 1 | 914 | 8 | 926 | 0.0 | 1076 |
FJ977656.1 | 86.492 | 918 | 115 | 7 | 1 | 914 | 6 | 918 | 0.0 | 1074 |
FJ977655.1 | 86.492 | 918 | 115 | 7 | 1 | 914 | 6 | 918 | 0.0 | 1074 |
FJ977657.1 | 86.354 | 916 | 118 | 5 | 1 | 914 | 6 | 916 | 0.0 | 1072 |
X91971.1 | 86.054 | 925 | 110 | 12 | 1 | 914 | 26 | 942 | 0.0 | 1050 |
DQ093429.1 | 86.077 | 905 | 119 | 5 | 12 | 914 | 1 | 900 | 0.0 | 1049 |
AY923889.1 | 87.168 | 865 | 105 | 4 | 15 | 878 | 1 | 860 | 0.0 | 1047 |
AY679782.1 | 86.358 | 865 | 107 | 9 | 56 | 914 | 26 | 885 | 0.0 | 998 |
AY923890.1 | 86.972 | 829 | 101 | 5 | 51 | 878 | 1 | 823 | 0.0 | 993 |
AF534978.1 | 80.831 | 939 | 147 | 17 | 1 | 911 | 26 | 959 | 0.0 | 836 |
AF534977.1 | 80.638 | 940 | 151 | 15 | 1 | 913 | 26 | 961 | 0.0 | 836 |
AF534980.1 | 80.553 | 941 | 150 | 17 | 1 | 913 | 26 | 961 | 0.0 | 825 |
AF046055.1 | 86.406 | 537 | 70 | 3 | 1 | 535 | 8 | 543 | 0.0 | 628 |
L78882.1 | 86.364 | 440 | 58 | 2 | 32 | 470 | 2 | 440 | 3.79e-147 | 517 |
L78883.1 | 86.136 | 440 | 58 | 3 | 33 | 470 | 1 | 439 | 1.96e-144 | 508 |
DQ916542.1 | 84.807 | 362 | 53 | 2 | 16 | 376 | 1 | 361 | 2.56e-111 | 398 |
AF534979.1 | 82.812 | 384 | 58 | 6 | 1 | 377 | 26 | 408 | 8.37e-105 | 376 |
GQ371117.1 | 88.210 | 229 | 25 | 2 | 432 | 660 | 17 | 243 | 4.06e-77 | 284 |
GQ371118.1 | 88.053 | 226 | 25 | 2 | 435 | 660 | 20 | 243 | 1.73e-75 | 279 |
GQ337493.1 | 87.029 | 239 | 26 | 4 | 422 | 660 | 8 | 241 | 1.73e-75 | 279 | |
Таблица 6. Выдача алгоритма discontiguous blastn.
ID | % identity | alignment length | mismatches | gap opens | q. start | q. end | s. start | s. end | evalue | bit score |
GQ160808.1 | 86.900 | 916 | 113 | 5 | 1 | 914 | 6 | 916 | 0.0 | 1095 |
GQ160807.1 | 86.900 | 916 | 113 | 5 | 1 | 914 | 6 | 916 | 0.0 | 1095 |
AM048635.1 | 86.914 | 917 | 112 | 6 | 1 | 914 | 8 | 919 | 0.0 | 1094 |
AM048634.1 | 86.696 | 917 | 114 | 6 | 1 | 914 | 8 | 919 | 0.0 | 1090 |
AM048633.1 | 86.790 | 916 | 114 | 5 | 1 | 914 | 8 | 918 | 0.0 | 1090 |
FJ977658.1 | 86.696 | 917 | 114 | 6 | 1 | 914 | 6 | 917 | 0.0 | 1085 |
AF120515.1 | 86.587 | 917 | 115 | 6 | 1 | 914 | 6 | 917 | 0.0 | 1079 |
FJ977654.1 | 86.478 | 917 | 116 | 6 | 1 | 914 | 6 | 917 | 0.0 | 1076 |
AM048632.1 | 86.472 | 924 | 110 | 9 | 1 | 914 | 8 | 926 | 0.0 | 1076 |
FJ977656.1 | 86.492 | 918 | 115 | 7 | 1 | 914 | 6 | 918 | 0.0 | 1074 |
FJ977655.1 | 86.492 | 918 | 115 | 7 | 1 | 914 | 6 | 918 | 0.0 | 1074 |
FJ977657.1 | 86.354 | 916 | 118 | 5 | 1 | 914 | 6 | 916 | 0.0 | 1072 |
X91971.1 | 86.054 | 925 | 110 | 12 | 1 | 914 | 26 | 942 | 0.0 | 1050 |
DQ093429.1 | 86.077 | 905 | 119 | 5 | 12 | 914 | 1 | 900 | 0.0 | 1049 |
AY923889.1 | 87.168 | 865 | 105 | 4 | 15 | 878 | 1 | 860 | 0.0 | 1047 |
AY679782.1 | 86.358 | 865 | 107 | 9 | 56 | 914 | 26 | 885 | 0.0 | 998 |
AY923890.1 | 86.972 | 829 | 101 | 5 | 51 | 878 | 1 | 823 | 0.0 | 993 |
AF534978.1 | 80.831 | 939 | 147 | 17 | 1 | 911 | 26 | 959 | 0.0 | 836 |
AF534977.1 | 80.638 | 940 | 151 | 15 | 1 | 913 | 26 | 961 | 0.0 | 836 |
AF534980.1 | 80.553 | 941 | 150 | 17 | 1 | 913 | 26 | 961 | 0.0 | 825 |
AF046055.1 | 86.406 | 537 | 70 | 3 | 1 | 535 | 8 | 543 | 0.0 | 628 |
L78882.1 | 86.364 | 440 | 58 | 2 | 32 | 470 | 2 | 440 | 3.57e-147 | 517 |
L78883.1 | 86.136 | 440 | 58 | 3 | 33 | 470 | 1 | 439 | 1.85e-144 | 508 |
DQ916542.1 | 84.807 | 362 | 53 | 2 | 16 | 376 | 1 | 361 | 2.41e-111 | 398 |
AF534979.1 | 82.812 | 384 | 58 | 6 | 1 | 377 | 26 | 408 | 7.88e-105 | 376 |
GQ371117.1 | 88.210 | 229 | 25 | 2 | 432 | 660 | 17 | 243 | 3.83e-77 | 284 |
GQ371118.1 | 88.053 | 226 | 25 | 2 | 435 | 660 | 20 | 243 | 1.63e-75 | 279 |
GQ337493.1 | 87.029 | 239 | 26 | 4 | 422 | 660 | 8 | 241 | 1.63e-75 | 279 |
KF728890.1 | 87.097 | 31 | 3 | 1 | 530 | 560 | 14671 | 14642 | 0.032 | 35.6 |
LC127067.1 | 91.667 | 24 | 1 | 1 | 534 | 557 | 14390 | 14368 | 0.38 | 31.9 |
KU342667.1 | 100.000 | 17 | 0 | 0 | 541 | 557 | 14122 | 14106 | 0.38 | 31.9 |
KU342665.1 | 91.667 | 24 | 1 | 1 | 534 | 557 | 11675 | 11653 | 0.38 | 31.9 |
KF728889.1 | 88.889 | 27 | 2 | 1 | 534 | 560 | 14667 | 14642 | 0.38 | 31.9 |
KF728888.1 | 88.889 | 27 | 2 | 1 | 534 | 560 | 14629 | 14604 | 0.38 | 31.9 |
GU810158.1 | 88.889 | 27 | 2 | 1 | 534 | 560 | 14566 | 14541 | 0.38 | 31.9 | |
Таблица 7. Результаты сравнения
Алгоритм | Число п-тей | Max score | % identity | Query cover | E value |
Megablast | 28 | 268-1027 | 81-89% | 23-100% | 0-8e-72 |
Discontiguous megablast | 28 | 279-1095 | 81-88% | 24-100% | 0-2e-75 |
Blastn | 35 | 31.9-1095 | 81-100% | 1-100% | 0-0.38 |
|
Как видно из приведенных выше таблиц, три алгоритма отличаются по выдаче:
- Blastn выдает наибольшее количество поледовательностей (последовательности с низким Query cover, высоким e-value - малодоверительные значения),
часть этих последовательностей отметается другими алгоритмами.
- Число последовательносстей, найденных Discontiguous megablast и megablast, равны. При исключении всевозможных таксонов из поиска не было
найдено ситуации где бы число находок этих двух алгоритмов отличалось.
- Парамерты находок для megablast и Discontiguous megablast с blastn для одних и тех же последовательностей существенно отличаются (длина слов ипользовалассь по
умолчанию 28, 11 и 11 соответственно), изменяется порядок следования находок при сортировке в списке. Теоретически может привести к тому, что
выдача Discontiguous megablast и megablast будут отличаться находками (если находки с низкими параметрами будут выбраковываться).
|
ПОИСК ГОМОЛОГОВ БЕЛКОВ В ГЕНОМЕ |
Поиск трех различных белков осуществялялся в геноме организма Amoeboaphelidium protococcarum. Сборка его генома была
найдена в директории y15/term3/block2/pr8 на диске P.
Поиск производился с помощью tblastn, переводящего белковую последовательность в нуклеотидную и выравнивающую ее с нуклеотидной. Белковые последовательности
были найдены поиском по идентификатору и выравнены со сборкой геномов. Ниже приведены таблицы с результатами поиска и решения о присутствии гомологов для
трех различных эукариотических белков. |
TBB_NEUCR |
Таблица 8. Находки TBB_NEUCR-кодирующей последовательности среди генома
ID | % identity | % positives | alignment length | mismatches | gap opens | q. start | q. end | s. start | s. end | evalue | bit score |
unplaced-665 | 81.556 | 88.44 | 450 | 61 | 1 | 1 | 428 | 7236 | 5887 | 0.0 | 742 |
scaffold-26 | 86.788 | 94.04 | 386 | 51 | 0 | 43 | 428 | 109811 | 108654 | 0.0 | 693 |
scaffold-26 | 66.667 | 76.47 | 51 | 17 | 0 | 1 | 51 | 110007 | 109855 | 3.94e-13 | 71.6 |
scaffold-57 | 40.136 | 59.41 | 441 | 251 | 3 | 1 | 431 | 88586 | 87273 | 2.71e-107 | 348 |
unplaced-5 | 39.909 | 59.41 | 441 | 252 | 3 | 1 | 431 | 3257 | 4570 | 3.57e-107 | 348 |
scaffold-423 | 28.792 | 50.64 | 389 | 236 | 8 | 80 | 428 | 190311 | 191474 | 6.07e-49 | 161 |
scaffold-423 | 27.500 | 47.50 | 80 | 40 | 1 | 9 | 70 | 189959 | 190198 | 6.07e-49 | 45.4 |
scaffold-423 | 76.923 | 84.62 | 13 | 3 | 0 | 2 | 14 | 189873 | 189911 | 6.07e-49 | 26.6 |
scaffold-423 | 27.344 | 49.74 | 384 | 237 | 8 | 80 | 422 | 1101339 | 1100191 | 1.75e-46 | 150 |
scaffold-423 | 33.333 | 55.56 | 63 | 34 | 1 | 16 | 70 | 1101622 | 1101434 | 1.75e-46 | 47.4 |
scaffold-423 | 76.923 | 84.62 | 13 | 3 | 0 | 2 | 14 | 1101728 | 1101690 | 1.75e-46 | 26.9 |
scaffold-423 | 21.505 | 45.16 | 93 | 70 | 2 | 317 | 406 | 223991 | 223713 | 0.37 | 32.7 |
|
Таким образом, из таблицы видно, что скэффолд 26 содержит поледовательность очень близкую к последовательности данного белка: высокий процент идентичности
последовательности, с большим покрытием и отсутствием гэпов говорит о том, что среди данной сборки содержится гомолог TBB_NEUCR, что вполне объясняется
важной структурной ролью белка тубулина в клетке. |
TERT_SCHPO |
Таблица 9. Находки TERT_SCHPO-кодирующего участка в геноме.
ID | % identity | % positives | alignment length | mismatches | gap opens | q. start | q. end | s. start | s. end | evalue | bit score |
scaffold-17 | 25.051 | 46.64 | 491 | 305 | 16 | 320 | 780 | 610900 | 612273 | 1.17e-23 | 108 |
scaffold-17 | 35.849 | 56.60 | 53 | 33 | 1 | 505 | 557 | 639070 | 639225 | 4.1 | 30.8 |
unplaced-307 | 26.839 | 45.73 | 503 | 282 | 17 | 320 | 780 | 14863 | 16239 | 7.07e-22 | 102 |
unplaced-307 | 35.849 | 56.60 | 53 | 33 | 1 | 505 | 557 | 42110 | 42265 | 3.9 | 30.8 |
scaffold-105 | 28.261 | 46.74 | 92 | 62 | 1 | 810 | 897 | 24415 | 24140 | 0.51 | 33.9 |
unplaced-647 | 41.667 | 58.33 | 36 | 21 | 0 | 170 | 205 | 141 | 248 | 4.9 | 28.1 |
scaffold-170 | 40.000 | 55.00 | 40 | 24 | 0 | 864 | 903 | 255605 | 255486 | 7.6 | 30.0 |
|
Как видно, все построенные выравнивания характеризуются очень низким %идентичности и битскорм, при выской длине выравнивания и очень
высоком значении e-value, что свидетельтвует о том, что данный набор скэффолдов не содержит гомологов теломеразы TERT_SCHPO.Теломераза содержится
в клетках, характеризующихся благодаря ее активности способностью к необграниченному числу делений, что характерно для раковых или стволовых клеток.
В связи с этим неудивительно, что в геноме протиста не содержится генов, кодирующих гомолог теломеразы. |
EIF3G_SCHPO |
Таблица 10. Находки EIF3G_SCHPO-кодирующего участка в геноме.
ID | % identity | % positives | alignment length | mismatches | gap opens | q. start | q. end | s. start | s. end | evalue | bit score |
scaffold-199 | 78.982 | 90.31 | 609 | 125 | 2 | 2 | 607 | 1109256 | 1107430 | 0.0 | 920 |
scaffold-199 | 55.556 | 74.07 | 27 | 12 | 0 | 82 | 108 | 1110027 | 1109947 | 0.002 | 40.8 |
scaffold-96 | 66.063 | 80.23 | 607 | 201 | 4 | 3 | 606 | 89928 | 91742 | 0.0 | 744 |
scaffold-423 | 65.733 | 79.90 | 607 | 203 | 4 | 3 | 606 | 1313216 | 1311402 | 0.0 | 737 |
scaffold-423 | 37.340 | 57.03 | 391 | 228 | 5 | 4 | 378 | 781726 | 782895 | 7.24e-65 | 232 |
unplaced-999 | 81.905 | 91.43 | 315 | 56 | 1 | 2 | 315 | 945 | 1 | 7.37e-172 | 540 |
unplaced-980 | 77.545 | 89.52 | 334 | 73 | 1 | 276 | 607 | 1 | 1002 | 2.48e-143 | 461 |
scaffold-157 | 46.766 | 64.43 | 402 | 196 | 6 | 216 | 607 | 165338 | 166519 | 5.76e-83 | 285 |
scaffold-157 | 54.419 | 71.16 | 215 | 93 | 3 | 5 | 217 | 164418 | 165053 | 4.66e-65 | 233 |
scaffold-157 | 29.032 | 49.68 | 310 | 193 | 5 | 61 | 343 | 219904 | 218975 | 4.68e-32 | 133 |
scaffold-693 | 46.766 | 63.93 | 402 | 196 | 6 | 216 | 607 | 1114528 | 1115709 | 1.15e-81 | 281 |
scaffold-693 | 54.419 | 71.16 | 215 | 93 | 3 | 5 | 217 | 1113608 | 1114243 | 8.81e-65 | 232 |
scaffold-693 | 27.795 | 48.64 | 331 | 212 | 5 | 61 | 364 | 1168679 | 1167687 | 1.88e-29 | 125 |
unplaced-804 | 71.503 | 86.53 | 193 | 53 | 1 | 417 | 607 | 17964 | 17386 | 1.10e-75 | 264 |
scaffold-499 | 71.503 | 87.05 | 193 | 53 | 1 | 417 | 607 | 3580 | 4158 | 3.74e-75 | 262 |
unplaced-959 | 37.340 | 57.03 | 391 | 228 | 5 | 4 | 378 | 9193 | 10362 | 1.42e-64 | 231 |
scaffold-469 | 76.923 | 92.31 | 104 | 24 | 0 | 437 | 540 | 2 | 313 | 1.48e-43 | 150 |
scaffold-418 | 76.923 | 92.31 | 104 | 24 | 0 | 437 | 540 | 312 | 1 | 1.48e-43 | 150 |
unplaced-113 | 68.966 | 78.16 | 87 | 26 | 1 | 9 | 94 | 1 | 261 | 2.64e-33 | 122 |
scaffold-138 | 57.746 | 76.06 | 71 | 28 | 1 | 539 | 607 | 249 | 37 | 5.14e-18 | 78.6 |
scaffold-61 | 57.746 | 76.06 | 71 | 28 | 1 | 539 | 607 | 5 | 217 | 5.14e-18 | 78.6 |
unplaced-721 | 68.966 | 79.31 | 29 | 9 | 0 | 579 | 607 | 272 | 186 | 9.60e-06 | 43.9 |
scaffold-444 | 26.923 | 47.44 | 78 | 46 | 1 | 533 | 599 | 345240 | 345473 | 1.5 | 31.6 | |
Высокий % идентичностки, при большой длине выравнивания с нулевым значением E-value для 199 скэффолда говорит о том что в данном геноме
содержится белок с возможным сохранением функции (высокая идентичность при покрытии в 94%). Необычно также, то выравнивание с 96 контигом также отличается
нулевым e-value при 94%, но более низкой идентичности 64%. |
РЕЗУЛЬТАТ |
Таблица 11. Результат поиска гомологов трех белков. |
ГЕН | ФУНКЦИЯ | РЕШЕНИЕ | СКЭФФОЛД |
TBB_NEUCR | Тубулин, белок, участвующий в образовании микротрубочек | Гомолог с той же функцией | скэффолд 26 |
TERT_SCHPO | Теломераза | Нет гомологов | - |
EIF3G_SCHPO | Фактор инициации трансляции eIF3g, содержит также РНК связывающий домен | Гомолог с той же функцией | скэффолд 199 |
|
ПОИСК ГЕНА, ЗАКОДИРОВАННОГО В СКЭФФОЛДЕ |
Для поиска гена был выбран скэффолд 51, имеющий длину 57241. Поиск генов осуществлялся с помощью blastx. Для того, чтобы ограничить
чилсо находок было задано максимальное значение E-value 1.0e-5, и поиск ограничен таксоном Opisthokonta. Остальные параметры использовались по
умолчанию.
Таким образом, было обнаружено 100 находок генов, почти все из которых кодируют один и тот же фермент, со значением e-value 0.0,
одинаковым покрытием 5% и процентом идентичности более 60%. Все находки располагались на одном и том же участке скэффолда, из
чего был сделан вывод, что данный скэффолд содержит в себе последовательность только гена оксоглутарат дегидрогеназы (компонент E1), белка,
входящего в состав оксоглутарат-дегидрогеназного комплекса, учавствующего в цикле Кребса. |
С таблицей находок можно ознакомится в файле. |
Таблица 11. Находки генов для скаффолда 51.
ID | % identity | % positives | alignment length | mismatches | gap opens | q. start | q. end | s. start | s. end | evalue | bit score |
KNE62055.1 | 64.201 | 75.74 | 1014 | 329 | 9 | 19011 | 16066 | 48 | 1059 | 0.0 | 1316 |
KNE63048.1 | 63.905 | 75.44 | 1014 | 332 | 9 | 19011 | 16066 | 48 | 1059 | 0.0 | 1313 |
OAQ36299.1 | 63.572 | 78.00 | 991 | 343 | 7 | 19020 | 16069 | 52 | 1031 | 0.0 | 1312 |
ESA04323.1 | 63.883 | 76.66 | 994 | 333 | 8 | 19017 | 16069 | 61 | 1039 | 0.0 | 1311 |
EXX76063.1 | 63.883 | 76.66 | 994 | 333 | 8 | 19017 | 16069 | 61 | 1039 | 0.0 | 1310 |
PIA17819.1 | 63.864 | 76.08 | 999 | 340 | 6 | 19020 | 16066 | 34 | 1025 | 0.0 | 1305 |
ORZ00543.1 | 61.996 | 76.81 | 992 | 362 | 6 | 19020 | 16069 | 49 | 1033 | 0.0 | 1300 |
KFH71839.1 | 62.209 | 77.51 | 987 | 363 | 5 | 19020 | 16069 | 52 | 1031 | 0.0 | 1298 |
KFH71780.1 | 62.866 | 76.99 | 991 | 350 | 7 | 19020 | 16069 | 52 | 1031 | 0.0 | 1298 |
|
|
Главнaя страница
|