Отчет приведен в предыдущем практикуме (7).
Поиск производил по таксону Polychaeta, т.к. результаты по низшим таксонам получались с практически одинаковым сходством и заметных различий между алгоритмами blast не было.
Параметр | blastn | megablast | discontiguous megablast |
Число находок | 818 | 500 | 801 |
E-value худшей находки | 5.2 | 2e-57 | 5e-07 |
Query cover худшей находки | 3% | 69% | 11% |
Сходство худшей находки | 100% (16) | 81% (228) | 85% (39) |
Вывод: у megablast высокие требования к E-value, Query cover не может быть ниже 28 нуклеотидов (не находит короткие последовательности). Megablast можно использовать для поиска только гомологичных последовательностей
Только blastn выдал кучу находок с высоким E-value 5.2, например, в Gattyana ciliata 28S large subunit ribosomal RNA gene. Query cover (16) недостаточен для megablast, а для discontiguous megablast, возможно, не подошел паттерн.
Discontiguous blast и blastn выдали много находок, не найденных megablast, например Owenia fusiformis histone H3 (H3) gene (в выравнивании нет паттерна из 28 последовательных нуклеотидов)
# TBLASTN 2.2.28+ # Query: sp|O14746|TERT_HUMAN Telomerase reverse transcriptase OS=Homo sapiens GN=TERT PE=1 SV=1 # Database: X5.fasta # Fields: query id, subject id, % identity, alignment length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score # 3 hits found sp|O14746|TERT_HUMAN scaffold-17 26.58 568 374 17 452 1007 610942 612552 8e-23 105 sp|O14746|TERT_HUMAN unplaced-307 24.87 579 372 17 452 1007 14902 16518 5e-18 90.1 sp|O14746|TERT_HUMAN scaffold-361 29.63 81 54 2 409 487 82346 82107 1.9 32.0 # BLAST processed 1 queries
Хороших находок 2. Параметры лучшей находки: scaffold-17, Процент идентичности - 26.58, Query cover - 50, E-value - 8e-23.
Гомология есть, оба результата имеют очень похожие параметры - возможно, копии.
# TBLASTN 2.2.28+ # Query: sp|Q01081|U2AF1_HUMAN Splicing factor U2AF 35 kDa subunit OS=Homo sapiens GN=U2AF1 PE=1 SV=3 # Database: X5.fasta # Fields: query id, subject id, % identity, alignment length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score # 4 hits found sp|Q01081|U2AF1_HUMAN unplaced-986 46.67 195 81 2 1 178 15153 15719 1e-46 168 sp|Q01081|U2AF1_HUMAN scaffold-358 46.43 28 14 1 18 45 98752 98672 1.3 30.0 sp|Q01081|U2AF1_HUMAN scaffold-104 46.43 28 14 1 18 45 511366 511286 2.0 29.3 sp|Q01081|U2AF1_HUMAN scaffold-287 56.52 23 9 1 18 40 234307 234372 6.2 27.7 # BLAST processed 1 queries
Хорошая находка одна. Параметры лучшей находки: unplaced-986, Процент идентичности - 46.67, Query cover - 81.25, E-value - 1e-46.
Гомология есть, притом найден только один хороший результат.
# TBLASTN 2.2.28+ # Query: sp|P57740|NU107_HUMAN Nuclear pore complex protein Nup107 OS=Homo sapiens GN=NUP107 PE=1 SV=1 # Database: X5.fasta # Fields: query id, subject id, % identity, alignment length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score # 4 hits found sp|P57740|NU107_HUMAN scaffold-104 29.37 126 80 3 350 468 344639 344268 1e-06 52.0 sp|P57740|NU107_HUMAN scaffold-51 29.91 107 69 2 350 451 7114 6797 7e-06 49.7 sp|P57740|NU107_HUMAN scaffold-157 30.86 81 44 3 255 329 687312 687536 2.7 31.2 sp|P57740|NU107_HUMAN scaffold-22 32.58 89 46 4 657 731 16915 17181 5.1 30.4 # BLAST processed 1 queries
Хороших находок 2. Параметры лучшей находки: scaffold-104, Процент идентичности - 29.37, Query cover - 13.62, E-value - 1e-06.
Query cover очень мал. Не могу точно судить о гомологии
# TBLASTN 2.2.28+ # Query: sp|P09884|DPOLA_HUMAN DNA polymerase alpha catalytic subunit OS=Homo sapiens GN=POLA1 PE=1 SV=2 # Database: X5.fasta # Fields: query id, subject id, % identity, alignment length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score # 8 hits found sp|P09884|DPOLA_HUMAN scaffold-423 38.91 1177 646 25 331 1455 582560 579093 0.0 701 sp|P09884|DPOLA_HUMAN scaffold-424 37.90 1174 657 23 334 1455 75471 72010 0.0 688 sp|P09884|DPOLA_HUMAN scaffold-81 27.19 629 394 16 626 1227 342617 340842 1e-43 175 sp|P09884|DPOLA_HUMAN scaffold-359 27.19 629 394 16 626 1227 103638 105413 2e-42 171 sp|P09884|DPOLA_HUMAN unplaced-816 26.91 275 167 7 843 1085 26390 27208 3e-12 71.6 sp|P09884|DPOLA_HUMAN scaffold-105 28.18 110 58 3 915 1006 91155 90835 0.66 33.9 sp|P09884|DPOLA_HUMAN scaffold-17 28.18 110 58 3 915 1006 1881673 1881353 0.66 33.9 sp|P09884|DPOLA_HUMAN scaffold-444 24.75 101 54 3 1208 1286 308584 308282 3.8 31.6 # BLAST processed 1 queries
Хороших находок 5. Параметры лучшей находки: scaffold-423, Процент идентичности - 38.91, Query cover - 80.5, E-value - 0.0.
Такие низкие E-value указывают на гомологию.
# TBLASTN 2.2.28+ # Query: sp|P35580|MYH10_HUMAN Myosin-10 OS=Homo sapiens GN=MYH10 PE=1 SV=3 # Database: X5.fasta # Fields: query id, subject id, % identity, alignment length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score # 22 hits found sp|P35580|MYH10_HUMAN scaffold-444 54.09 880 378 12 27 899 223879 226461 0.0 929 sp|P35580|MYH10_HUMAN scaffold-444 36.88 789 447 15 71 833 36804 34513 3e-124 439 sp|P35580|MYH10_HUMAN scaffold-444 39.53 635 348 12 177 806 302716 304527 9e-122 403 sp|P35580|MYH10_HUMAN scaffold-444 39.68 63 38 0 116 178 302475 302663 9e-122 48.5 sp|P35580|MYH10_HUMAN scaffold-444 48.39 31 16 0 86 116 302326 302418 9e-122 28.5 sp|P35580|MYH10_HUMAN scaffold-444 33.80 713 412 20 88 774 837662 835626 6e-92 334 sp|P35580|MYH10_HUMAN scaffold-444 29.93 147 103 0 1522 1668 228319 228759 1e-04 47.0 sp|P35580|MYH10_HUMAN scaffold-17 54.05 877 383 12 27 899 949004 951586 0.0 927 sp|P35580|MYH10_HUMAN scaffold-17 37.34 798 431 19 71 833 763565 761274 2e-126 446 sp|P35580|MYH10_HUMAN scaffold-17 39.16 641 342 13 177 806 1027474 1029285 1e-120 390 sp|P35580|MYH10_HUMAN scaffold-17 33.86 127 62 2 74 178 1027040 1027420 1e-120 64.7 sp|P35580|MYH10_HUMAN scaffold-17 33.85 901 434 26 80 856 1548469 1545881 7e-113 402 sp|P35580|MYH10_HUMAN scaffold-17 35.41 740 426 18 93 818 1463980 1461875 5e-103 370 sp|P35580|MYH10_HUMAN scaffold-17 29.25 147 104 0 1522 1668 953444 953884 8e-04 44.3 sp|P35580|MYH10_HUMAN scaffold-17 24.10 166 126 0 1769 1934 955361 955858 0.96 33.9 sp|P35580|MYH10_HUMAN scaffold-105 33.93 896 437 27 80 856 459170 461749 1e-107 385 sp|P35580|MYH10_HUMAN scaffold-105 35.25 732 422 17 101 818 549497 551578 6e-101 363 sp|P35580|MYH10_HUMAN scaffold-20 33.52 713 414 19 88 774 32893 30857 2e-89 325 sp|P35580|MYH10_HUMAN scaffold-693 27.07 676 435 21 98 734 662953 664923 2e-49 194 sp|P35580|MYH10_HUMAN scaffold-170 27.01 685 442 21 89 734 88474 90471 4e-49 194 sp|P35580|MYH10_HUMAN unplaced-997 24.88 406 254 10 152 506 9066 7849 5e-21 101 sp|P35580|MYH10_HUMAN scaffold-140 19.88 171 118 5 333 487 225026 224523 0.056 38.1 # BLAST processed 1 queries
Хороших находок 22 (все). Параметры лучшей находки: scaffold-444, Процент идентичности - 54.09 , Query cover - 44.53, E-value - 0.0.
Гомология есть. Может быть, такое множество результатов - это копии последовательностей, кодирующих отдельные домены белка.