С помощью алгоритма blastn был произведен поиск гомологов консенсусной последовательности из практикума 6:
>EMBOSS_001 ttntnaaangacggccagtatggctcgtaccaagcagacngcacgtaaatYYWMCSGKKG RANGGCACCGCGAAAACAACTGGCCACCAAGGCAGCCCGMAAGAGTGCNCCAGCTACCGG NGGAGTGAAGAAACCTCATCGTTACAGGCCCGGGACNGTCGCTCTCCGTGAGATCCGTCG CTACCAGAAGAGCACCGAGCTCCTGATCCGAAAANTGCCCTTCCAGCGTCTGGTCAGAGA AATCGCYCAGGACTTCAAGACCGAGCTGCGNTTCCAGAGNTCCGCCNTCATGGCNCTCCA GGAAGCNAGCGAAGCCTACCTCGTCGGTCTCTTCGAGGACACCAACCTNTGCNccatyca cgccaaacgtgtcacnatnatgccnaaggatatgtcatagctgtttcn
gene <1..>365
/gene="H3"
mRNA <1..>365
/gene="H3"
/product="histone H3"
CDS <1..>365
/gene="H3"
/codon_start=2
/product="histone H3"
/protein_id="AJS14690.1"
/translation="TASMARTKQTARKSTGGKAPRKQLATKAARKSAPATGGVKKPHR
YRPGTVALREIRRYQKSTELLIRKLPFQRLVREIAQDFKTELRFQSSAIMALQEASEA
YLVGLFEDTNLCAIHAKRV"
Таблицу с данными по трем разным вариантам алгоритмов blast вы можете скачать по ссылке
| Алгоритм | Параметры алгоритма | Число находок | Комментарии |
| megablast | Стандартные; длина слова=28 | 4975 | Последняя находка с e-value=9e-33; несколько до нее - 2е-33; был выбран параметр "показать первые 5000 находок" |
| blastn | Стандартные; длина слова=11 | >5000 | Был выбран параметр "показать первые 5000 находок"; последняя находка на странице с e-value=4e-87 |
| blastn | Длина слова=7 | >5000 | Был выбран параметр "показать первые 5000 находок" |
При запуске локального blast по алгоритму tblastn, query=HSP71_YEAST, outfmt: 7
Была получена следующая таблица:
query id subject id %ident aln len mis gap opens q. start q. end s. start s. end evalue bit score P10591|HSP71_YEAST scaffold-199 78.98 609 125 2 2 607 1109256 1107430 0.0 920 P10591|HSP71_YEAST scaffold-199 55.56 27 12 0 82 108 1110027 1109947 0.002 40.8 P10591|HSP71_YEAST scaffold-96 66.06 607 201 4 3 606 89928 91742 0.0 744 P10591|HSP71_YEAST scaffold-423 65.73 607 203 4 3 606 1313216 1311402 0.0 737 P10591|HSP71_YEAST scaffold-423 37.34 391 228 5 4 378 781726 782895 8e-64 232 P10591|HSP71_YEAST unplaced-999 81.90 315 56 1 2 315 945 1 8e-171 540 P10591|HSP71_YEAST unplaced-980 77.54 334 73 1 276 607 1 1002 9e-142 461 P10591|HSP71_YEAST scaffold-157 46.77 402 196 6 216 607 165338 166519 1e-81 285 P10591|HSP71_YEAST scaffold-157 54.42 215 93 3 5 217 164418 165053 5e-64 233 P10591|HSP71_YEAST scaffold-157 29.03 310 193 5 61 343 219904 218975 5e-32 133 P10591|HSP71_YEAST scaffold-693 46.77 402 196 6 216 607 1114528 1115709 2e-80 281 P10591|HSP71_YEAST scaffold-693 54.42 215 93 3 5 217 1113608 1114243 1e-63 232 P10591|HSP71_YEAST scaffold-693 27.79 331 212 5 61 364 1168679 1167687 2e-29 125 P10591|HSP71_YEAST unplaced-804 71.50 193 53 1 417 607 17964 17386 2e-74 264 P10591|HSP71_YEAST scaffold-499 71.50 193 53 1 417 607 3580 4158 6e-74 262 P10591|HSP71_YEAST unplaced-959 37.34 391 228 5 4 378 9193 10362 1e-63 231 P10591|HSP71_YEAST scaffold-469 76.92 104 24 0 437 540 2 313 5e-43 150 P10591|HSP71_YEAST scaffold-418 76.92 104 24 0 437 540 312 1 5e-43 150 P10591|HSP71_YEAST unplaced-113 68.97 87 26 1 9 94 1 261 1e-32 122 P10591|HSP71_YEAST scaffold-138 57.75 71 28 1 539 607 249 37 3e-17 78.6 P10591|HSP71_YEAST scaffold-61 57.75 71 28 1 539 607 5 217 3e-17 78.6 P10591|HSP71_YEAST unplaced-721 68.97 29 9 0 579 607 272 186 2e-05 43.9Наименьшего значения e-value достигают фрагменты scaffold-199 (609 ао), scaffold-96 (605 ао) и scaffold-493 (605) (0.0)
query id subject id %ident aln len mis gap opens q. start q. end s. start s. end evalue bit score Q9TEM3|PRPC_EMENI scaffold-693 56.38 376 158 4 86 460 1243882 1244994 6e-121 393 Q9TEM3|PRPC_EMENI scaffold-693 41.79 67 38 1 20 85 1243614 1243814 5e-07 52.0 Q9TEM3|PRPC_EMENI scaffold-157 56.38 376 158 4 86 460 314582 315694 6e-120 390 Q9TEM3|PRPC_EMENI scaffold-157 40.30 67 39 1 20 85 314314 314514 8e-07 51.2 Q9TEM3|PRPC_EMENI scaffold-287 26.27 373 217 17 117 451 548001 546943 9e-11 64.3 Q9TEM3|PRPC_EMENI scaffold-212 27.82 266 163 12 199 453 46016 45273 1e-08 57.4Первые 4 находки представляют собой последовательности в составе двух скэффолдов - 693 и 157.
Query 1 GIRFRGMTIPEC*EKLPKANGG*EPLPEGLFYLLLTGEVPTKEQVDEVSRDWANRASSLP 60
GIRFRGMTIPEC*EKLPKANGG*EPLPEGLFYLLLTGEVPTKEQVDEVSRDWANRASSLP
Sbjct 1 GIRFRGMTIPEC*EKLPKANGG*EPLPEGLFYLLLTGEVPTKEQVDEVSRDWANRASSLP 60
Query 61 KHVEDIID*CPVTLHPMSQFSIAVTAMQHDSKFAQAYQQGVHKSKYWEYAYEDSMDLIAK 120
KHVEDIID*CPVTLHPMSQFSIAVTAMQHDSKFAQAY QGVHKSKYWEYAYEDSMDLIAK
Sbjct 61 KHVEDIID*CPVTLHPMSQFSIAVTAMQHDSKFAQAY*QGVHKSKYWEYAYEDSMDLIAK 120
Query 121 LPVVASRIYRNVFKDGKVAAIDKTKDWSYNFANMLGFGKDAQFVELMRLYLTIHSDHEGG 180
LPVVASRIYRNVFKDGKVAAIDKTKDWSYNFANMLGFGKDAQFVELMRLYLTIHSDHEGG
Sbjct 121 LPVVASRIYRNVFKDGKVAAIDKTKDWSYNFANMLGFGKDAQFVELMRLYLTIHSDHEGG 180
Query 181 NVSAHTTHLVGSALSDPYLSFAAGLNGLAGPLHGLANQEVLRWILQMKEEIGTNVSDEQV 240
NVSAHTTHLVGSALSDPYLSFAAGLNGLAGPLHGLANQEVLRWILQMKEEIGTNVSDEQV
Sbjct 181 NVSAHTTHLVGSALSDPYLSFAAGLNGLAGPLHGLANQEVLRWILQMKEEIGTNVSDEQV 240
Query 241 RDYCWKTLKSGQVIPGYGHAVLRKTDPRYTCQREFALKHLPTDPLFKMVSQLYNIVPNVL 300
RDYCWKTLKSGQVIPGYGHAVLRKTDPRYTCQREFALKHLPTDPLFKMVSQLYNIVPNVL
Sbjct 241 RDYCWKTLKSGQVIPGYGHAVLRKTDPRYTCQREFALKHLPTDPLFKMVSQLYNIVPNVL 300
Query 301 TEQGKTKNPFPNVDAHSGVLLQHYNLKEQEFYTVLFGVSRALGCLSQLVWDRALGLPIER 360
TEQGKTKNPFPNVDAHSGVLLQHYNLKEQEFYTVLFGVSRALGCLSQLVWDRALGLPIER
Sbjct 301 TEQGKTKNPFPNVDAHSGVLLQHYNLKEQEFYTVLFGVSRALGCLSQLVWDRALGLPIER 360
Query 361 PKSLTTDTIKK 371
PKSLTTDTIKK
Sbjct 361 PKSLTTDTIKK 371
query id subject id %ident aln len mis gap opens q. start q. end s. start s. end evalue bit score O13339|TERT_SCHPO scaffold-17 25.05 491 305 16 320 780 610900 612273 1e-23 108 O13339|TERT_SCHPO scaffold-17 35.85 53 33 1 505 557 639070 639225 4.1 30.8 O13339|TERT_SCHPO unplaced-307 26.84 503 282 17 320 780 14863 16239 7e-22 102 O13339|TERT_SCHPO scaffold-105 28.26 92 62 1 810 897 24415 24140 0.51 33.9 O13339|TERT_SCHPO unplaced-647 41.67 36 21 0 170 205 141 248 4.9 28.1Из 5 вариантов находок 3, вероятно, не являются гомологами (если судить по значению e-velue (интересно, что вариант с e-value=4.1
С помощью команды infoseq из пакета EMBOSS мы получили таблицу с именами и длинами скэффолдов
Для удобства испортируем полученную таблицу в Excel и отсортируем по убыванию длины. Для дальнейшей работы возьмем 51 строку таблицы -
scaffold-497 длины 70081. С помощью seqret получили нуклеотидную последовательность интересующего нас скэффолда и провели выравнивание
по алгоритму megablast с длиной слова=20 и Match/Mismatch Scores=[1,-2]. Получили следующую картину:
Лучшие находки предлагают примерно одинаковые рамки query-последовательности: 32165 - 32656 (32667; возьмем более "длинный" вариант); выберем этот
участок последовательности и построим выравнивание еще раз (уменьшим длину слова до 16)
Интересующий нас фрагмент скэффолда:
>scaffold-497_32165-32656 GATGTCATTTCCATTGAGAAGACTGGTGAGCACTTCCGTCTTGTGTATGATGTCAAGGGT CGCTTCACTATCCACCGTATCACTGATGAAGAGGCCAAGTTCAAGCTGTGCAAGGTTAGA AAGGTTCAGCTGGGAGCTAAAGGTATTCCATACGTTGTCACTCATGATGGCCGCACCATC CGTTACCCGGATCCATTGATCAAAGCTAATGACACTGTGAAGGTTGA-TCTG-GAGACTG GAAAGATTGTCGACTTTGTCAAGTTTGACACTGGTAACATGTGTGCCATCACTGGCGGTC GTAACATGGGTCGTATGGGTGTCATTGTGCACCGTGAGAGACATCTGGGTGGTTTCGATA TTGTCCACATCAAGGACGCGTTGGATCACACCTTCGCCACTCGTCTGAGCAACGTCTTTG TCATTGGTAAGGGTAACAAGGCTTGGGTGTCTCTGCCAAAGCAGAAGGGTGTCAAGCTGA CCATCCTGGAGGAGПолучаем следующие находки (участок таблицы):
Для построения карты локального сходства выберем два генома -
Mycoplasma capricolum NC_007633.1 и Mycoplasma mycoides NC_005364.2
На карте можно заметить несколько инверсий - ~ 0-50К нуклеотидов (небольшая, в самом начале),
~ 410-670К (наиболее крупная), ~680-730К (небольшая), ~880-940К (небольшая в конце)
Также можно обратить внимание на крупную делецию (между 50 и 150К)
Помимо всего прочего, в конце карты (смотрим координаты, как и ранее, по оси Х) присутствует
небольшой инвертированный участок, смещенный почти к 0 (если смотреть по оси У),
причем при проекции концевых точек на ось У координаты нижней точки практически соответствуют
координатам верхней точки упомянотого выше (самым первым) инвертированного участка)
Возможно, что этот "конечный" участок был перемещен в одном из геномов (но это не точно)