BLAST

1. Определение таксономии и функции прочтённой (в практикуме 6) нуклеотидной последовательности

В данном практикуме продолжается работа с последовательностью, полученной методом секвенирования по Сэнгеру и расшифрованная в 6 практикуме. Для её опеделения применим нуклеотидный BLAST. Для начала воспользуемся blastn , так как мы не знаем о существовании гомологичных ей последовательностей в природе и базе данных. Параметры blastn оставим по умолчанию. Результат поиска был следующим:

находки blastn
Рис. 1. Результат поиска c blastn

Можно заметить, что все приведённые выше находки кодируют гистоны H3, который участвует в образовании структуры нуклеосом, его переменные состояния модификации, как полагают, играют роль в динамической и долгосрочной регуляции генов. Поиск с помощью megablast выдал те же самые находки с несущественными различиями в порядке расположения. Самой лучшей находкой в обоих сеансах поиска оказалась последовательность, кодирующая гистон H3 у Brada inhabilis (Eukaryota; Opisthokonta; Metazoa; Eumetazoa; Bilateria; Protostomia; Spiralia; Lophotrochozoa; Annelida; Polychaeta; Palpata; Canalipalpata; Flabelligerida; Flabelligeridae; Brada). Я рассмотрела остальные первые 10 находок - все они, за исключением 8 и 9, также относятся к кольчатым червям, классу Polychaeta (8 - членистоногим, 9 - моллюскам), отсюда можно сделать вывод, что данная последовательность, скорее всего, взята из организма, принадлежащего к этому классу. Установить семейство и род оказалось проблематично, так как представителей, чьи последовательности находятся в первой десятке и имеют близкие значения показателей E-value, веса, процента идентичности и покрытия, относятся к разным семействам, а конкретно к семействам Scolecida и Palpata. Интересно ещё и то, что вид Brada inhabilis встречается ещё и на 26 месте в списке находок, после после последовательностей других семейств и даже других классов. Из этого всего можно сделать вывод, что последовательность, кодирующая гистон H3 - консервативна, и мы можем определить точно только класс (Polychaeta).

2. Сравнение списков находок нуклеотидных последовательностей тремя разными вариантами blast

В данном задании нужно было сравнить списки находок megablast, blastn (с параметрами по умолчанию) и blastn (с чувствительными параметрами). Для исследования была взята последовательность из задания №1 и одна последовательность из CDS вируса из практикума 7. Параметры, используемые при каждом запуске BLAST, приведены в Таблице 1.

Таблица 1. Параметры BLAST при трёх запусках
Параметры BLAST megablast blastn (по умолч.) blastn (чувствит.)
Max target sequences 1000 1000 1000
Short queries
Expect threshold 1 1 1
Word size 28 11 7
Max matches in a query range 0 0 0
Match/Mismatch Scores 1, -2 2, -3 1, -1
Gap Costs Linear Existence: 5 Extension: 2 Existence: 0 Extension: 2
Filter Low complexity regions Low complexity regions Low complexity regions
Mask Mask for lookup table only Mask for lookup table only Mask for lookup table only

Для начала сравнивали по гену из задания 1. Без ограничений на организмы получилось слишком много результатов, поэтому было решено ограничить их по классу Polychaeta. Количество находок при каждом алгоритме приведено в Таблице 2.

Как видно из таблицы, результатов поиска первой последовательности всё равно оказалось много, и они не сильно различаются между собой.

Таблица 2. Количество находок при шести запусках BLAST
последовательность, кодирующая гистон Н3 CDS Staphylococcus phage PMBT8
megablast 594 3
blastn (по умолч.) 1027 39
blastn (чувствит.) 1028 523

Гораздо интереснее дело обстоит с последовательностью CDS вируса. При поиске CDS Staphylococcus phage PMBT8 всеми тремя способами удалось найти данный вирус и родственные ему вирусы, принадлежащие роду Sextaecvirus, которых оказалось всего 3. С помощью megablast удалось найти 2 из них (Рис.2), третий (Staphylococcus phage VB-SauS-SA2) нашёлся с помощью blastn (Рис.3,4). Blastn добавил много послетовательностей, принадлежащих к разным типам, напимер, при запуске с параметрами по умолчанию добавились такие типы как Firmicutes, Streptophyt, Chordata. При изменении параметров добавилось ещё больше новых последовательностей из других классов. Сразу после рода Sextaecvirus лучшие показатели по выравниванию имеет род Bacillus (Рис.3,4).

находки megablastn
Рис. 2. Результат поиска c megablast
находки blastn
Рис. 3. Результат поиска c blastn (параметры по умолчанию)
находки blastn
Рис. 4. Результат поиска c blastn (чувствительные параметры)

3. Гомологи трех белков в неаннотированном геноме

В данном задании необходимо было проверить наличие гомологов трёх выбранных белков в неаннотированном геноме Amoeboaphelidium protococcarum. Для исследования были выбраны белки:

Цитохром С - митохондриальный белок, основной функцией которого является перенос электронов между комплексами III и IV (Цитохром c-оксидаза) дыхательной цепи митохондрий. Цитохром c является консервативным белком, найденным у растений, животных и многих простейших.

Гистон H3.1, как уже было сказано, является одним из пяти основных гистонов, участвующих в образовании структуры хроматина в эукариотических клетках. Он обладаут основным глобулярным доменом и длинным N-концевым хвостом, является наиболее сильно посттрансляционно модифицированным из пяти гистонов. Как было выяснено в 1 задании, является очень консервативным.

Фосфоглицераткиназа - фермент, катализирующий обратимую реакцию переноса фосфатной группы от 1,3-дифосфоглицериновой кислоты к АДФ, в результате которой образуются 3-фосфоглицерат и АТФ. Фосфоглицераткиназа присутствует во всех живых организмах и является одним из двух АТФ-производящих ферментов в процессе гликолиза. В рамках глюконеогенеза ФГК катализирует обратную реакцию, в результате чего образуются АДФ и 1,3-дифосфоглицерат. Он находится во всех живых организмах, и его последовательность была высоко консервативны в процессе эволюции.

Сначала в Swiss-Prot были взяты их ID, с помощью команд:

seqret sw:cyc_human cytochrome.fasta

seqret sw:h31_human histone.fasta

seqret sw:pgk1_human phosphoglycerate_kinase_1.fasta

были получены их последовательности для поиска гомологов: cytochrome.fasta, histone.fasta, phosphoglycerate_kinase_1.fasta.

Далее с помощью команды makeblastdb -in /P/y18/term3/block2/X5.fasta -out ./X5 -dbtype nucl была создана локальная база данных генома Amoeboaphelidium protococcarum в файле X5.fasta.

Затем при использовании локального BLAST+ на kodomo и с помощью команд:

tblastn -query cytochrome.fasta -db X5.fasta -db_gencode 6 > cytochrome_hits.fasta

tblastn -query histone.fasta -db X5.fasta -db_gencode 6 > histone_hits.fasta

tblastn -query phosphoglycerate_kinase_1.fasta -db X5.fasta -db_gencode 6 > phosphoglycerate_kinase_1_hits.fasta

был произведён поиск гомологов.

При поиске гомологов Цитохрома С было найдено 4 последовательности, две из которых можно назвать гомологами цитохрома (scaffold-282, scaffold-287). Покрытия 97% и 73% соответственно:

> scaffold-282
Length=195711

 Score =  146 bits (368),  Expect = 7e-41, Method: Compositional matrix adjust.
 Identities = 76/143 (53%), Positives = 85/143 (59%), Gaps = 40/143 (28%)
 Frame = -1

Query  2      GDVEKGKKIFIMKCSQCHTVEK--------------------------------------  23
              G+ +KG K+F  +C+QCHT+E                                       
Sbjct  48693  GNTKKGAKLFQTRCAQCHTLEAVRICIFIICMSDIQFIYYHVGTTAQAGYDPIHLTSLLQ  48514

Query  24     --GGKHKTGPNLHGLFGRKTGQAPGYSYTAANKNKGIIWGEDTLMEYLENPKKYIPGTKM  81
                   H  GPNLHGLFGRKTGQA GYSYTAAN NKGI W EDTL EYLENPKKYIPGTKM
Sbjct  48513  LASSLHYVGPNLHGLFGRKTGQAEGYSYTAANVNKGITWSEDTLFEYLENPKKYIPGTKM  48334

Query  82     IFVGIKKKEERADLIAYLKKATN  104
               F G+KK EERADLIAYLK+AT+
Sbjct  48333  AFAGLKKPEERADLIAYLKQATS  48265


 Score = 25.4 bits (54),  Expect = 7.8, Method: Composition-based stats.
 Identities = 9/23 (39%), Positives = 17/23 (74%), Gaps = 0/23 (0%)
 Frame = +3

Query  80      KMIFVGIKKKEERADLIAYLKKA  102
               K+++VG+   +ERAD++  L K+
Sbjct  185676  KLLYVGLPSVDERADILRTLSKS  185744


> scaffold-287
Length=687983

 Score =  137 bits (346),  Expect = 7e-38, Method: Compositional matrix adjust.
 Identities = 65/78 (83%), Positives = 68/78 (87%), Gaps = 0/78 (0%)
 Frame = +1

Query  27      HKTGPNLHGLFGRKTGQAPGYSYTAANKNKGIIWGEDTLMEYLENPKKYIPGTKMIFVGI  86
               H  GPNLHGLFGRKTGQA GYSYTAAN NKGI W EDTL EYLENPKKYIPGTKM F G+
Sbjct  469879  HYVGPNLHGLFGRKTGQAEGYSYTAANVNKGITWSEDTLFEYLENPKKYIPGTKMAFAGL  470058

Query  87      KKKEERADLIAYLKKATN  104
               KK EERADLIAYLK+AT+
Sbjct  470059  KKPEERADLIAYLKQATS  470112


 Score = 33.5 bits (75),  Expect = 0.010, Method: Composition-based stats.
 Identities = 11/21 (52%), Positives = 17/21 (81%), Gaps = 0/21 (0%)
 Frame = +3

Query  2       GDVEKGKKIFIMKCSQCHTVE  22
               G+ +KG K+F  +C+QCHT+E
Sbjct  469674  GNTKKGAKLFQTRCAQCHTLE  469736


 Score = 25.4 bits (54),  Expect = 7.8, Method: Composition-based stats.
 Identities = 9/23 (39%), Positives = 17/23 (74%), Gaps = 0/23 (0%)
 Frame = +2

Query  80      KMIFVGIKKKEERADLIAYLKKA  102
               K+++VG+   +ERAD++  L K+
Sbjct  367820  KLLYVGLPSVDERADILRTLSKS  367888


> scaffold-358
Length=194751

 Score = 25.8 bits (55),  Expect = 4.7, Method: Composition-based stats.
 Identities = 9/17 (53%), Positives = 11/17 (65%), Gaps = 0/17 (0%)
 Frame = -3

Query  47      YSYTAANKNKGIIWGED  63
               YS  A  +N GI+WG D
Sbjct  170155  YSDVAIQRNHGIVWGND  170105


> scaffold-170
Length=449377

 Score = 25.4 bits (54),  Expect = 7.6, Method: Composition-based stats.
 Identities = 14/39 (36%), Positives = 21/39 (54%), Gaps = 6/39 (15%)
 Frame = -2

Query  45      PGYSYTAANKNKGIIWGEDTLMEYLENPKKYIPGTKMIF  83
               PGY Y A + N G ++GE   + Y  N  +    TK++F
Sbjct  364047  PGYFYAANSFNAGPVYGE---LLYFPNESR---DTKLVF  363949

В случае гистона H3.1 ответ также будет положительный. Из всех 14-ти последовательностей, найденных локальным BLAST, гомологами являются 4ипоследовательности с покрытиями: scaffold-104 (99%), 126 (99%), 153 (71%), unplaced-984 (64,7%).

> scaffold-104
Length=736462

 Score =  254 bits (650),  Expect = 4e-78, Method: Compositional matrix adjust.
 Identities = 129/136 (95%), Positives = 130/136 (96%), Gaps = 1/136 (1%)
 Frame = +3

Query  1       MARTKQTARKSTGGKAPRKQLATKAARKSAPATGGVKKPHRYRPGTVALREIRRYQKSTE  60
               MARTKQTARKSTGGKAPRKQLATKA RKS PATGGVKKPHRYRPGTVALREIRRYQKSTE
Sbjct  185496  MARTKQTARKSTGGKAPRKQLATKA-RKSTPATGGVKKPHRYRPGTVALREIRRYQKSTE  185672

Query  61      LLIRKLPFQRLVREIAQDFKTDLRFQSSAVMALQEACEAYLVGLFEDTNLCAIHAKRVTI  120
               LLIRKLPFQRLVREIAQDFKTDLRFQSSA+ ALQEA EAYLV LFEDTNLCAIHAKRVTI
Sbjct  185673  LLIRKLPFQRLVREIAQDFKTDLRFQSSAIGALQEAAEAYLVSLFEDTNLCAIHAKRVTI  185852

Query  121     MPKDIQLARRIRGERA  136
                PKDIQLARRIRGERA
Sbjct  185853  FPKDIQLARRIRGERA  185900


 Score =  254 bits (650),  Expect = 4e-78, Method: Compositional matrix adjust.
 Identities = 129/136 (95%), Positives = 130/136 (96%), Gaps = 1/136 (1%)
 Frame = -2

Query  1       MARTKQTARKSTGGKAPRKQLATKAARKSAPATGGVKKPHRYRPGTVALREIRRYQKSTE  60
               MARTKQTARKSTGGKAPRKQLATKA RKS PATGGVKKPHRYRPGTVALREIRRYQKSTE
Sbjct  178362  MARTKQTARKSTGGKAPRKQLATKA-RKSTPATGGVKKPHRYRPGTVALREIRRYQKSTE  178186

Query  61      LLIRKLPFQRLVREIAQDFKTDLRFQSSAVMALQEACEAYLVGLFEDTNLCAIHAKRVTI  120
               LLIRKLPFQRLVREIAQDFKTDLRFQSSA+ ALQEA EAYLV LFEDTNLCAIHAKRVTI
Sbjct  178185  LLIRKLPFQRLVREIAQDFKTDLRFQSSAIGALQEAAEAYLVSLFEDTNLCAIHAKRVTI  178006

Query  121     MPKDIQLARRIRGERA  136
                PKDIQLARRIRGERA
Sbjct  178005  FPKDIQLARRIRGERA  177958


> scaffold-126
Length=92370

 Score =  254 bits (650),  Expect = 5e-78, Method: Compositional matrix adjust.
 Identities = 129/136 (95%), Positives = 130/136 (96%), Gaps = 1/136 (1%)
 Frame = -3

Query  1      MARTKQTARKSTGGKAPRKQLATKAARKSAPATGGVKKPHRYRPGTVALREIRRYQKSTE  60
              MARTKQTARKSTGGKAPRKQLATKA RKS PATGGVKKPHRYRPGTVALREIRRYQKSTE
Sbjct  85096  MARTKQTARKSTGGKAPRKQLATKA-RKSTPATGGVKKPHRYRPGTVALREIRRYQKSTE  84920

Query  61     LLIRKLPFQRLVREIAQDFKTDLRFQSSAVMALQEACEAYLVGLFEDTNLCAIHAKRVTI  120
              LLIRKLPFQRLVREIAQDFKTDLRFQSSA+ ALQEA EAYLV LFEDTNLCAIHAKRVTI
Sbjct  84919  LLIRKLPFQRLVREIAQDFKTDLRFQSSAIGALQEAAEAYLVSLFEDTNLCAIHAKRVTI  84740

Query  121    MPKDIQLARRIRGERA  136
               PKDIQLARRIRGERA
Sbjct  84739  FPKDIQLARRIRGERA  84692


 Score = 64.7 bits (156),  Expect = 2e-12, Method: Compositional matrix adjust.
 Identities = 35/37 (95%), Positives = 35/37 (95%), Gaps = 1/37 (3%)
 Frame = +2

Query  1      MARTKQTARKSTGGKAPRKQLATKAARKSAPATGGVK  37
              MARTKQTARKSTGGKAPRKQLATK ARKS PATGGVK
Sbjct  92261  MARTKQTARKSTGGKAPRKQLATK-ARKSTPATGGVK  92368


> unplaced-984
Length=389

 Score =  191 bits (485),  Expect = 1e-62, Method: Compositional matrix adjust.
 Identities = 93/98 (95%), Positives = 94/98 (96%), Gaps = 0/98 (0%)
 Frame = +2

Query  39   PHRYRPGTVALREIRRYQKSTELLIRKLPFQRLVREIAQDFKTDLRFQSSAVMALQEACE  98
            PHRYRPGTVALREIRRYQKSTELLIRKLPFQRLVREIAQDFKTDLRFQSSA+ ALQEA E
Sbjct  2    PHRYRPGTVALREIRRYQKSTELLIRKLPFQRLVREIAQDFKTDLRFQSSAIGALQEAAE  181

Query  99   AYLVGLFEDTNLCAIHAKRVTIMPKDIQLARRIRGERA  136
            AYLV LFEDTNLCAIHAKRVTI PKDIQLARRIRGERA
Sbjct  182  AYLVSLFEDTNLCAIHAKRVTIFPKDIQLARRIRGERA  295


> scaffold-153
Length=574

 Score =  170 bits (430),  Expect = 1e-53, Method: Compositional matrix adjust.
 Identities = 84/89 (94%), Positives = 85/89 (96%), Gaps = 0/89 (0%)
 Frame = -2

Query  48   ALREIRRYQKSTELLIRKLPFQRLVREIAQDFKTDLRFQSSAVMALQEACEAYLVGLFED  107
            ALREIRRYQKSTELLIRKLPFQRLVREIAQDFKTDLRFQSSA+ ALQEA EAYLV LFED
Sbjct  573  ALREIRRYQKSTELLIRKLPFQRLVREIAQDFKTDLRFQSSAIGALQEAAEAYLVSLFED  394

Query  108  TNLCAIHAKRVTIMPKDIQLARRIRGERA  136
            TNLCAIHAKRVTI PKDIQLARRIRGERA
Sbjct  393  TNLCAIHAKRVTIFPKDIQLARRIRGERA  307


> scaffold-70
Length=635

 Score = 66.6 bits (161),  Expect = 3e-14, Method: Compositional matrix adjust.
 Identities = 36/38 (95%), Positives = 36/38 (95%), Gaps = 1/38 (3%)
 Frame = +3

Query  1    MARTKQTARKSTGGKAPRKQLATKAARKSAPATGGVKK  38
            MARTKQTARKSTGGKAPRKQLATK ARKS PATGGVKK
Sbjct  525  MARTKQTARKSTGGKAPRKQLATK-ARKSTPATGGVKK  635


> unplaced-368
Length=899

 Score = 63.9 bits (154),  Expect = 5e-13, Method: Compositional matrix adjust.
 Identities = 35/37 (95%), Positives = 35/37 (95%), Gaps = 1/37 (3%)
 Frame = +1

Query  1    MARTKQTARKSTGGKAPRKQLATKAARKSAPATGGVK  37
            MARTKQTARKSTGGKAPRKQLATK ARKS PATGGVK
Sbjct  790  MARTKQTARKSTGGKAPRKQLATK-ARKSTPATGGVK  897


> scaffold-157
Length=706690

 Score = 31.6 bits (70),  Expect = 0.11, Method: Composition-based stats.
 Identities = 19/61 (31%), Positives = 29/61 (48%), Gaps = 7/61 (11%)
 Frame = +1

Query  21      LATKAARKSAPATGGVKKPHRYRPGTVALREIRRYQKSTELLIRKLPFQRLVREIAQDFK  80
               LATK     A ++  ++  HRY P  V       +QKS  + +  L +QR    +  +FK
Sbjct  253978  LATKTQFTQAASSSDLQTRHRYPPNFV-------HQKSNSVYVSSLTYQRRNSTLYANFK  254136

Query  81      T  81
               T
Sbjct  254137  T  254139


> unplaced-13
Length=505

 Score = 27.7 bits (60),  Expect = 1.5, Method: Compositional matrix adjust.
 Identities = 15/42 (36%), Positives = 20/42 (48%), Gaps = 2/42 (5%)
 Frame = +3

Query  78   DFKTDLR--FQSSAVMALQEACEAYLVGLFEDTNLCAIHAKR  117
            D+  DLR  F    V  +    E + +  FEDTN+ A   KR
Sbjct  261  DYMVDLRNSFNVRFVFGVLTTYEKWRILWFEDTNIAATETKR  386


> scaffold-693
Length=1268102

 Score = 28.1 bits (61),  Expect = 1.7, Method: Composition-based stats.
 Identities = 18/61 (30%), Positives = 28/61 (46%), Gaps = 7/61 (11%)
 Frame = +2

Query  21       LATKAARKSAPATGGVKKPHRYRPGTVALREIRRYQKSTELLIRKLPFQRLVREIAQDFK  80
                LATK     A ++  ++  HRY P  V       +QKS  + +    +QR    +  +FK
Sbjct  1197674  LATKTQFTQAASSSDLQTRHRYPPNFV-------HQKSNSVYVSSPTYQRRNSTLYANFK  1197832

Query  81       T  81
                T
Sbjct  1197833  T  1197835


> scaffold-17
Length=2125590

 Score = 28.1 bits (61),  Expect = 1.8, Method: Composition-based stats.
 Identities = 29/85 (34%), Positives = 37/85 (44%), Gaps = 15/85 (18%)
 Frame = -1

Query  10      KSTGGKAPRKQLA----TKAARKSAP----ATGGVKKPHRYRPGTV--ALRE----IRRY  55
               KS G K    QLA    T  AR S         G  K  +   GTV   L E    I  +
Sbjct  784575  KSIGRKEKISQLAMSESTTKARSSVDNIDDQVNGKVKAQKVYSGTVYNVLGETGDLINHF  784396

Query  56      QKSTELL-IRKLPFQRLVREIAQDF  79
                 +T L+ IRK+PF  L+  + QD+
Sbjct  784395  APNTSLISIRKVPFDNLMASLVQDY  784321


> unplaced-752
Length=253

 Score = 26.2 bits (56),  Expect = 2.4, Method: Compositional matrix adjust.
 Identities = 10/28 (36%), Positives = 17/28 (61%), Gaps = 0/28 (0%)
 Frame = +1

Query  63   IRKLPFQRLVREIAQDFKTDLRFQSSAV  90
            + K+P  RLV++ +    T+L+   SAV
Sbjct  115  LNKVPISRLVKQASSILSTNLQISQSAV  198


> scaffold-168
Length=4885

 Score = 26.9 bits (58),  Expect = 3.7, Method: Composition-based stats.
 Identities = 15/42 (36%), Positives = 20/42 (48%), Gaps = 2/42 (5%)
 Frame = -1

Query  78    DFKTDLR--FQSSAVMALQEACEAYLVGLFEDTNLCAIHAKR  117
             D+  DLR  F    V  +    E + +  FEDTN+ A   KR
Sbjct  3130  DYMVDLRNSFNVRFVFGVLTTYEKWRILWFEDTNIAATETKR  3005


> scaffold-242
Length=71096

 Score = 26.6 bits (57),  Expect = 5.4, Method: Composition-based stats.
 Identities = 18/58 (31%), Positives = 28/58 (48%), Gaps = 0/58 (0%)
 Frame = +2

Query  13     GGKAPRKQLATKAARKSAPATGGVKKPHRYRPGTVALREIRRYQKSTELLIRKLPFQR  70
              G   P+  LA K A      T  +K P     G + +R I++YQ  + L+ + LPF +
Sbjct  69701  GRAVPQ*LLAGKDACG*PSTTLVLKVPPMKSYGWIVIRRIQKYQPRSTLICQCLPFSQ  69874


> scaffold-100
Length=762135

 Score = 26.2 bits (56),  Expect = 7.7, Method: Composition-based stats.
 Identities = 17/61 (28%), Positives = 29/61 (48%), Gaps = 1/61 (2%)
 Frame = -1

Query  58      STELLIRKLPFQRLVREIAQDFKTDLRFQSSAVMALQEACEAYLVGLFEDTNLCAIHAKR  117
               S +L I    + RL + + +     L  Q   +  L     ++ + +F+D  LC +HAKR
Sbjct  513690  SNKLYIADRRYSRL-KTVHKPLGQSLFVQDFIIFTLYLRRSSFYMFIFQDEVLCHLHAKR  513514

При поиске фосфоглицераткиназы нашлось 3 последовательности, из которых 2 являются гомологами (scaffold-693, scaffold-157), так как, несмотря на небольшие значения Identities и Positives и наличие гэпов, процент покрытия у обоих составляет 98.

> scaffold-693
Length=1268102

 Score =  533 bits (1373),  Expect = 5e-170, Method: Compositional matrix adjust.
 Identities = 266/435 (61%), Positives = 329/435 (76%), Gaps = 25/435 (6%)
 Frame = -1

Query  1        MSLSNKLTLDKLDVKGKRVVMR-----------------------VDFNVPMKNNQITNN  37
                M + NKL L  +DVKGKRV+MR                       VDFNVP  + +I+NN
Sbjct  1173191  MKIGNKLGLKDIDVKGKRVLMRQVDSHLN*C*LINIIHVLY*TCSVDFNVPFADGKISNN  1173012

Query  38       QRIKAAVPSIKFCLDNGAKSVVLMSHLGRPDGVPMPDKYSLEPVAVELKSLLGKDVLFLK  97
                QRI AA+PSI+ CL NGAK+VVLMSHLGRPDG  +  KYSL+PVA E++ LL + V FL+
Sbjct  1173011  QRIVAAIPSIEHCLKNGAKAVVLMSHLGRPDG-KVVSKYSLKPVAAEVERLLKRKVTFLE  1172835

Query  98       DCVGPEVEKACANPAAGSVILLENLRFHVEEEGKGKDASGNKVKAEPAKIEAFRASLSKL  157
                DCVG +VE  C N A G VILLENLRFH+EEEG  KD +GNKVKA    +E FR SLS+L
Sbjct  1172834  DCVGQKVEDQCKNAANGEVILLENLRFHIEEEGSVKDEAGNKVKANKEDVEKFRQSLSQL  1172655

Query  158      GDVYVNDAFGTAHRAHSSMVGVNLPQKAGGFLMKKELNYFAKALESPERPFLAILGGAKV  217
                GDVYVNDAFGTAHRAHSS+VG+ L  +A GFLMKKEL++F  ALE+P+RPFLAI+GGAKV
Sbjct  1172654  GDVYVNDAFGTAHRAHSSVVGIKLETRAAGFLMKKELDFFGMALENPQRPFLAIIGGAKV  1172475

Query  218      ADKIQLINNMLDKVNEMIIGGGMAFTFLKVLNNMEIGTSLFDEEGAKIVKDLMSKAEKNG  277
                +DKIQLI N+LDKVN MIIGGGMAFTF KV++ + IG SLFDEEG KIVK L+ KA+   
Sbjct  1172474  SDKIQLIENLLDKVNAMIIGGGMAFTFKKVVDGVSIGKSLFDEEGGKIVKKLVEKAKSKN  1172295

Query  278      VKITLPVDFVTADKFDENAKTGQATVASGIPAGWMGLDCGPESSKKYAEAVTRAKQIVWN  337
                V++  PVD+VTA KF ++A+ G A   SGI   WMGLD G ES KK+ E V ++K I+WN
Sbjct  1172294  VELVFPVDYVTASKFAKDAEVGYADDKSGIKDEWMGLDVGSESVKKFKEVVLKSKTILWN  1172115

Query  338      GPVGVFEWEAFARGTKALMDEVVKATSR-GCITIIGGGDTATCCAKWNTEDKVSHVSTGG  396
                GP+GVFE+++F+ GT+ ++D V++AT++ G I+I+GGGDTAT  +KWN +DKVSHVSTGG
Sbjct  1172114  GPMGVFEFDSFSAGTRGVLDAVIEATAQNGAISIVGGGDTATAVSKWNADDKVSHVSTGG  1171935

Query  397      GASLELLEGKVLPGV  411
                G+S+EL EGK LPGV
Sbjct  1171934  GSSVELAEGKELPGV  1171890


> scaffold-157
Length=706690

 Score =  530 bits (1364),  Expect = 8e-169, Method: Compositional matrix adjust.
 Identities = 265/435 (61%), Positives = 327/435 (75%), Gaps = 25/435 (6%)
 Frame = -3

Query  1       MSLSNKLTLDKLDVKGKRVVMR-----------------------VDFNVPMKNNQITNN  37
               M + NKL L  +DVKGKRV+MR                       VDFNVP  + +I+NN
Sbjct  224402  MKIGNKLGLKDIDVKGKRVLMRQVDNHLN*C*LMNIIHVLY*TCSVDFNVPFADGKISNN  224223

Query  38      QRIKAAVPSIKFCLDNGAKSVVLMSHLGRPDGVPMPDKYSLEPVAVELKSLLGKDVLFLK  97
               QRI AA+PSI+ CL NGAK+VVLMSHLGRPDG  +  KYSL+PVA E++ LL + V FL+
Sbjct  224222  QRIVAAIPSIEHCLKNGAKAVVLMSHLGRPDG-KVVSKYSLKPVAAEVERLLKRKVTFLE  224046

Query  98      DCVGPEVEKACANPAAGSVILLENLRFHVEEEGKGKDASGNKVKAEPAKIEAFRASLSKL  157
               DCVG +VE  C N A G VILLENLRFH+EEEG  KD SGNK KA    +E FR SLS+L
Sbjct  224045  DCVGQKVEDQCKNAANGEVILLENLRFHIEEEGSVKDESGNKAKANKEDVEKFRQSLSQL  223866

Query  158     GDVYVNDAFGTAHRAHSSMVGVNLPQKAGGFLMKKELNYFAKALESPERPFLAILGGAKV  217
               GDVYVNDAFGTAHRAHSS+VG+ L  +A GFLMKKEL++F  ALE+P+RPFLAI+GGAKV
Sbjct  223865  GDVYVNDAFGTAHRAHSSVVGIKLETRAAGFLMKKELDFFGMALENPQRPFLAIIGGAKV  223686

Query  218     ADKIQLINNMLDKVNEMIIGGGMAFTFLKVLNNMEIGTSLFDEEGAKIVKDLMSKAEKNG  277
               +DKIQLI N+LDKVN MIIGGGMAFTF KV++ + IG SLFDEEG KIVK L+ KA+   
Sbjct  223685  SDKIQLIENLLDKVNAMIIGGGMAFTFKKVVDGVSIGKSLFDEEGGKIVKKLVEKAKSKN  223506

Query  278     VKITLPVDFVTADKFDENAKTGQATVASGIPAGWMGLDCGPESSKKYAEAVTRAKQIVWN  337
               V++  PVD+VTA KF ++A+ G A   SGI    MGLD G ES KK+ E V ++K I+WN
Sbjct  223505  VELVFPVDYVTASKFAKDAEVGYADDKSGIKDELMGLDVGSESVKKFKEVVLKSKTILWN  223326

Query  338     GPVGVFEWEAFARGTKALMDEVVKATSR-GCITIIGGGDTATCCAKWNTEDKVSHVSTGG  396
               GP+GVFE+++F+ GT+ ++D V++AT++ G I+I+GGGDTAT  +KWN +DKVSHVSTGG
Sbjct  223325  GPMGVFEFDSFSAGTRGVLDAVIEATAQNGAISIVGGGDTATAVSKWNADDKVSHVSTGG  223146

Query  397     GASLELLEGKVLPGV  411
               G+S+EL EGK LPGV
Sbjct  223145  GSSVELAEGKELPGV  223101


> scaffold-17
Length=2125590

 Score = 31.6 bits (70),  Expect = 0.88, Method: Compositional matrix adjust.
 Identities = 19/71 (27%), Positives = 31/71 (44%), Gaps = 5/71 (7%)
 Frame = +1

Query  254      GTSLFDEEGAKIVKDLMSKAEKNGVKITLPVDFVTADKFDENAKTGQATVASGIPAGWMG  313
                   LF E    IV++ +     NG K      ++   ++ ENA   Q +  S   +GW+ 
Sbjct  2095696  SVDLFQEFMVVIVRECLLPKVGNGFKTVCA--YIDKAQYSENADDTQLSSES---SGWVK  2095860

Query  314      LDCGPESSKKY  324
                 DCG +   +Y
Sbjct  2095861  FDCGSQQCIRY  2095893

4. Поиск гена белка в одном из контигов

Для поиска был выбран скэффолд из геномной сборки Amoeboaphelidium protococcarum, состоящий из 17200 пар нуклеотидов, в котором ещё не аннотированы гены белков (scaffold-59). Поиск гомологов был выполнен на сайте NCBI BLAST (blastx: по refseq_protein, таксон - Opisthokonta (taxid:33154))

Результаты, предоставленные BLAST, показали наличие части гена белка ferrochelatase в данном контиге. Из рисунка 5 видно, что многие находки имеют близкие значения всех показателей, это говорит о том, что найденный участок очень консервативен. В этом также можно убедиться, посмотрев на график покрытия (Рис. 6) - все последовательности стоят под одним участком и имеют почти одинаковую длину.

находки blastx
Рис. 5. Результат поиска scaffold-59 c blastx
graphic summary
Рис. 5.График покрытия скэффолда-59 находками
Назад

Главная страница