О себе | I семестр | II семестр | Сайт ФББ



BLAST

1. Определение таксономии и функций нуклеотидной последовательности из практикума 6

Программой blastn был проведен поиск последовательностей, гомологичных консенсусной последовательности участка ДНК определяемого организма, по банку nr.

Видно, что в исследуемой последовательности находится фрагмент гена гистона 3.
Первые пять находок, все с очень хорошим e-value, принадлежат одному роду - Gammarus (отряд Amphipoda, подотряд Senticaudata), но разным видам (выравнивание 1, выравнивание 5). 6-ой результат (выравнивание 6) - последовательность организма Primno brevidens, принадлежащего подотряду Hyperiidea того же отряда. При этом identities в выравнивании определяемой последовательности с последовательностями 5 и 6 находок отличаются всего на 1%. Таким образом, можем предположить, что наш организм принадлежит отряду Amphipoda.

2. Сравнение списков находок нуклеотидных последовательностей тремя разными вариантами blast

Поиск для консенсусной последовательности неизвестного организма был произведен по надотряду Peracarida, исключая отряд Amphipoda, к которому относится исследуемый организм. Blastn с более чувствительными параметрами выдал результаты с лучшим максимальным e-value. Подробнее - в таблице.

parametresmegablast (default parametres) blastn (default parametres)blastn (custom parametres)
Word size28117
Match/Mismatch Scores1; -22; -31; -1
Number of findings7139144
Max e-value6,00E-582,00E-364,00E-43


Megablast


Blastn, default


Blastn, custom


В митохондриальном геноме моего организма из прошлого практикума не нашлось некодирующих РНК, поэтому я взяла 12S rRNA из митохондриального генома азиатского паралихта, или ложного палтуса (Paralichthys olivaceus). Были использованы те же параметры, что и для прошлой последовательности, область поиска была ограничена подотрядом Pleuronectoidei, исключая семейство Paralichthyidae. Были получены следующие результаты:
megablast - 214 findings, max e-value = 8E-20 
blastn (default parameters) - 351 findings, max e-value = 5E-05
blastn (custom parameters) - 355 findings, max e-value = 2E-09
Чувствительные параметры опять немного улучшили качество поиска.

3. Проверка наличия гомологов трех белков в неаннотированном геноме организма Amoeboaphelidium protococcarum

Я проверяла наличие гомологов белков
TERT_SCHPO - каталитическая субъединица теломеразы у дрожжей Schizosaccharomyces pombe 972h-
HSP71_YEAST - белок теплового шока пекарских дрожжей (Saccharomyces cerevisiae S288C)
TBB_NEUCR - бета-цепь тубулина у нейроспоры густой (Neurospora crassa OR74A).

Для работы программы tblastn командой makeblastdb была сгенерирована база для поиска. Рассмотрим список находок и лучшее выравнивание для белка TERT_SCHPO:
                                                                      Score     E
Sequences producing significant alignments:                          (Bits)  Value

  scaffold-17                                                          108    1e-23
  unplaced-307                                                         102    7e-22
  scaffold-105                                                        33.9    0.51 
  unplaced-647                                                        28.1    4.9  

> scaffold-17
Length=2125590

 Score =  108 bits (269),  Expect = 1e-23, Method: Compositional matrix adjust.
 Identities = 123/491 (25%), Positives = 229/491 (47%), Gaps = 63/491 (13%)
 Frame = +1

Query  320     HYCPYIDTHDDEKILSYSLKPNQVFAFLRSILVRVF-PKLIWGNQRIFEIILKDLETFLK  378
                YCP   + DD   L+   +P+ V  F+R +L++VF      G + +   +   +   L 
Sbjct  610900  QYCPAQSSSDDGLTLNDYSRPHDVKQFVRCVLIKVFRCNFFGGMENLNAFVDNAVGMLLN  611079

Query  379     LSRYESF-SLHYLMSNIKISEIEWLVLGKRSNAKMCLSDFEKRKQ--IFAEFIYWLYNSF  435
               L ++ES     +++  I+ S I WL     +  K+ ++  E +K   + +    WL N F
Sbjct  611080  LRKFESMPEASFIVKGIQSSRIMWLRSKLNT*PKV-VNKLEHQKL**LCSSLFQWLLNRF  611256

Query  436     IIPILQSFFYITESSDLRNRTVYFRKDIWKLLCRPFITSMKMEAFEKINENNVRMDTQKT  495
               +  +L++ F+IT++S  +NR  Y+R D+W+   R       ++    I+   +  +T + 
Sbjct  611257  VSDLLKACFFITDTSHCKNRVFYYRFDLWR---RMVEVQSSIKNLHPIDMG*I--NTGRK  611421

Query  496     TLPPAVIRLLPKKN-TFRLITNLRKRFLIKMGSNKKM--LVSTNQTLRPVASILKHLINE  552
                +  + IRL+PK+N +FR I NLR      + +NK M  L+S    +         L++E
Sbjct  611422  FM--S*IRLIPKENGSFRRINNLR-----SVNNNK*MYGLLSDA*CI---------LLSE  611553

Query  553     ESSG--------IPFNLEVYMKLLTFKKDLLKHRMFGRKKYFVRIDIKSCYDRIKQDLMF  604
               ++ G        +  N ++Y +L  FK         G   YFV+ D+   YD I +  +F
Sbjct  611554  KNYG*IDLLKDIVLSNDDIYARLK*FKMRNKARF*RGD*LYFVKSDVT*AYDSINRQKLF  611733

Query  605     RIVKKKL-KDPEFVIRKYATI-------------HATSDRATKNFVSEAFSYFDMVPFEK  650
                +++     D EF+I  Y                H  S RA  +             F +
Sbjct  611734  SVLE*IF**DSEFIIHGY*R*LQLCLLR*F*KLYHKVSIRAE*H-----------QTFPE  611880

Query  651     VVQLLSMKTSDTLFVDFVDYWTKSSSEIFKMLKEHLSGHIVKIGNSQYLQKVGIPQG-SI  709
                 + L+   ++ +F+D V     S +++FK +++ +  +I++  +  Y+Q+ GIPQG  +
Sbjct  611881  FCKELAKSIANKVFIDKV**KKVSGADVFKAIEQLIYDNILQFEDGYYVQEEGIPQGSIV  612060

Query  710     LSSFLCHFYMEDLIDEYLSFTKKKGSVLLRVVDDFLFITVNKKDAKKFLNLSLRGFEKHN  769
                S      Y    ++E  +FT++  S+L++ +DDFL++T +K  A  +L+    GF  + 
Sbjct  612061  SSLLCSLLYSHLALNELFTFTRRSDSLLIKFIDDFLYLTFDKA*A*GYLSRI*IGFPDYG  612240

Query  770     FSTSLEKTVIN  780
                  + +KT  N
Sbjct  612241  VHMNPKKTATN  612273


Можем выделить несколько гомологичных участков, например, 500-521 или 696-706 (координаты по Query). Процент идентичности - 25%, для белков такое сходство не противоречит гомологии. Таким образом, можем заключить, что в нашем геноме есть условный гомолог теломеразы дрожжей.

Для HSP71_YEAST и TBB_NEUCR ситуация однозначная: для них есть по несколько находок с e-value < 1e-100 и очень хорошими выравниваниями, поэтому можно с уверенностью утверждать, что в геноме исследуемого организма есть гомологи этих белков.


HSP71_YEAST
                                                                      Score     E
Sequences producing significant alignments:                          (Bits)  Value

  scaffold-199                                                         920    0.0   
  scaffold-96                                                          744    0.0   
  scaffold-423                                                         737    0.0   
  unplaced-999                                                         540    8e-171
  unplaced-980                                                         461    9e-142
  scaffold-157                                                         285    1e-81 
  scaffold-693                                                         281    2e-80 
  unplaced-804                                                         264    2e-74 
  scaffold-499                                                         262    6e-74 
  unplaced-959                                                         231    1e-63 
  scaffold-469                                                         150    5e-43 
  scaffold-418                                                         150    5e-43 
  unplaced-113                                                         122    1e-32 
  scaffold-138                                                        78.6    3e-17 
  scaffold-61                                                         78.6    3e-17 
  unplaced-721                                                        43.9    2e-05 


TBB_NEUCR
                                                                      Score     E
Sequences producing significant alignments:                          (Bits)  Value

  unplaced-665                                                         742    0.0   
  scaffold-26                                                          693    0.0   
  unplaced-5                                                           348    1e-105
  scaffold-57                                                          348    1e-105
  scaffold-423                                                         161    6e-49 

4. Поиск гена белка в одном из контигов

Были выбраны несколько длинных скаффолдов и проведён поиск программой blastx по базе данных refseq_protein. Лучший результат получился в случае scaffold-59 (его длина - 17200 оснований). Судя по результатам, в этом скаффолде присутствует ген феррохелатазы - фермента, контролирующего включение иона железа в ядро протопорфирина (переносчика двухвалентных ионов) на заключительном этапе биосинтеза гема, и дефицит которого лежит в основе одной из форм порфирии у человека.
Выравнивание со второй находкой представлено ниже.
Score	Expect	Method	Identities	Positives	Gaps
Frame
369 bits(947)	8e-110	Compositional matrix adjust.	203/407(50%)	257/407(63%)	53/407(13%)
-3
Query  12230  KVKTAILLFNLGGPGSLSEVKPFLTRLFSDPDLIELPMSRSSLFNRILALRQESTSTIAQ  12051
              K KT I+L N+GGP + +EV  FL RLFSD DL+ LP                     AQ
Sbjct  68     KPKTGIMLLNMGGPETTNEVHDFLLRLFSDRDLMVLP---------------------AQ  106

Query  12050  SESTDSKFKGLLSDNVVKEDIPHV*KLFADVITKRRSKKIENQYQQIGGQSPIKKWTTLQ  11871
              S+                          A  I +RR+ KI+ QYQ+IGG SPIK WT  Q
Sbjct  107    SK-------------------------MAQWIARRRTPKIQEQYQKIGGGSPIKMWTEKQ  141

Query  11870  MEKMVKLLDQVSPHTAPHKPYIAFRYADPLTHDALYQAINDGAERIIGFT*YP*YSCSTT  11691
               E M+KLLD + P +APHK YI FRY  PLT D L Q  +DG ER + FT YP YSCSTT
Sbjct  142    GEGMIKLLDDMCPDSAPHKFYIGFRYVKPLTEDTLDQMESDGIERAVAFTQYPQYSCSTT  201

Query  11690  GSSLNELATAVRRLKPELRDKLKMSFIDRWPIQKELVEAFA*NIKSKLDEFPAEDRNCVL  11511
              GSSLN +    ++ K E +  +K S IDRWP    LV+AFA N++++L +FPA+ +N V+
Sbjct  202    GSSLNAIYRHYKQ-KGE-KPGIKWSVIDRWPTHPGLVQAFAENVRAELAKFPADVQNEVV  259

Query  11510  LLFSAHSLPMSVVDRGDTYPQEVAATVQAVMERLGHSNPYRLSWQSKVGPSRWLSP*TAD  11331
              +LFSAHSLPM VVDRGD YPQEVAATVQ VME L +S+PYRL WQSKVGP  WL P T D
Sbjct  260    ILFSAHSLPMKVVDRGDPYPQEVAATVQRVMELLNYSHPYRLVWQSKVGPMPWLGPQTED  319

Query  11330  VVSMLGKKSHQKDKNVIIVPVAFTSDHIETLFEIDIELMED-AHKLGL-NMKRCDSLNDS  11157
               +  L KK     KN+++VP+AFTSDHIETL E+DIE  E+ AH++G+ N++R  SLNDS
Sbjct  320    SIKGLAKKG---KKNILLVPIAFTSDHIETLHELDIEYAEEVAHEVGIENIRRAASLNDS  376

Query  11156  ETFIRGMVNLVKGHIDSGFQCSQ*LHMQCPGC*KQSCRNMRETLLQQ  11016
               TFI+ M ++VK H+DSG  CS+ L ++CP C   +C   +E  L +
Sbjct  377    PTFIKAMADVVKAHLDSGVNCSRQLPLRCPMCVNPTCGLAKEFFLNR  423

5. Карта локального сходства геномов двух бактерий

Для сранения были взяты бактерии Acinetobacter baumannii strain WPB103 (CP034427.1) и Acinetobacter schindleri strain SGAir0122 (NZ_CP025618.2). Видно, что последовательности геномов записаны в разных направлениях, из-за этого карта крестообразная.






© Антоненкова Юлия, 2017