6. Поиск по сходству (нуклеотидный blast)

Задание 1

Полученная в ходе исследования результатов капиллярного секвенирования ссылка   последовательность была направлена на сравнение с другими последовательностями
в базе данных с помощью нуклеотидного BLAST для установления таксономии и определения функции гена.
На картинке ниже представлены находки программы.

Из результатов видно, что для луxших находок E-value = 0, а процент идентичности 97%, из чего можно однозначен утверждать, что организм, к которому
относится последовательность имеет следующую таксономию до рода: Eukaryota; Metazoa; Lophotrochozoa; Annelida; Polychaeta;
Polychaeta incertae sedis; Saccocirridae;
При этом существует 2 рода (Pharyngocirrus и Saccocirrus), содержащий мою последовательность.
Последовательность кодирует 18S рибосамальную РНК.

Задание 2

При поиске последовательностей, гомологичных последовательности из предыдущего задания.
Плодотворной идеей для снижения числа находок до обозримого оказалось ограничить поиск таксоном Bacteria. Поиск по базе nr (в Refseq ничего не ищется), галочки в полях "Exclude Uncultured/environmental sample sequences" и "Exclude Models (XM/XP)". Проделываем три поиска: Megablast со стандартными настройками, blastn co стандартными настройками, blastn с длиной слова 7 и Match/mismatch scores = 1;-1. На всякий случай везде меняем максимальное количество находок на 500. Получаем вот что:
1.Blastn co стандартными настройками (64 находки)


2.Megablast (22 находки)

3.Blastn c чувствительными параметрами(52 находки)


Была взята последовательность из Sequence: EU237474.1 из tRNA  17141..17213 (/gene="trnF(gaa)",/product="tRNA-Phe",/anticodon=(pos:17174..17176,aa:Phe,seq:gaa))
Поиск по базе nr (в Refseq ничего не ищется), галочки в полях "Exclude Uncultured/environmental sample sequences" и "Exclude Models (XM/XP)", Azotobacter (taxid:352), Match/mismatch scores = 1;-1, изменялась только длина слова
Для неё BLASTN с длиной слова 7 дал результаты (443 находки):

с длиной слова 11 дал резульаты (434 находки):

с длиной слова 15 дал резульаты (368 находки):


Сравнение алгоритмов демонстрирует, что чувствительность уменьшается при увеличении длины слова, а также чувствительность megablast меньше,чем
BLASTN, т.к. megablast даёт меньше находок.

Задание 3

В этом задании была использована программа tblastn. Для белка HSP71_YEAST был файл  найден гомолог scaffold-199
с параметрами сходства: Score =  920 bits (2377),  Expect = 0.0, Method: Compositional matrix adjust.
 Identities = 481/609 (79%), Positives = 550/609 (90%), Gaps = 3/609 (0%). Вероятнее всего белок консервативен и выполняет ту же функцию, что
и HSP71_YEAST, который является белок теплового шока.

Для белка TERT_HUMAN был получен   файл . Параметры для лучшего выравнивания: Score =  105 bits (263),  Expect = 8e-23, Method: Compositional matrix adjust.
 Identities = 151/568 (27%), Positives = 248/568 (44%), Gaps = 43/568 (8%)
 Frame = +1.
Этот результат является условно положительным. BLAST выдал три находки, однако даже у самой лучшей из них параметры сходства слишком низкие, чтобы утверждать сохранение функций. 
Гомология отдельных доменов также маловероятна, так как совпадения распределены по всей длине последовательности относительно равномерно.

Для белка CISY_HUMAN был получен   файл . Параметры для лучшего выравнивания:  Score =  565 bits (1457),  Expect = 2e-180, Method: Compositional matrix adjust.
 Identities = 262/377 (69%), Positives = 315/377 (84%), Gaps = 3/377 (1%)
 Frame = +1
Скорее всего она действительно является гомологом интересующего нас белка с сохранением функций ввиду относительно хороших параметров сходства.

Задание 4

С помощью программы infoseq был получин континг unplaced-987, для которго был запущен  blastx  и получен ген белка XM_022029653.1.
Выравнивание имело было следующим:
Score		Expect	Method				Identities	Positives	Gaps        Frame
1055 bits(2727)	0.0	Compositional matrix adjust.	538/1009(53%)	707/1009(70%)	29/1009(2%) -3
Query  3162  ATMDQVNDLFSKLSVGKETAPRAQVASELVRLVKSSHDIHFLKSY*IIDKIKIEADNAKS  2983
             AT DQ           KE A +     + + ++K+ HD + +K+      +    +N K 
Sbjct  14    ATQDQTTS-----EARKEQAEKVAEEVKNLGIIKAFHDGNLIKT------VTTLLENKKQ  62

Query  2982  APAREGAMLTFAALCKDV-PVCDPYLLPLLPIVLERMGDKA*EVRKAADEAGLAFIERVN  2806
             AP RE A    A++ K V    +PYL+PL+P VL+   DK   VR AADEA  A +   +
Sbjct  63    APFREAAYYILASVSKTVGQAGEPYLIPLVPKVLDGYADKVTSVRDAADEASKAIMALPS  122

Query  2805  PHAVKAVLPVLYEAIEHGIKWQTKFGGLALLRALTKKAP**IRLCLPDIIPHASAAMWDT  2626
              +AVK +LPVL+ +IE+G +WQ++ G L LL  L+K +P  I  CL +I+P  SA+MW T
Sbjct  123   RYAVKLLLPVLFASIENG-RWQSQVGSLQLLAGLSKSSPKQISKCLSEIVPVLSASMWST  181

Query  2625  KSEVNKSAAEAMAELCKLVGNPDIEAFIPALIRTIANPSEVPECVYQLAATTFVTTVESP  2446
             + EV   A +      ++VGNPD+ + IP L+  I  P EVPEC++QLA+TTFVTTVE+P
Sbjct  182   RPEVRAEATKTTTACFEVVGNPDLISSIPYLVGCINRPEEVPECIHQLASTTFVTTVEAP  241

Query  2445  ALAIMLPLLVRGLGESVTAVKRQTAVIIDNMCKLVLDPAQAEFFIPKLLPGLDRIIEVAA  2266
              LAIM PLL+RGL E   +++RQTAVIIDNMCKLV +PA A  F+PKLLPGLDR+IE+ A
Sbjct  242   TLAIMTPLLIRGLAERTPSIQRQTAVIIDNMCKLVENPAHAHQFLPKLLPGLDRLIEIGA  301

Query  2265  DPDLRSVAERARKTMLKAGGFDHKLQASDIQVAVKWVSNVDNLMKVLKDIVSAQAPSHKD  2086
              P+LRSVAERAR T+++ GG +   + S + +A +   N   +++ LK  + +       
Sbjct  302   SPELRSVAERARATLIRVGGGEKAQEESILNIAYEIKPN--EVLETLKKTIGSSIKV---  356

Query  2085  EMKD*FFVILL*FVCTLASELVEHKCFEEAEWVATIKPYLSAFLSADESANCAKEFLKVS  1906
                D F    L +  TL SEL+  + FE   W A+I PYL  F+S DE+   A    K  
Sbjct  357   ---DDFVQTSLSYSATLCSELITSRDFESDAWDASITPYLLTFISKDEAKRIATSVHKFY  413

Query  1905  LENIQKeteeeeeeeeegED--LCDCEFSLAYGGMILLNSTKLHLKRGHRYGLCGANGVG  1732
             ++   K         +  E   LCDCEFSLAYGGMILLN T+L+L+RG RYGLCG NGVG
Sbjct  414   VDYDAKNALSNAAVADVEEGELLCDCEFSLAYGGMILLNKTRLNLRRGQRYGLCGPNGVG  473

Query  1731  KSTLMRAIANGQLDGFPPQDVLKSVFVEHKL*ASDAEILIMDFVQNDDMTKDVEKDVILK  1552
             KSTLMRAIA+GQL+GFPP D L++VFVEH L A +A++ +++F+  D    D+  + ++ 
Sbjct  474   KSTLMRAIADGQLEGFPPADELRTVFVEHNLQAEEADLPVVEFMFADPKLSDIPHEEVVS  533

Query  1551  TLESVGFDEEMRAKKVGELSGGWKMKLELARAIMVNADILLLDEPTNHLDKRNVKWLTDY  1372
              L SVGF   M+ + VG LSGGWKMKLELARA+++NADILLLDEPTNHLD  NV WL  Y
Sbjct  534   RLSSVGFTPAMQQQAVGSLSGGWKMKLELARAMLMNADILLLDEPTNHLDVHNVAWLESY  593

Query  1371  LNSLSNVTSLIVSHDSTFLDNVCTDILHYENRKLKRYRGNLSEFVKIRPEAKAYYNLTQS  1192
             L SL+NVTS+IVSHDS+FLDNVCT I+HYE+RKLK+YRGNLS+FV+  P+AK+YY L  S
Sbjct  594   LTSLTNVTSMIVSHDSSFLDNVCTGIIHYESRKLKKYRGNLSKFVEQYPDAKSYYELKSS  653

Query  1191  QYNFKLPEPGFLDGVNTKDKAIIKLVRVGFRYPGSDKDQLSGVSVACSLSSRIAVLGPNG  1012
                FKLPEPGFLDGV +KDKA++K + + F YPG+    +  +S   SL+SR+AV+GPNG
Sbjct  654   LITFKLPEPGFLDGVKSKDKALLKFINISFTYPGNTTPTIRNMSAQVSLNSRVAVVGPNG  713

Query  1011  AGKSTLIKVLTGETIPTAGDVIRHPNLRICYVAQHAFHHLDRHLDKTPNQYIQWRYQFGE  832
             AGKSTLIKVLTGETIP  G+V +HPNLR+ YVAQHAFHH+++HL KTPN+YI+WRYQFGE
Sbjct  714   AGKSTLIKVLTGETIPQVGEVTKHPNLRVAYVAQHAFHHVEQHLTKTPNEYIRWRYQFGE  773

Query  831   DKELLEKESRQMTDAD----KKVFEQ*VVFDG*KRKLESLMGRRKLKKSFEYEVKWVNMT  664
             D+EL  K SRQ++  +    KKV +  +     K +++ L GRRK K+SFEYEV+WV  T
Sbjct  774   DRELAAKASRQISPEEEAQMKKVIQWEINGKMEKLQIDDLYGRRKAKRSFEYEVQWVGRT  833

Query  663   HEENSWVPRDKLEEWGFNKIV*KFDDKEAAKAGAYTRPLTAANVQKHLEDLGLDPEFATH  484
             +++N+W+ R+KLEEWGF K++  FDDKEAA+AGA+TR LTA  V+KHL DLGL  EFATH
Sbjct  834   YDDNAWISREKLEEWGFEKLLQSFDDKEAARAGAWTRSLTAVEVEKHLGDLGLPAEFATH  893

Query  483   SFIKGLSGGQKVKVVIGASTWNNPHMLVLDEPSNYLDRDSLAALSQALKEFGGGVIVISH  304
             + IKGLSGGQKVKVV+ A+ W NPH+LVLDEP+NYLDRDSL AL++AL+EFGGGV++ISH
Sbjct  894   NHIKGLSGGQKVKVVLAAAMWLNPHILVLDEPTNYLDRDSLGALTEALREFGGGVVIISH  953

Query  303   NQEFVDAVCTERWNMDNGLL*IEGQ--TTAvkekiv*keeeemVDAFGN  163
             +++F +A+CTE W+++ G L + G   T  V+ KIV KE E  +DAFGN
Sbjct  954   HRDFTEAICTETWSINAGELTVTGNNYTQRVESKIVQKEAETKIDAFGN  1002


Ген, кодирует P-петлю, содержащую нуклеозидтрифосфат гидролазный белок. В выравнивании присутствуют консервативные участки, на основании чего
можно предположить, что белок выполяняет ту же функцию и в исходном организме.

Задание 5

В этом задании было взято 2 генома NC_015408.1 Chlamydophila pecorum E58, complete genome (lcl|Query_55631)
 и NC_017287.1 Chlamydia psittaci 6BC, complete genome (lcl|Query_55633)  и при помощи blastn была получена карта локального сходства

Можно наблюдать инверсию, которая соответствует нуклеотидам 600К -700К для Query_55633
и 850К-950К для Query_55631.