Нуклеотидный BLAST

Таксономия прочтенной последовательности

Для задания генировался консенсус с помощью consambig из пакета EMBOSS.

Поиск blastn по nr показал, что данная последовательность принадлежит первой субъединице цитохром оксидазы из ЭТЦ митохондрий. Среди первых 100 находок других генов не попадалось.

Среди первых четырех находок - два представителя семейства Loxosomatidae (E=6e-44, 2e-43) и два жука Bembidon fermoratum (E=8e-43) (3. Все остальные принадлежат Ecdysozoa, но находки имеют гораздо больший E-value (>. Вероятно, данная последовательность принадлежит виду Loxosomella varians, со скидкой на ошибки в прочтении нуклеотидной последовательности.

Сходство с последовательностями совершенно других таксонов может быть обЬяснено консервативностью последовательности цитохром оксидазы.

Рис. 1. Скриншот выдачи

BLAST. Сравнение вариантов

Последовательность из первого задания

Использовался blast с сайта ncbi, E-value threshold = 0.001, против nr. Поиск ограничивался goblet worms.

Таблица 1. Последовательность из первого задания
Критерий megablast blastn blastn, чувствительный
Word length 20 11 7
Match/Mismatch 1/-2 2/-3 1/-1
Находок 3 28 29
Рис. 2. Скриншоты выдачи. Megablast, blastn default, blastn чувствительный

Сравнение результатов с rns из Mnemiopsis leidyi

Для этого сравнения blast-ы запускались с теми же входными параметрами, входная последовательность - ген рРНК малой субъединицы рибосомы митохондрий Mnemiopsis leidyi. Ниже приведено количество находок для разных алгоритмов.

	      megablast          1
	      blastn, default    93
	      blastn, sensitive  2325  
	    
Рис. 3. Скриншоты выдачи. Megablast, blastn default, blastn чувствительный

Megablast с длинной 28 не справлялся с поиском, видимо из-за сравнительно короткой последовательности в запросе. Чувствительный blastn не сильно отличается от blastn по-умолчанию, но на бОльшей выборке он выдает слишком много результатов.

Гомологи HSP71_YEAST, TERT_SCHPO, TBB_NEUCR в геноме Amoeboaphelidium protococcarum

Для этой части работы использовался tblastn, с запросами в виде последовательности из UniProt.

	      tblastn -query query.fasta -db X5.fasta -outfmt 7 > outputfile.txt
	    

HSP71_YEAST

blast output file

Лучшее выравнивание выявлено в скаффолде 199, 79% идентичности, 920 bit score, что может говорить о наличии гомолога в этом фрагменте. Следующие фрагменты имеют bit score меньше, поэтому, вероятно это близкие родственники белка, но не его функциональные аналоги.

TERT_SCHPO

blast output file

Лучшее выравнивание выявлено в скаффолде 17, 25% идентичности, 108 bit score, что может говорить о наличии гомолога в этом фрагменте. Вероятно, это не гомолог белка. Также об этом говорит около 60% mismatch.

TBB_NEUCR

blast output file

Лучшее выравнивание выявлено в unplaced-665, 81.5% идентичности, 742 bit score, что может говорить о наличии гомолога в этом фрагменте. Следующие фрагменты в выравнивании имеют bit score меньше, поэтому, вероятно это близкие родственники белка, но не его функциональные аналоги.

Ниже приведено лучшее выравнивание. Отчетливо видно, что большая часть выравнивания не содержит гэпов и мало мисматчей.

unplaced-665
Length=20473

 Score =  742 bits (1915),  Expect = 0.0, Method: Compositional matrix adjust.
 Identities = 367/450 (82%), Positives = 398/450 (88%), Gaps = 22/450 (5%)
 Frame = -2

Query  1     MREIVHLQTGQCGNQIGAAFWQTISGEHGLDASGVYNGTSELQLERMN------------  48
             MREIVHL TG CGN IGA FW+ IS EHG+D +G Y G S+LQLER+N            
Sbjct  7236  MREIVHL*TG*CGN*IGAKFWEVISDEHGIDPNGRYEGDSDLQLERINGEFLNVLFCA**  7057

Query  49    ----------VYFNEASGNKYVPRAVLVDLEPGTMDAVRAGPFGQLFRPDNFVFGQSGAG  98
                       VYFNEASG KYVPRAVLVDLEPGTMD+VRAGP+G LFRPDNF+FGQSGAG
Sbjct  7056  AFCITLLLIVVYFNEASGGKYVPRAVLVDLEPGTMDSVRAGPYGNLFRPDNFIFGQSGAG  6877

Query  99    NNWAKGHYTEGAELVDQVLDVVRREAEGCDCLQGFQITHSlgggtgagmgtllISKIREE  158
             NNWAKGHYTEGAELVD VLDVVR+EAEGCDCLQGFQITHSLGGGTGAGMGTLLISKIREE
Sbjct  6876  NNWAKGHYTEGAELVDSVLDVVRKEAEGCDCLQGFQITHSLGGGTGAGMGTLLISKIREE  6697

Query  159   FPDRMMATFSVVPSPKVSDTVVEPYNATLSVHQLVENSDETFCIDNEALYDICMRTLKLS  218
             +PDRMM TFSVVPSPKVSDTVVEPYNATLSVHQLVENSDETFCIDNEALYDIC RTLKL+
Sbjct  6696  YPDRMMCTFSVVPSPKVSDTVVEPYNATLSVHQLVENSDETFCIDNEALYDICFRTLKLT  6517

Query  219   NPSYGDLNHLVSAVMSGVTVSLRFPGQLNSDLRKLAVNMVPFPRLHFFMVGFAPLTSRGA  278
              P+YGDLNHLVSAVMSGVT S+RFPGQLN+DLRKLAVNMVPFPRLHFFMVGFAPLTSRG+
Sbjct  6516  TPTYGDLNHLVSAVMSGVTTSIRFPGQLNADLRKLAVNMVPFPRLHFFMVGFAPLTSRGS  6337

Query  279   HHFRAVSVPELTQQMFDPKNMMAASDFRNGRYLTCSAIFRGKVSMKEVEDQMRNVQNKNS  338
               +RA+SV ELT QMFD KNMMAASD R+GRYL  +AIFRGK+SMKEV++QM +VQ KNS
Sbjct  6336  QQYRALSVAELTTQMFDAKNMMAASDPRHGRYLAVAAIFRGKMSMKEVDEQMLSVQTKNS  6157

Query  339   SYFVEWIPNNVQTALCSIPPRGLKMSSTFVGNSTAIQELFKRIGEQFTAMFRRKAFLHWY  398
             SYFVEWIPNNV+TA+C IPP+GLKMS+TF+GNSTAIQELFKRI +QF+ MF+RKAFLHWY
Sbjct  6156  SYFVEWIPNNVKTAVCDIPPKGLKMSATFIGNSTAIQELFKRISDQFSVMFKRKAFLHWY  5977

Query  399   TGEGMDEMEFTEAESNMNDLVSEYQQYQDA  428
             TGEGMDEMEFTEAESNMNDLVSEYQQYQDA
Sbjct  5976  TGEGMDEMEFTEAESNMNDLVSEYQQYQDA  5887

		  

Поиск генов в скаффолде 497 генома Amoeboaphelidium protococcarum

С помощью infoseq был выбран scaffold-497 длинны 70081. С помощью seqret получена последовательность. Поиск генов проводился в RefSeq proteins (Fungi), алгоритмом blastx на сайте ncbi.

Рис. 4. Результаты blastx

Большинство белков в выдаче являются дегидрогеназами ИМФ. Рассмотрим лучшее выравнивание:

Score	Expect	Method	Identities	Positives	Gaps    Frame
649 bits(1675) 	0.0 	Compositional matrix adjust. 	325/513(63%) 	402/513(78%) 	11/513(2%) 	+3

Query  36081  DGLSAKELFDSTKFGGLTYNDFLMLPGYIDFPAQAVSLESHLTRKIKLKTPFVSSPMDTV  36260
              DGL+A+EL +    GGLTYNDFL+LPGY+DFPA   SLES +T++  LKTPF+SSPMDTV
Sbjct  54     DGLTAEELMNPQLSGGLTYNDFLILPGYVDFPASICSLESRITKRFTLKTPFLSSPMDTV  113

Query  36261  TEAEMAIAMALMGGVGIVHYNCSVEDQCAMIRRVKKYENGFISDPVVLGPTNTVADVLQI  36440
              TE +MAI MAL GG+G++H+NC VE+Q  M+R+VKK+ENGFI+DP  LGP +TV DV  I
Sbjct  114    TETQMAIHMALNGGLGVIHHNCPVEEQADMVRKVKKFENGFITDPKCLGPEHTVQDVFNI  173

Query  36441  KNQYGFCGIPITESGKIGSKLIGIVTRRDIDFMQDTATQQAT*LVNVMTPLDQLVTAPQH  36620
              K QYGFCGIPITE+GK+ SKL+GIVT RDIDF+Q    +Q   L +VMT    LVTAPQ 
Sbjct  174    KQQYGFCGIPITENGKLHSKLLGIVTSRDIDFLQTLEDRQRL-LKDVMT--TDLVTAPQG  230

Query  36621  VTLSKANEILKGSKKGKLPIVNDRGELISLVSRKDLLKKRDYPQSSKSYRQTLRNEENNQ  36800
              V+L +AN ILK SKKGKLPIV+ +G L +L++R DL+K RDYP +SK          + Q
Sbjct  231    VSLFEANTILKASKKGKLPIVDGQGRLTALLARSDLVKARDYPWASKM-------PSSKQ  283

Query  36801  LLVGAAIGTRPDDKVRLESLYKAGVDVIVLDSSQGNSKW*IEMIQHIRQQYKDDI*VIAG  36980
              LLV AAI T  +D+VRL++L  AG+D++VLDSSQGNS + IEMI++I+Q +   I VIAG
Sbjct  284    LLVAAAISTHDEDRVRLQALVDAGLDIVVLDSSQGNSSFQIEMIKYIKQTHPH-IDVIAG  342

Query  36981  NVVTKA*AKNLIDAGADALRVGMGSGSICITQEVMACGRPQGTAVYQVA*YCHSRGIPVI  37160
              NVVT+  A+ LI+AGADALRVGMGSGSICITQEVMACGRPQGTAV++V+ +    G+PVI
Sbjct  343    NVVTQEQARRLIEAGADALRVGMGSGSICITQEVMACGRPQGTAVFRVSQFARQFGVPVI  402

Query  37161  ADGGISNCGHIIKALSLGASCVMMGSLLAATTESPSEYFYQEGKKLKRYRGMGSISAMEQ  37340
              ADGGI N GHI+KAL+LGAS VMMGSLLA T+ESP EY+Y EG++LK+YRGMGSI AME+
Sbjct  403    ADGGIGNVGHIVKALALGASAVMMGSLLAGTSESPGEYYYHEGQRLKKYRGMGSIDAMEK  462
ble
Query  37341  GSAASKRYYSD*QVLKVAQGVSGAIEDKGSVM*FMPYLIAGV*QGLQDIGTDSVKKLQDE  37520
              G AA KRY+S+   +KVAQGV+GA+ DKGSV  F+ YL  GV   LQDIGT ++  L+D 
Sbjct  463    GDAAGKRYFSEADKIKVAQGVAGAVVDKGSVKKFLGYLATGVQHSLQDIGTRTLVDLRDA  522

Query  37521  VRAGSVRFELRSPSSQVEGGVHGLVSYEKRLFA  37619
              V  G VRFE R+ S+Q+EGGVHGL SYEKRLF+
Sbjct  523    VVNGEVRFEKRTASAQLEGGVHGLHSYEKRLFS  555
		  

Бласт показывает границы гена 36081 - 37619. В этом гене нет интронов.

Карта локального сходства геномов Pseudomonas putida и Pseudomonas monteilii

Рис. 5. Карта выравнивания

Два генома бактерий действительно похожи, хотя и имеются значительные отличия. Наиболее заметным является инверсия в центре генома. Также имеются небольшие инсерции/делеции (участки без соответствия в другом геноме) по всей длинне последовательностей.


© Бушмакин Илья, 2018