- Сначала посмотрим на Amoeboaphelidium protococcarum. В NCBI есть про него пара GenBank записей,
из которых берем transl_table=6 для дальнейшего выравнивания.
- Искал я белки: ДНК-полимераза дельта - основная полимераза эукариот, гистон H4, и
Na+/K+-АТФазу.
- Запросы NCBI protein: (gallus gallus[Organism]) AND dna polymerase (здесь взял subunit 3) ; (gallus gallus[Organism]) AND histone h4[Protein Name] ; (Gallus gallus[Organism]) AND ATPase[Protein Name]
- В итоге 3 файла и сборка. Далее запускаем сеанс tblastn на кодомо.
makeblastdb -in X5.fasta -dbtype nucl
tblastn -query gallus_dna_pol_d.fasta -db_gencode 6 -db X5.fasta -out dna_pol_d.out
tblastn -query gallus_histone_h4.fasta -db_gencode 6 -db X5.fasta -out histone_h4.out
tblastn -query gallus_atpase.fasta -db_gencode 6 -db X5.fasta -out atpase.out
- На выходе имеем для Полимеразы 2 находки. Из них лучшая с весом 31,6 и E-value 1,1 и идентичностью 33%.
> scaffold-17
Length=2125590
Score = 31.6 bits (70), Expect = 1.1, Method: Compositional matrix adjust.
Identities = 14/44 (32%), Positives = 27/44 (61%), Gaps = 2/44 (5%)
Frame = +3
Query 404 CTDSEDD--FAKTKPPAVPKQPALPVKKEPKEERKNQKKGAATA 445
CT+S+D + KT+P A+ +QP+ P + P ++ N + A++
Sbjct 1537893 CTESQDQCTWCKTQPSALEQQPSTPQHRHPLDQIHNSHQICASS 1538024
Score = 30.8 bits (68), Expect = 1.8, Method: Compositional matrix adjust.
Identities = 22/66 (33%), Positives = 35/66 (53%), Gaps = 12/66 (18%)
Frame = -3
Query 51 ENSGAQLHVTYLV-----------AGNLIQNGHTCHKVAVVREDKLEAMKSKLATVTS-V 98
+NSG LH+ YL+ + L + HT ++++V L+ +S LATV + +
Sbjct 231532 QNSGQTLHIEYLIQRVKTIDSNDFSKRLNNSLHTLNQISVSIWFGLQEQQSTLATVLNLI 231353
Query 99 HVYSIQ 104
VYSIQ
Sbjct 231352 IVYSIQ 231335
> scaffold-105
Length=655906
Score = 30.4 bits (67), Expect = 2.2, Method: Compositional matrix adjust.
Identities = 13/44 (30%), Positives = 28/44 (64%), Gaps = 2/44 (5%)
Frame = -3
Query 404 CTDSEDD--FAKTKPPAVPKQPALPVKKEPKEERKNQKKGAATA 445
CT+++D + KT+P A+ +QP+ P + P ++ N ++ A++
Sbjct 469775 CTENQDQCTWCKTQPTALEQQPSTPRHRHPLDQIHNSRQICASS 469644
- Думаю, что этому не нужно доверять, потому что на мой взгляд уж что-что а субъединица основной полимеразы должна быть очень консервативна.
Хотя и второе выравнивание возможно отвечает за 451..458 region_name="PIP-box".
- Для АТФазы 33 находки, что возможно было бы не странно, потому что этот белок большой 1000 а.к. Лучшая находка с весом
580, E-value 1e^-177, идентичность 35%
-
Score = 580 bits (1495), Expect = 1e-177, Method: Compositional matrix adjust.
Identities = 403/1159 (35%), Positives = 594/1159 (51%), Gaps = 171/1159 (15%)
Frame = +2
Query 8 DKYEPTATSEHGTKKKKAKERDMDELKKEISMDDHKLSLDELHRKY-GTDL-------SR 59
D+ E + + K+ K D + KK + + +H LS +EL +KY G S+
Sbjct 103883 DRVEDSKINTSAVKEPVVKGHDKE--KKSVHITEHMLSPEELSQKYYGVKFDAEKPTQSQ 104056
Query 60 GLTTARAAEILARDGpntltpppttpEWVKFCRQLFGGFSLLLWIGSLLCFLAYGITSVM 119
GL+ + A E LA GPN ++PP +TP ++KF LF F+ LL +L F+ YGI
Sbjct 104057 GLSESLAEEKLAEHGPNMMSPPKSTPAYLKFLHCLFNQFNQLLIFAGILSFILYGI---- 104224
Query 120 EGEPNSDNLYLGVVLAAVVIITGCFSYYQEAKSSKIMESFKNMVPQQALVVRNGEKMSIN 179
+ + +LY+G +L V +I + Q KS I++SF +VP+ +R+G+ S+
Sbjct 104225 DPQNGISSLYVGAILILVALINSTIEFVQIQKSEAILKSFLGLVPRNCTTIRDGKLKSMG 104404
Query 180 AEGVVVGDLVEVKGGDRIPADLRIISAHGCKVDNSSLTGESEPQTRSPDFSNENPLETRN 239
AE +V GD++ V+ GD++PAD+ I A KVDNSSLTGE++PQ R P + ENPLE N
Sbjct 104405 AESLVPGDVIHVRMGDKLPADIYIFWAAEFKVDNSSLTGEADPQERGPGNTQENPLEAHN 104584
Query 240 IAFFSTNCVEGTAVGIVISTGDRTVMGRIASLASGLEGGKTPIAMEIEHFIHLITGVAVF 299
+AF + V G A G+VI TGD TV+G+IA++ASG + ++P+ +EI++F+ +I VA
Sbjct 104585 LAFSGSLAVNGEAYGVVIRTGDFTVLGQIANMASGEKKRQSPMTVEIDNFVKMIALVAAL 104764
Query 300 LGVSFFILSLIL---EYTWLEAVI-----FLIGIIVANVPEGllatvtvcltltaKRMAR 351
GV FFI+ + ++ + +I F IG+ ++ VPE L A VT+ L+ A+RM++
Sbjct 104765 TGVVFFIIGITTLGGQFPDSKQLIAFNFTFAIGVFISWVPEALPAIVTLLLSFAAQRMSK 104944
Query 352 KNCLVKNLEAVGTLGSTSTICSDKTGTLTQNRMTVAHMWFDNQIHEADTTENQSGASFD- 410
+N LVK+L V TLGS + + +DKTGTLT+N+MTV + W ++++ +E++S A+ D
Sbjct 104945 RNVLVKDLRGVETLGSITLLATDKTGTLTRNQMTVTNFWSSGEMYQVGKSEHKSSANLDG 105124
Query 411 -------------------KSSATWLALSR---------------------------IAG 424
+ + L L+R I
Sbjct 105125 QPKSAGDENMPPVINGKDGEQAIGMLPLNRVPTVQMAPADDFKQFSLDVKSLNDLSMICY 105304
Query 425 LCNRAVFQANQENVPILKRAVAGDASESALLKCIELCCGSVKEMRERYPKVVEIPFNSTN 484
LC++A F A +VP+ +R+V GDA+ES L + E+YPKV EIPFNSTN
Sbjct 105305 LCSKARFDAT--DVPLKQRSVIGDATESGLFLFAANTLPDSDTLAEQYPKVFEIPFNSTN 105478
Query 485 KYQLSIHKNANAGESRHLLVMKGAPERILDRCDSILIH-GKVQPLDEEIKDAFQNAYlel 543
K+ LSIHK + LL+ KGAPERI C I G + + E+K FQ +Y L
Sbjct 105479 KWHLSIHKMKHDNGDLTLLI-KGAPERIFRLCSKIYSQSGDEKEITAEMKQDFQKSYEAL 105655
Query 544 gglgervlgFCHLALPDDQFPEGFQFDTDEVN--------------FPVEKLCFVGLMSM 589
G RV+G LP +P F F D+ + +P F GL+S+
Sbjct 105656 AAKGHRVIGTAKFNLPAADYPADFTFRKDDQDKKELGEDKPGILGTYPKGGYTFCGLVSL 105835
Query 590 IDPPRAAVPDAVGKCRSAGIKVIMVTGDHPITAKAIAKGVGIISDGNETVEDIAARLNIP 649
DPP+ V +A+GKCR AG+KV+MVTGDHP+TA+AIA+ + ++ ET E +A R N
Sbjct 105836 EDPPKHGVREAIGKCRQAGVKVMMVTGDHPLTAEAIARKINLML--QETKEMVAKRTNRA 106009
Query 650 VSQVNPRDAKACVVHGSDLKDMTSEQLDDILLHHTEIVFARTSPQQKLIIVEGCQRQGAI 709
+S + + + V+HG + +T + + IL + EI+FARTSP+ KL IV+ CQ +G I
Sbjct 106010 LSSIQEHEYNSIVIHGEKVDSLTEDDWERIL-NKDEIIFARTSPKHKLQIVKHCQERGHI 106186
Query 710 VAVTGDGVNDSPALKKADIGVAMGIAGSDVSKQAADMILLDDNFASIVTGVEEGRLIFDN 769
V VTGDGVNDSPALKKAD+G++M I+GSDVSK+AA MILLDDNFAS V G+ EGRLIF N
Sbjct 106187 VGVTGDGVNDSPALKKADLGISMNISGSDVSKEAAAMILLDDNFASTVHGISEGRLIFQN 106366
Query 770 LKKSIAYTLTSNIPEITPFLIFIIANIPLPLGTCTILCIDLGTDMVPAISLAY---EQAE 826
LKK + YTL +PE+ L+F++ IPLPL I+ IDLG + +S A+ E E
Sbjct 106367 LKKCVRYTLCHILPEVIANLLFVVVPIPLPLYALQIILIDLGFEFFNGLSYAWEVPEHGE 106546
Query 827 SDIMKRQPRNPKTDKLVN-------------ERLISMAYGQIGMIQALGGFFTYFVIMAE 873
I+ PR P + + ++ +++ M YG A V +E
Sbjct 106547 EGILMALPRKPVSLRSIDLLRRNNAYKAKQQNQVMQMVYGNNRPAAAAENSLVQDVDTSE 106726
Query 874 NGFLPSGLVGIRLQWDDRWINDVEDSYGQQWTFEQRK--------IVEFT---------- 915
+ S + + W + D G Q +E R+ I+ +
Sbjct 106727 MNW--STYLKYKTAATRVWFRSLFDKEGWQLYWEPRQEETLVDADILSYAYLEVGVLETI 106900
Query 916 -CHTAFF-VSIVVVQWADLIICKT----RRNSVFQQGMKNKIL--------------IFG 955
C AFF V V + W ++ + + Q +K + IF
Sbjct 106901 GCLLAFFHVFYVELGWTPAVVAQNAAQFSNTNALPQNLKEALFKAQSAYYFALLIMQIFN 107080
Query 956 LF-------------------------EETALAAFLSYCPGMDVALRMYPLKPTWWFCAF 990
+F A + F+ Y P M + L P +W F
Sbjct 107081 MFCCKVTTSYPFGWRVLKNKVTWISLAVSVAFSCFVIYPPFMHDVFQTNYLSPQYWLFPF 107260
Query 991 PYSLLIFLYDEIRKLIIRR 1009
+I +Y R RR
Sbjct 107261 VMGFVILMYVSARVAYRRR 107317
- Опять же я бы не поверил, что АТФ-аза может так различаться, хот и E-value многообещающий и при этом
последовательность целиком легла на скэффолд, что тоже подозрительно.
- Для гистона H4 все получше потому что лучшая выборка имеет массу 159, E-value 6e^-49 и при этом
94% идентичность.
Score = 159 bits (403), Expect = 6e-49, Method: Compositional matrix adjust.
Identities = 77/82 (94%), Positives = 81/82 (99%), Gaps = 0/82 (0%)
Frame = -2
Query 22 VLRDNIQGITKPAIRRLARRGGVKRISGLIYEETRGVLKVFLENVIRDAVTYTEHAKRKT 81
+LRDNIQGITKPAIRRLARRGGVKRISGLIYEETRGVLK FLENV+RD+VTYTEHAKRKT
Sbjct 331 ILRDNIQGITKPAIRRLARRGGVKRISGLIYEETRGVLKSFLENVVRDSVTYTEHAKRKT 152
Query 82 VTAMDVVYALKRQGRTLYGFGG 103
VTA+DVVYALKRQGRTLYGFGG
Sbjct 151 VTALDVVYALKRQGRTLYGFGG 86
- Вот здесь впринципе можно быть уверенным, что нашлось совпадение.