Blast.

Поиск гипотетических гомологов изучаемого белка в разных банках.

Таблица 1. Результаты поиска гипотетических гомологов белка IOLA_BACSU.
Поиск по Swiss-Prot Поиск по PDB Поиск по "nr"

1. Лучшая находка (в принципе должна соответствовать заданному белку)

Accession P42412.1. 1T90_A. EHA31950.1.
E-value 0.0. 0.0. 0.0.
Вес (в битах) 1000. 999. 1001.
Процент идентичности 100%. 99%. 100%.

2. Сколько хороших кандидатов в гомологи найдено? (число находок в списке описаний с E-value < 1e-10)

100 83 100

3. "Худшая из удовлетворительных" находка ( последняя в выдаче с E-value < 1)

Номер находки в списке описаний 100. 91. 100.
Accession C6DKY5.1. 3MY7 A. ZP_08532557.1.
E-value 2e-76. 0.071. 0.0.
Вес (в битах) 254. 35.4. 679.
% идентичности 35%. 19%. 67%.
% сходства 52%. 36%. 81%.
Длина выравнивания 490. 452. 486.
Координаты выравнивания (от-до, в запросе и в находке) 10-477 и 10-479. 142-438 и 103-399. 4-481 и 7-486.
Число гэпов 12. 42. 2.

2.Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам.

Я начала поиски гомолога с царства Eukaryota, и, к моему удивлению, программа BLAST нашла 100 эукариотных белков, которые предположительно могут быть гомологами. Можно предположить, что белок IOLA_BACSU произошел от очень древнего, важного и имеющего консервативную последовательность белка, но мне кажется (судя по данным преведеным в таблице ниже) эти белки гомологичны только гипотетически.

Номер находки в списке описаний 1
Accession Q9EQ20.1
E-value 8*10-154
Вес (в битах) 448 bits
% идентичности 44%
% сходства 67%
Длина выравнивания 535
Координаты выравнивания (от-до, в запросе и в находке) от 7/40 до 483/518
Число гэпов 4

3.Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями.

>sp|Q9EQ20.1|MMSA_MOUSE Gene info linked to Q9EQ20.1 RecName: Full=Methylmalonate-semialdehyde dehydrogenase [acylating], 
mitochondrial; Short=MMSDH; Short=Malonate-semialdehyde 
dehydrogenase [acylating]; AltName: Full=Aldehyde dehydrogenase 
family 6 member A1; Flags: Precursor
Length=535

 GENE ID: 104776 Aldh6a1 | aldehyde dehydrogenase family 6, subfamily A1
[Mus musculus] (Over 10 PubMed links)

 Score =  448 bits (1152),  Expect = 8e-154, Method: Compositional matrix adjust.
 Identities = 212/482 (44%), Positives = 321/482 (67%), Gaps = 4/482 (1%)

Query  7    LKNYINGEWVESKTDQYEDVVNPATKEVLCQVPISTKEDIDYAAQTAAEAFKTWSKVAVP  66
            +K +I+G++VESK+D++ D+ NPAT EV+ +VP STK ++D A ++   AF  W+  ++ 
Sbjct  40   VKLFIDGKFVESKSDKWIDIHNPATNEVVGRVPQSTKAEMDAAVESCKRAFPAWADTSIL  99

Query  67   RRARILFNFQQLLSQHKEELAHLITIENGKNTKEALGEVGRGIENVEFAAGAPSLMMGDS  126
             R ++L  +QQL+ ++ +E+A LIT+E GK   +A G+V RG++ VE A    SLM+G++
Sbjct  100  SRQQVLLRYQQLIKENLKEIARLITLEQGKTLADAEGDVFRGLQVVEHACSVTSLMLGET  159

Query  127  LASIATDVEAANYRYPIGVVGGIAPFNFPMMVPCWMFPMAIALGNTFILKPSERTPLLTE  186
            + SI  D++  +YR P+GV  GIAPFNFP M+P WMFPMA+  GNTF++KPSER P  T 
Sbjct  160  MPSITKDMDLYSYRLPLGVCAGIAPFNFPAMIPLWMFPMAMVCGNTFLMKPSERVPGATM  219

Query  187  KLVELFEKAGLPKGVFNVVYGAHDVVNGILEHPEIKAISFVGSKPVGEYVYKKGSENLKR  246
             L +L + +G P G  N+++G HD VN I +HP+IKAISFVGS   GEY++++GS N KR
Sbjct  220  LLAKLLQDSGAPDGTLNIIHGQHDAVNFICDHPDIKAISFVGSNQAGEYIFERGSRNGKR  279

Query  247  VQSLTGAKNHTIVLNDANLEDTVTNIVGAAFGSAGERCMACAVVTVEEGIADEFMAKLQE  306
            VQ+  GAKNH +V+ DAN E+T+  +VGAAFG+AG+RCMA +   +  G A +++ +L +
Sbjct  280  VQANMGAKNHGVVMPDANKENTLNQLVGAAFGAAGQRCMALSTAIL-VGEAKKWLPELVD  338

Query  307  KVADIKIGNGLDDGVFLGPVIREDNKKRTLSYIEKGLEEGARLVCDGRE---NVSDDGYF  363
            +  ++++  G   G  LGP+I    K+R  + I+ G +EGA ++ DGR       ++G F
Sbjct  339  RAKNLRVNAGDQPGADLGPLITPQAKERVCNLIDSGTKEGASILLDGRRIKVKGYENGNF  398

Query  364  VGPTIFDNVTTEMTIWKDEIFAPVLSVIRVKNLKEAIEIANKSEFANGACLFTSNSNAIR  423
            VGPTI  NV   MT +K+EIF PVL V+  + L EAI+I N + + NG  +FT+N    R
Sbjct  399  VGPTIISNVKPSMTCYKEEIFGPVLVVLETETLDEAIKIVNDNPYGNGTAIFTTNGATAR  458

Query  424  YFRENIDAGMLGINLGVPAPMAFFPFSGWKSSFFGTLHANGKDSVDFYTRKKVVTARYPA  483
             +   +D G +G+N+ +P P+  F F+G +SSF G  +  GK  + FYT+ K +T+++  
Sbjct  459  KYAHMVDVGQVGVNVPIPVPLPMFSFTGSRSSFRGDTNFYGKQGIQFYTQLKTITSQWKE  518

Query  484  PD  485
             D
Sbjct  519  ED  520




# Aligned_sequences: 2
# 1: IOLA_BACSU
# 2: MMSA_MOUSE
# Matrix: EBLOSUM62
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 487
# Identity:     212/487 (43.5%)
# Similarity:   323/487 (66.3%)
# Gaps:           4/487 ( 0.8%)
# Score: 1136.0
# 
#
#=======================================

IOLA_BACSU         2 AEIRKLKNYINGEWVESKTDQYEDVVNPATKEVLCQVPISTKEDIDYAAQ     51
                     :.:..:|.:|:|::||||:|::.|:.||||.||:.:||.|||.::|.|.:
MMSA_MOUSE        35 SSVPTVKLFIDGKFVESKSDKWIDIHNPATNEVVGRVPQSTKAEMDAAVE     84

IOLA_BACSU        52 TAAEAFKTWSKVAVPRRARILFNFQQLLSQHKEELAHLITIENGKNTKEA    101
                     :...||..|:..::..|.::|..:|||:.::.:|:|.|||:|.||...:|
MMSA_MOUSE        85 SCKRAFPAWADTSILSRQQVLLRYQQLIKENLKEIARLITLEQGKTLADA    134

IOLA_BACSU       102 LGEVGRGIENVEFAAGAPSLMMGDSLASIATDVEAANYRYPIGVVGGIAP    151
                     .|:|.||::.||.|....|||:|:::.||..|::..:||.|:||..||||
MMSA_MOUSE       135 EGDVFRGLQVVEHACSVTSLMLGETMPSITKDMDLYSYRLPLGVCAGIAP    184

IOLA_BACSU       152 FNFPMMVPCWMFPMAIALGNTFILKPSERTPLLTEKLVELFEKAGLPKGV    201
                     ||||.|:|.||||||:..||||::|||||.|..|..|.:|.:.:|.|.|.
MMSA_MOUSE       185 FNFPAMIPLWMFPMAMVCGNTFLMKPSERVPGATMLLAKLLQDSGAPDGT    234

IOLA_BACSU       202 FNVVYGAHDVVNGILEHPEIKAISFVGSKPVGEYVYKKGSENLKRVQSLT    251
                     .|:::|.||.||.|.:||:|||||||||...|||::::||.|.||||:..
MMSA_MOUSE       235 LNIIHGQHDAVNFICDHPDIKAISFVGSNQAGEYIFERGSRNGKRVQANM    284

IOLA_BACSU       252 GAKNHTIVLNDANLEDTVTNIVGAAFGSAGERCMACAVVTVEEGIADEFM    301
                     |||||.:|:.|||.|:|:..:||||||:||:||||.: ..:..|.|.:::
MMSA_MOUSE       285 GAKNHGVVMPDANKENTLNQLVGAAFGAAGQRCMALS-TAILVGEAKKWL    333

IOLA_BACSU       302 AKLQEKVADIKIGNGLDDGVFLGPVIREDNKKRTLSYIEKGLEEGARLVC    351
                     .:|.::..::::..|...|..|||:|....|:|..:.|:.|.:|||.::.
MMSA_MOUSE       334 PELVDRAKNLRVNAGDQPGADLGPLITPQAKERVCNLIDSGTKEGASILL    383

IOLA_BACSU       352 DGRE---NVSDDGYFVGPTIFDNVTTEMTIWKDEIFAPVLSVIRVKNLKE    398
                     |||.   ...::|.||||||..||...||.:|:|||.|||.|:..:.|.|
MMSA_MOUSE       384 DGRRIKVKGYENGNFVGPTIISNVKPSMTCYKEEIFGPVLVVLETETLDE    433

IOLA_BACSU       399 AIEIANKSEFANGACLFTSNSNAIRYFRENIDAGMLGINLGVPAPMAFFP    448
                     ||:|.|.:.:.||..:||:|....|.:...:|.|.:|:|:.:|.|:..|.
MMSA_MOUSE       434 AIKIVNDNPYGNGTAIFTTNGATARKYAHMVDVGQVGVNVPIPVPLPMFS    483

IOLA_BACSU       449 FSGWKSSFFGTLHANGKDSVDFYTRKKVVTARYPAPD    485
                     |:|.:|||.|..:..||..:.|||:.|.:|:::...|
MMSA_MOUSE       484 FTGSRSSFRGDTNFYGKQGIQFYTQLKTITSQWKEED    520



# Length: 536
# Identity:     212/536 (39.6%)
# Similarity:   323/536 (60.3%)
# Gaps:          50/536 ( 9.3%)
# Score: 1133.0
# 
#
#=======================================

IOLA_BACSU         1 ---------------------------------MAEIRKLKNYINGEWVE     17
                                                      .:.:..:|.:|:|::||
MMSA_MOUSE         1 MAAAVAAAAAMRSRILQVSSKVNATWYPASSFSSSSVPTVKLFIDGKFVE     50

IOLA_BACSU        18 SKTDQYEDVVNPATKEVLCQVPISTKEDIDYAAQTAAEAFKTWSKVAVPR     67
                     ||:|::.|:.||||.||:.:||.|||.::|.|.::...||..|:..::..
MMSA_MOUSE        51 SKSDKWIDIHNPATNEVVGRVPQSTKAEMDAAVESCKRAFPAWADTSILS    100

IOLA_BACSU        68 RARILFNFQQLLSQHKEELAHLITIENGKNTKEALGEVGRGIENVEFAAG    117
                     |.::|..:|||:.::.:|:|.|||:|.||...:|.|:|.||::.||.|..
MMSA_MOUSE       101 RQQVLLRYQQLIKENLKEIARLITLEQGKTLADAEGDVFRGLQVVEHACS    150

IOLA_BACSU       118 APSLMMGDSLASIATDVEAANYRYPIGVVGGIAPFNFPMMVPCWMFPMAI    167
                     ..|||:|:::.||..|::..:||.|:||..||||||||.|:|.||||||:
MMSA_MOUSE       151 VTSLMLGETMPSITKDMDLYSYRLPLGVCAGIAPFNFPAMIPLWMFPMAM    200

IOLA_BACSU       168 ALGNTFILKPSERTPLLTEKLVELFEKAGLPKGVFNVVYGAHDVVNGILE    217
                     ..||||::|||||.|..|..|.:|.:.:|.|.|..|:::|.||.||.|.:
MMSA_MOUSE       201 VCGNTFLMKPSERVPGATMLLAKLLQDSGAPDGTLNIIHGQHDAVNFICD    250

IOLA_BACSU       218 HPEIKAISFVGSKPVGEYVYKKGSENLKRVQSLTGAKNHTIVLNDANLED    267
                     ||:|||||||||...|||::::||.|.||||:..|||||.:|:.|||.|:
MMSA_MOUSE       251 HPDIKAISFVGSNQAGEYIFERGSRNGKRVQANMGAKNHGVVMPDANKEN    300

IOLA_BACSU       268 TVTNIVGAAFGSAGERCMACAVVTVEEGIADEFMAKLQEKVADIKIGNGL    317
                     |:..:||||||:||:||||.: ..:..|.|.:::.:|.::..::::..|.
MMSA_MOUSE       301 TLNQLVGAAFGAAGQRCMALS-TAILVGEAKKWLPELVDRAKNLRVNAGD    349

IOLA_BACSU       318 DDGVFLGPVIREDNKKRTLSYIEKGLEEGARLVCDGRE---NVSDDGYFV    364
                     ..|..|||:|....|:|..:.|:.|.:|||.::.|||.   ...::|.||
MMSA_MOUSE       350 QPGADLGPLITPQAKERVCNLIDSGTKEGASILLDGRRIKVKGYENGNFV    399

IOLA_BACSU       365 GPTIFDNVTTEMTIWKDEIFAPVLSVIRVKNLKEAIEIANKSEFANGACL    414
                     ||||..||...||.:|:|||.|||.|:..:.|.|||:|.|.:.:.||..:
MMSA_MOUSE       400 GPTIISNVKPSMTCYKEEIFGPVLVVLETETLDEAIKIVNDNPYGNGTAI    449

IOLA_BACSU       415 FTSNSNAIRYFRENIDAGMLGINLGVPAPMAFFPFSGWKSSFFGTLHANG    464
                     ||:|....|.:...:|.|.:|:|:.:|.|:..|.|:|.:|||.|..:..|
MMSA_MOUSE       450 FTTNGATARKYAHMVDVGQVGVNVPIPVPLPMFSFTGSRSSFRGDTNFYG    499

IOLA_BACSU       465 KDSVDFYTRKKVVTARYPAPDFN-------------    487
                     |..:.|||:.|.:|:::...|..             
MMSA_MOUSE       500 KQGIQFYTQLKTITSQWKEEDATLSSPAVVMPTMGR    535









С помощью команд needle protein.fasta:IOLA_BACSU protein.fasta:IOLA2_BACAH all.stretcher и water protein.fasta:IOLA_BACSU protein.fasta:IOLA2_BACAH piece.stretcher я получила полное и частичное выравнивание. В частичное выравнивание вошли участки 7-481 и 9-485. Локальное выравнивание с "ограничением" глобального на этом участке совпадают.
© Julia Chudakova .