Поиск гомологов некодирующей нуклеотидной последовательности


Вариант 1


Использовавшиеся команды:


seqret /home/export/samba/public/tmp/AALF01000001.embl –sask
команда была использована для извлечения заданной посл-ти AALF01000001 длиной 4000 нуклеотидов.
Задачей стоит определить не закодированы ли в полученной поседовательности белки, похожие на белки из Salmonella typhimurium.
formatdb -i salty_proteome.fasta -n salt -p T
команда была использована для создания индексных файлов.
blastall -p blastx -d salt -i aalf01000001.fasta -o results.blastx -e 0.001
Для выполнения задачи использовалась программа BLASTX, предназначенная для анализа новых нуклеотидных последовательностей для предсказания кодирующих участков, которая часто используется на первом этапе исследования. Программа BLASTX берет пробную последовательность нуклеиновых кислот и ищет в белковых базах данных.

Исследование полученного файла


Описание лучшей находки:
>Q8ZQ26 OPGH_SALTY Glucans biosynthesis glucosyltransferase H
(EC2.4.1.-).
Length = 847
Score = 1098 bits (2840), Expect = 0.0
Identities = 551/815 (67%), Positives = 615/815 (75%), Gaps = 5/815 (0%)
Frame = +1
 
Query: 955  LHQQLAASAPQEGVFSQED-SALASVNARLRAAWPDALVRGKQLEPDCEGRTVISAMPPI 1131
            +HQ L A   +   +S+ED S   SV ARL  AWPD+L +G QL  D EGR  + AMP  
Sbjct: 29   VHQALDA---EHRTYSREDDSPQGSVKARLEHAWPDSLAKG-QLIKDDEGRDQLQAMPKA 84

Query: 1132 KRTSMAPQAWRTNPVGRFWDSLLGRST----VSRAQTHEQALAEKKWRSVGSLRRYXXXX 1299
             R+SM P  WRTNPVGRFWD L GR      VSR    EQA +E+KWR+VG++RRY    
Sbjct: 85   TRSSMFPDPWRTNPVGRFWDRLRGRDVTPRYVSRLTKEEQA-SEQKWRTVGTIRRYILLI 143

Query: 1300 XXXXXXXXXXSYMKTILPYQGWALIDPFEIWQQNWQVSVMQLLPYLLQTGILILFAVLFC 1479
                       YMKTILPYQGWALI+P ++  Q+  VS MQLLPY+LQTGILILFAVLFC
Sbjct: 144  LTLAQTVVATWYMKTILPYQGWALINPMDMVGQDIWVSFMQLLPYMLQTGILILFAVLFC 203

Query: 1480 WVSAGFWTALMGFLQLLIGKDKYSISSTIKGDEALNPAHRTALIMPICNEDVERVFAGLR 1659
            WVSAGFWTALMGFLQLLIG+DKYSIS++  GDE LNP HRTALIMPICNEDV RVFAGLR
Sbjct: 204  WVSAGFWTALMGFLQLLIGRDKYSISASTVGDEPLNPEHRTALIMPICNEDVSRVFAGLR 263

Query: 1660 ATYESVAATGQLEHFDIYVLSDSYDPDICVAEQKAWLELCRDVDGHGRIFYXXXXXXXXX 1839
            AT+ESV ATG   HFD+Y+LSDSY+PDICVAEQKAW+EL  +V G G+IFY         
Sbjct: 264  ATWESVKATGNAAHFDVYILSDSYNPDICVAEQKAWMELIAEVQGEGQIFYRRRRRRMKR 323

Query: 1840 XSGNIDDFCRRWGSQYSYMVILDADSVMSGECLTGLVRLMEANPNAGIIQSAPKASGMDT 2019
             SGNIDDFCRRWG+QYSYMV+LDADSVMSGECL+GLVRLMEANPNAGIIQS+PKASGMDT
Sbjct: 324  KSGNIDDFCRRWGNQYSYMVVLDADSVMSGECLSGLVRLMEANPNAGIIQSSPKASGMDT 383

Query: 2020 LYARIQQFATRVYGPLFTAGLHYWQLGESHYWGHNAIIRVKPFIEHCALAPLPGEGSFAG 2199
            LYAR QQFATRVYGPLFTAGLH+WQLGESHYWGHNAIIRVKPFIEHCALAPLPGEGSFAG
Sbjct: 384  LYARCQQFATRVYGPLFTAGLHFWQLGESHYWGHNAIIRVKPFIEHCALAPLPGEGSFAG 443

Query: 2200 SILSHDFVEAALMRRAGWGVWIAYDLPGSYEELPPNLLDELKRDRRWCHGNLMNFRLFLV 2379
            SILSHDFVEAALMRRAGWGVWIAYDLPGSYEELPPNLLDELKRDRRWCHGNLMNFRLFLV
Sbjct: 444  SILSHDFVEAALMRRAGWGVWIAYDLPGSYEELPPNLLDELKRDRRWCHGNLMNFRLFLV 503

Query: 2380 KGMHPVHRAVFLTGVMSYLSAPLWFMFLVLCTALQAVHTLMEPQYFLQPRQLFPVWPQWR 2559
            KGMHPVHRAVFLTGVMSYLSAPLWFMFL L TALQ VH L EPQYFLQPRQLFPVWPQWR
Sbjct: 504  KGMHPVHRAVFLTGVMSYLSAPLWFMFLALSTALQVVHALTEPQYFLQPRQLFPVWPQWR 563

Query: 2560 PELAIGLFSTTXXXXXXXXXXXXXXXWAKGAKEYGGXXXXXXXXXXXXXFSVLLAPVRML 2739
            PELAI LF++T               W KG KEYGG             FSVLLAPVRML
Sbjct: 564  PELAIALFASTMVLLFLPKLLSIMLIWCKGTKEYGGFWRVTLSLLLEVLFSVLLAPVRML 623

Query: 2740 FHTVFVVSAFLGWSVQWNSPQRDDDATPWSEAMVRHGSQXXXXXXXXXXXXXXDLRFLWW 2919
            FHTVFVVSAFLGW V WNSPQRDDD+TPW EA +RHGSQ              DLRFL+W
Sbjct: 624  FHTVFVVSAFLGWEVVWNSPQRDDDSTPWGEAFMRHGSQLLLGLVWAVGMAWLDLRFLFW 683

Query: 2920 LSPXXXXXXXXXXXXXXXXRRTLGMASKRAKLFLIPEEYNPPRELLATEEYLELNHQRAL 3099
            L+P                R T+G+ +KR KLFLIPEEY+PP+ L+ T++YLE+N +R L
Sbjct: 684  LAPIVFSLILSPFVSVISSRSTVGLRTKRWKLFLIPEEYSPPQVLVDTDKYLEMNRRRIL 743

Query: 3100 SNGFLHAVMNPSYNALASAMATARHHTRAIIEQVXXXXXXXXXXXGPDKLAKLQRLELLS 3279
             +GF+HAV NPS NALA+AMATARH    ++E              P+KL + +RL LLS
Sbjct: 744  DDGFMHAVFNPSLNALATAMATARHRASKVLEIARDRHVEQALNETPEKLNRDRRLVLLS 803

Query: 3280 DPVLISRLHQQVWQQPEQYQIWNGYYRQLAHNMKA 955
            DPV ++RLH +VW  PE+Y  W  +Y+ L  N +A
Sbjct: 804  DPVTMARLHYRVWNAPERYSSWVNHYQSLVLNPQA 838

На вход была дана нуклеотидная последовательность, поэтому одному элементу нижней строки, соответствует триплет верхней.
Рассматривались только очень похожие последовательности (E-value<0,001). Объекты с высоким уровнем сходства считались гомологами.
Было найдено 4 находки с заданным параметром e-value<0.001
.........e-value
Q8ZQ26OPGH_SALTYGlucans biosynthesis glucosyltransferase H 0.0
P67557OPGG_SALTYGlucans biosynthesis protein G precursore-126
Q8ZPB3OPGD_SALTYGlucans biosynthesis protein D precursor 6e-45
Q7CQR7Q7CQR7_SALTYPutative outer membrane lipoprotein1e-26

o [=>ген Q8ZQ26 955..3384]
o [=>ген P67557 3..824]
o [=>ген Q8ZPB3 6..809]
o [=>ген Q7CQR7 3712..3921]
Имена соответствующих генов:
• mdoH
• mdoG
• mdoD
• yceK
UniProtKB ID Description
UniProtKB:OPGD_SALTY OPGD_SALTY Glucans biosynthesis protein D precursor.
UniProtKB:OPGG_SALTY OPGG_SALTY Glucans biosynthesis protein G precursor.
UniProtKB:OPGH_SALTY OPGH_SALTY Glucans biosynthesis glucosyltransferase H (EC 2.4.1.-).
UniProtKB:Q7CQR7_SALTY Q7CQR7_SALTY Putative outer membrane lipoprotein.

Гипотетические гены во фрагменте 21001-25001

5'-[=>ген P67557, 3......824]--[=>ген Q8ZQ26, 955..3384]--[=>ген Q7CQR7, 3712..3921]---—3’   
   [=>ген Q8ZPB3 6..809]
3'--------------------------------------------------------------------------------------5' 
где значки => и <= обозначают прямую или комплементарную цепь ДНК соответственно.
Назовем участки исследуемого фрагмента по имени гомологичного белка, для начала найдем что это за белки.
Введем запрос к SRS для получения соотвествующих белков предполагаемых генов в UniProt.
Результаты можно увидеть ниже. EMBL ID Description EMBL:AE008750 AE008750 Salmonella typhimurium LT2, section 54 of 220 of the complete genome. EMBL:AE008771 AE008771 Salmonella typhimurium LT2, section 75 of 220 of the complete genome.
Запрос с помощью команды LINK:
"((((((([uniprot-AccNumber:Q8ZQ26*]|[uniprot-AccNumber: P67557*])|[uniprot-AccNumber: Q8ZPB3*])|[uniprot-AccNumber:Q7CQR7*]) > EMBL )"казанные гены в найденных записях EMBL
AC находки в БД UniProt EMBL:AE008750 EMBL:AE008771
Q8ZQ26Gene mdoH 1734..4277-
P67557 Gene mdoG 110..1741-
Q8ZPB3-Gene ydcG 11567..13240 complement
Q7CQR7Gene yceK 4341..4578-

В первой находке длина гена и кодирующей последовательности совпадают, а во второй находке кодирующая последовательность меньше (206..1741)
Третью находку пришлось искать по имени локуса гена mdoD-STM1622. В результате был найден документ AE008771 в embl, но имя гена в данной находке оказалось ydcG, при этом cds белка меньше на 6 кодонов: complement(11567..13222).
В последней находке кодирующая последовательность короче на 10 нуклеотдов (4351..4578)

Гены Salmonella typhimurium LT2, полученные из записей EMBL 110-13240

5'-[=>ген mgoG, 110..1741]---------[=>ген yceK,4351..4578]-------------------------------—3’
         [=>ген mdoH, 1734..4277]
3'----------------------------------------------------------[<=ген ydcG,11567..13240]-----5' 

Выводы:


Можно заметить, что расположения гипотетических и "реальных" генов находится в том же самом порядке, кроме того, за исключением генов, кодирующих белок Q8ZPB3, которые лежат на разных цепях, все остальные лежат на прямой цепи. Вторая и третья находки P67557 и Q8ZPB3 стоят под вопросом. И не совсем ясно какая из них будет считаться находкой, а какая нет. Дело в том, что один ген не может кодировать два белка, что мы видим на примере в организме Yersinia intermedia .
Разница в длине гипотетических и "реальных генов" в первом и втором случае составляет соответственно 714,1741,114,18 нуклеотидов. Возможно, большая разница в длине генов в первом и во втором случае может объясняться работой использовавшейся программы, так как BLASTX строит локальные выравнивания. Также следует обратить внимание и на разницу в промежутках в первом и во втором случае, они не совпадают (и длина, и координаты различны). Интересно заметить, что рамки перекрывания в исследуемом фрагменте не совпадают с таковыми в организме Yersinia intermedia, более того ген Q8ZPB3 находится внутри гена P67557, а ген mdoH просто перекрывает ген mdoG.
На главную
На страницу третьего семестра
©Вахрушева Анна Алексеевна