Поиск гомологов некодирующей нуклеотидной последовательности
Вариант 1
Использовавшиеся команды:
seqret /home/export/samba/public/tmp/AALF01000001.embl –sask
команда была использована для извлечения заданной посл-ти AALF01000001 длиной 4000 нуклеотидов.
Задачей стоит определить не закодированы ли в полученной поседовательности белки, похожие на белки из Salmonella typhimurium.
formatdb -i salty_proteome.fasta -n salt -p T
команда была использована для создания индексных файлов.
blastall -p blastx -d salt -i aalf01000001.fasta -o results.blastx -e 0.001
Для выполнения задачи использовалась программа BLASTX, предназначенная для анализа новых нуклеотидных последовательностей для предсказания кодирующих участков, которая часто используется на первом этапе исследования. Программа BLASTX берет пробную последовательность нуклеиновых кислот и ищет в белковых базах данных.
Исследование полученного файла
Описание лучшей находки:
>Q8ZQ26 OPGH_SALTY Glucans biosynthesis glucosyltransferase H
(EC2.4.1.-).
Length = 847
Score = 1098 bits (2840), Expect = 0.0
Identities = 551/815 (67%), Positives = 615/815 (75%), Gaps = 5/815 (0%)
Frame = +1
Query: 955 LHQQLAASAPQEGVFSQED-SALASVNARLRAAWPDALVRGKQLEPDCEGRTVISAMPPI 1131
+HQ L A + +S+ED S SV ARL AWPD+L +G QL D EGR + AMP
Sbjct: 29 VHQALDA---EHRTYSREDDSPQGSVKARLEHAWPDSLAKG-QLIKDDEGRDQLQAMPKA 84
Query: 1132 KRTSMAPQAWRTNPVGRFWDSLLGRST----VSRAQTHEQALAEKKWRSVGSLRRYXXXX 1299
R+SM P WRTNPVGRFWD L GR VSR EQA +E+KWR+VG++RRY
Sbjct: 85 TRSSMFPDPWRTNPVGRFWDRLRGRDVTPRYVSRLTKEEQA-SEQKWRTVGTIRRYILLI 143
Query: 1300 XXXXXXXXXXSYMKTILPYQGWALIDPFEIWQQNWQVSVMQLLPYLLQTGILILFAVLFC 1479
YMKTILPYQGWALI+P ++ Q+ VS MQLLPY+LQTGILILFAVLFC
Sbjct: 144 LTLAQTVVATWYMKTILPYQGWALINPMDMVGQDIWVSFMQLLPYMLQTGILILFAVLFC 203
Query: 1480 WVSAGFWTALMGFLQLLIGKDKYSISSTIKGDEALNPAHRTALIMPICNEDVERVFAGLR 1659
WVSAGFWTALMGFLQLLIG+DKYSIS++ GDE LNP HRTALIMPICNEDV RVFAGLR
Sbjct: 204 WVSAGFWTALMGFLQLLIGRDKYSISASTVGDEPLNPEHRTALIMPICNEDVSRVFAGLR 263
Query: 1660 ATYESVAATGQLEHFDIYVLSDSYDPDICVAEQKAWLELCRDVDGHGRIFYXXXXXXXXX 1839
AT+ESV ATG HFD+Y+LSDSY+PDICVAEQKAW+EL +V G G+IFY
Sbjct: 264 ATWESVKATGNAAHFDVYILSDSYNPDICVAEQKAWMELIAEVQGEGQIFYRRRRRRMKR 323
Query: 1840 XSGNIDDFCRRWGSQYSYMVILDADSVMSGECLTGLVRLMEANPNAGIIQSAPKASGMDT 2019
SGNIDDFCRRWG+QYSYMV+LDADSVMSGECL+GLVRLMEANPNAGIIQS+PKASGMDT
Sbjct: 324 KSGNIDDFCRRWGNQYSYMVVLDADSVMSGECLSGLVRLMEANPNAGIIQSSPKASGMDT 383
Query: 2020 LYARIQQFATRVYGPLFTAGLHYWQLGESHYWGHNAIIRVKPFIEHCALAPLPGEGSFAG 2199
LYAR QQFATRVYGPLFTAGLH+WQLGESHYWGHNAIIRVKPFIEHCALAPLPGEGSFAG
Sbjct: 384 LYARCQQFATRVYGPLFTAGLHFWQLGESHYWGHNAIIRVKPFIEHCALAPLPGEGSFAG 443
Query: 2200 SILSHDFVEAALMRRAGWGVWIAYDLPGSYEELPPNLLDELKRDRRWCHGNLMNFRLFLV 2379
SILSHDFVEAALMRRAGWGVWIAYDLPGSYEELPPNLLDELKRDRRWCHGNLMNFRLFLV
Sbjct: 444 SILSHDFVEAALMRRAGWGVWIAYDLPGSYEELPPNLLDELKRDRRWCHGNLMNFRLFLV 503
Query: 2380 KGMHPVHRAVFLTGVMSYLSAPLWFMFLVLCTALQAVHTLMEPQYFLQPRQLFPVWPQWR 2559
KGMHPVHRAVFLTGVMSYLSAPLWFMFL L TALQ VH L EPQYFLQPRQLFPVWPQWR
Sbjct: 504 KGMHPVHRAVFLTGVMSYLSAPLWFMFLALSTALQVVHALTEPQYFLQPRQLFPVWPQWR 563
Query: 2560 PELAIGLFSTTXXXXXXXXXXXXXXXWAKGAKEYGGXXXXXXXXXXXXXFSVLLAPVRML 2739
PELAI LF++T W KG KEYGG FSVLLAPVRML
Sbjct: 564 PELAIALFASTMVLLFLPKLLSIMLIWCKGTKEYGGFWRVTLSLLLEVLFSVLLAPVRML 623
Query: 2740 FHTVFVVSAFLGWSVQWNSPQRDDDATPWSEAMVRHGSQXXXXXXXXXXXXXXDLRFLWW 2919
FHTVFVVSAFLGW V WNSPQRDDD+TPW EA +RHGSQ DLRFL+W
Sbjct: 624 FHTVFVVSAFLGWEVVWNSPQRDDDSTPWGEAFMRHGSQLLLGLVWAVGMAWLDLRFLFW 683
Query: 2920 LSPXXXXXXXXXXXXXXXXRRTLGMASKRAKLFLIPEEYNPPRELLATEEYLELNHQRAL 3099
L+P R T+G+ +KR KLFLIPEEY+PP+ L+ T++YLE+N +R L
Sbjct: 684 LAPIVFSLILSPFVSVISSRSTVGLRTKRWKLFLIPEEYSPPQVLVDTDKYLEMNRRRIL 743
Query: 3100 SNGFLHAVMNPSYNALASAMATARHHTRAIIEQVXXXXXXXXXXXGPDKLAKLQRLELLS 3279
+GF+HAV NPS NALA+AMATARH ++E P+KL + +RL LLS
Sbjct: 744 DDGFMHAVFNPSLNALATAMATARHRASKVLEIARDRHVEQALNETPEKLNRDRRLVLLS 803
Query: 3280 DPVLISRLHQQVWQQPEQYQIWNGYYRQLAHNMKA 955
DPV ++RLH +VW PE+Y W +Y+ L N +A
Sbjct: 804 DPVTMARLHYRVWNAPERYSSWVNHYQSLVLNPQA 838
На вход была дана нуклеотидная последовательность, поэтому одному элементу нижней строки, соответствует триплет верхней.
Рассматривались только очень похожие последовательности (E-value<0,001). Объекты с высоким уровнем сходства считались гомологами.
Было найдено 4 находки с заданным параметром e-value<0.001
... | ... | ... | e-value |
Q8ZQ26 | OPGH_SALTY | Glucans biosynthesis glucosyltransferase H | 0.0 |
P67557 | OPGG_SALTY | Glucans biosynthesis protein G precursor | e-126 |
Q8ZPB3 | OPGD_SALTY | Glucans biosynthesis protein D precursor | 6e-45 |
Q7CQR7 | Q7CQR7_SALTY | Putative outer membrane lipoprotein | 1e-26 |
o [=>ген Q8ZQ26 955..3384]
o [=>ген P67557 3..824]
o [=>ген Q8ZPB3 6..809]
o [=>ген Q7CQR7 3712..3921]
Имена соответствующих генов:
• mdoH
• mdoG
• mdoD
• yceK
UniProtKB |
ID |
Description |
UniProtKB:OPGD_SALTY |
OPGD_SALTY |
Glucans biosynthesis protein D precursor. |
UniProtKB:OPGG_SALTY |
OPGG_SALTY |
Glucans biosynthesis protein G precursor. |
UniProtKB:OPGH_SALTY |
OPGH_SALTY |
Glucans biosynthesis glucosyltransferase H (EC 2.4.1.-). |
UniProtKB:Q7CQR7_SALTY |
Q7CQR7_SALTY |
Putative outer membrane lipoprotein. |
Гипотетические гены во фрагменте 21001-25001
5'-[=>ген P67557, 3......824]--[=>ген Q8ZQ26, 955..3384]--[=>ген Q7CQR7, 3712..3921]---—3’
[=>ген Q8ZPB3 6..809]
3'--------------------------------------------------------------------------------------5'
где значки => и <= обозначают прямую или комплементарную цепь ДНК соответственно.
Назовем участки исследуемого фрагмента по имени гомологичного белка, для начала найдем что это за белки.
Введем запрос к SRS для получения соотвествующих белков предполагаемых генов в UniProt.
Результаты можно увидеть ниже.
EMBL ID Description
EMBL:AE008750 AE008750 Salmonella typhimurium LT2, section 54 of 220 of the complete genome.
EMBL:AE008771 AE008771 Salmonella typhimurium LT2, section 75 of 220 of the complete genome.
Запрос с помощью команды LINK:
"((((((([uniprot-AccNumber:Q8ZQ26*]|[uniprot-AccNumber: P67557*])|[uniprot-AccNumber: Q8ZPB3*])|[uniprot-AccNumber:Q7CQR7*]) > EMBL )"казанные гены в найденных записях EMBL
AC находки в БД UniProt | EMBL:AE008750 | EMBL:AE008771 |
Q8ZQ26 | Gene mdoH 1734..4277 | - |
P67557 | Gene mdoG 110..1741 | - |
Q8ZPB3 | - | Gene ydcG 11567..13240 complement |
Q7CQR7 | Gene yceK 4341..4578 | - |
В первой находке длина гена и кодирующей последовательности совпадают, а во второй находке кодирующая последовательность меньше (206..1741)
Третью находку пришлось искать по имени локуса гена mdoD-STM1622.
В результате был найден документ AE008771 в embl, но имя гена в данной находке оказалось ydcG,
при этом cds белка меньше на 6 кодонов: complement(11567..13222).
В последней находке кодирующая последовательность короче на 10 нуклеотдов (4351..4578)
Гены Salmonella typhimurium LT2, полученные из записей EMBL 110-13240
5'-[=>ген mgoG, 110..1741]---------[=>ген yceK,4351..4578]-------------------------------—3’
[=>ген mdoH, 1734..4277]
3'----------------------------------------------------------[<=ген ydcG,11567..13240]-----5'
Выводы:
Можно заметить, что расположения гипотетических и "реальных" генов находится в том же самом порядке, кроме того, за исключением генов, кодирующих белок Q8ZPB3, которые лежат на разных цепях, все остальные лежат на прямой цепи. Вторая и третья находки P67557 и Q8ZPB3 стоят под вопросом. И не совсем ясно какая из них будет считаться находкой, а какая нет. Дело в том, что один ген не может кодировать два белка, что мы видим на примере в организме Yersinia intermedia .
Разница в длине гипотетических и "реальных генов" в первом и втором случае составляет соответственно 714,1741,114,18 нуклеотидов. Возможно, большая разница в длине генов в первом и во втором случае может объясняться работой использовавшейся программы, так как BLASTX строит локальные выравнивания. Также следует обратить внимание и на разницу в промежутках в первом и во втором случае, они не совпадают (и длина, и координаты различны).
Интересно заметить, что рамки перекрывания в исследуемом фрагменте не совпадают с таковыми в организме Yersinia intermedia, более того ген Q8ZPB3 находится внутри гена P67557, а ген mdoH просто перекрывает ген mdoG.
На главную
На страницу третьего семестра
©Вахрушева Анна Алексеевна