Отчет по практикуму 13
Задание 1
1. Старт-кодоны E.coli
ATG 3883
ATT 4
CTG 2
GTG 334
TTC 1
TTG 78
2. Старт-кодоны Candidatus
ACA 1
ATG 1129
GTG 41
TCA 1
TCT 1
TTG 23
3. Старт-колоны Mycoplasma
ACC 2
ATA 2
ATC 3
ATG 634
ATT 4
CTG 4
GTG 62
GTT 1
TTA 2
TTG 40
Задание 2
- У E.coli имеется 3 последовательности, содержащий стоп-кодон не на последней позиции.
Первая - lcl|U00096.3_cds_249 [gene=insN] [locus_tag=b4587] [db_xref=ASAP:ABE-0285253,ECOCYC:G6130] [protein=CP4-6 prophage; IS911A regulator fragment] [pseudo=true] [location=join(270278..270540,271764..272190)] [gbkey=CDS]
Судя по описанию, это псевдоген, то есть он содержит участок, являющийся частью другой последовательности
Вторая - lcl|U00096.3_cds_AAD13438.1_1457 [gene=fdnG] [locus_tag=b1474] [db_xref=UniProtKB/Swiss-Prot:P24183] [protein=formate dehydrogenase N subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13438.1] [location=1547401..1550448] [gbkey=CDS]
Третья - lcl|U00096.3_cds_AAD13456.1_3815 [gene=fdoG] [locus_tag=b3894] [db_xref=UniProtKB/Swiss-Prot:P32176] [protein=formate dehydrogenase O subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13456.1] [location=complement(4082772..4085822)] [gbkey=CDS]
Четвертая - lcl|U00096.3_cds_AAD13462.1_3987 [gene=fdhF] [locus_tag=b4079] [db_xref=UniProtKB/Swiss-Prot:P07658] [protein=formate dehydrogenase H] [transl_except=(pos:418..420,aa:Sec)] [protein_id=AAD13462.1] [location=complement(4297219..4299366)] [gbkey=CDS]
Остальные последовательности содержат в себе невероятную аминокислоту, которая, кто бы мог подумать, кодируется стоп-кодоном! Она называется селеноцистеин, обладает и другими уникальными особенностями, но важно, что в практике описаний последовательности обозначается через Sec в составе сообщения о каком-то исключении (translation exception).
Задание 3
1. E.coli
TGA 1241
TAA 2756
TAG 303
2.Candidatus
TGA 1
TAA 1000
TAG 188
3. Mycoplasma
TGA 0
TAA 531
TAG 210
У Mycoplasma pneumoniae, на самом деле, встречаются триплеты TGA, просто они участвуют не в терминации синтеза mRNA, а кодируют аминокислоту триптофан [1]. Если попробовать отыскать такие участки, то вяснится, что в данном геноме они встречаются 5189 раз, но ни разу на последней позиции в гене. Что же касается Candidatus Gracilibacteria bacterium, то по проведенным вычислениям TGA в качестве стоп-корона встречается лишь раз, но, дело в том, что последовательность, в которой это имеет место, - псевдоген, что, надо полагать (тут я не уверен и был бы рад комментарию), не является значимым случаем. Дело в том, что у Candidatus Gracilibacteria bacterium эта последовательность нуклеотидов транскрибируется как глицин.[2] И действительно встречается не в терминальных позициях (12442 раз)
Задание 4
1. E.coli
- СTT 14719 (10,31%)
- CTC 14926 (10,45%)
- CTA 5201 (3,64%)
- CTG 71189 (49,85%)
- TTA 18484 (12,94%)
- TTG 18283 (12,8%)
2. Candidatus Gracilibacteria bacterium
- СTT 8053 (18,02%)
- СTC 4491 (10,05%)
- CTA 4861 (10,88%)
- CTG 4147 (9,28%)
- TTA 15077 (33,75%)
- TTG 8048 (18,01%)
3. Mycoplasma pneumoniae
- СTT 5267 (17,61%)
- СTA 2168 (7,25%)
- CTC 3619 (12,1%)
- CTG 3220 (10,76%)
- TTA 8959 (29,95%)
- TTG 6679 (22,33%)
Предположений у меня нет, но я почитал про возможные причины этого. Интересная теория насчет GC-состава последовательности, потому что действительно может быть отдано предпочтение этим нуклеотидам, которые повышают устойчивость ДНК в растворах. Но, вроде, в нашем случае это подтверждается только на примере E.coli (потому что доля CTG, содержащего две "крепкие" пары, наибольшая+10,5% СТС, в которой тоже две таких пары), но в двух других преобладают кодоны с тимином, причем ТТА даже больше, чем ТТG, в котором есть хотя бы одна "крепкая" п.н.. Возможно, что они отдали предпочтение в своей эволюции не более стабильному варианту, а тому, на котором легче проводить реакции матричного синтеза. Потому что, полагаю, легче разорвать двойные водродные связи, нежели тройные. Может быть, это что-то говорит о разнице в образах их жизни. Имеется в виду, что бактерии 2 и 3 делятся чаще, чем первая, или синтезируют больше РНК?
Задание 5
- Минимум - 0,046 (точка начала репликации. При поиске на сайте напротив oriC написано rep_origin, то есть replication origin)
- Максимум - 228,843 (точка остановки репликации)
Задание 6
Я не до конца, кажется, понял, что подразумевалось под учетом ориентации последовательности, так что просто использовал тот факт, что в некоторых случаях не сразу дают координаты рамки считывания, а еще указывают, что это на комплементарной цепи (+там еще возникает join иногда и некая запись вида <ЧИСЛО..ЧИСЛО>). То есть я не строил комплементарную цепочку для таких случаев, но если нужно, сделаю, потому что это, в общем, несложно добавить в программу. Ну и из более обширных проверок откидывал те последовательности, в описании которых было pseudo. (Описываю свои действия, чтобы можно было понять, что я сделал не так, если что)
У кишечной палочки в топ-5 вошли AAGGAG (179), TAAGGA (151), AGGAGA (132), AAAGGA (125) и CAGGAG (124)
У Candidatus Gracilibacteria bacterium TTTTTT (226), TTTTTA (160), AAAAAA (148), TAAAAA (134), AAATAA (129) и ATTTTT (127)
У Mycoplasma pneumoniae TTTAAA (45), AATTAA (40), ATTAAA (33), AAAGGA (32), ATTTAA (31)
Если посмотреть на процентное содержание таких 6-меров, то самый большой показатель у TTTTTT второй бактерии - 1,54%, остальные еще меньше.
Ну, получается, что у второй и третьей бактерии в топе, в основном, комбинации A и Т, хотя и гуанин тоже встречается у третьей, а вот у E.coli число G и С увеличивается. Надо сказать, что это, в целом, соотносится с 4 заданием, где у кишечной палочки преобладают варианты кодонов с G или C, тогда как у остальных с T и А. Если я правильно понял тогда, то по GC составу некодирующих областей, в целом, можно предсказывать предпочтение в кодонах кодирующей части. Думаю, что это можно сделать усмотреть.
Чем объяснить, не знаю. Но приведу старую догадку о том, что это может быть связано с процессами репкликации ДНК, ну или более общо с реакциями матричного синтеза на ДНК, которые требуют разрыва спирали на две цепочки.
(Тут надо было обратить внимание на повторяемость части последовательности Шайна-Дальгарно)
Источники информации
1.https://www.ncbi.nlm.nih.gov/pmc/articles/PMC208464/?page=1