Kodomo

Пользователь

Отчет по практикуму 13

Задание 1

1. Старт-кодоны E.coli

ATG 3883

ATT 4

CTG 2

GTG 334

TTC 1

TTG 78

2. Старт-кодоны Candidatus

ACA 1

ATG 1129

GTG 41

TCA 1

TCT 1

TTG 23

3. Старт-колоны Mycoplasma

ACC 2

ATA 2

ATC 3

ATG 634

ATT 4

CTG 4

GTG 62

GTT 1

TTA 2

TTG 40

Задание 2

Первая - lcl|U00096.3_cds_249 [gene=insN] [locus_tag=b4587] [db_xref=ASAP:ABE-0285253,ECOCYC:G6130] [protein=CP4-6 prophage; IS911A regulator fragment] [pseudo=true] [location=join(270278..270540,271764..272190)] [gbkey=CDS]

Судя по описанию, это псевдоген, то есть он содержит участок, являющийся частью другой последовательности

Вторая - lcl|U00096.3_cds_AAD13438.1_1457 [gene=fdnG] [locus_tag=b1474] [db_xref=UniProtKB/Swiss-Prot:P24183] [protein=formate dehydrogenase N subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13438.1] [location=1547401..1550448] [gbkey=CDS]

Третья - lcl|U00096.3_cds_AAD13456.1_3815 [gene=fdoG] [locus_tag=b3894] [db_xref=UniProtKB/Swiss-Prot:P32176] [protein=formate dehydrogenase O subunit alpha] [transl_except=(pos:586..588,aa:Sec)] [protein_id=AAD13456.1] [location=complement(4082772..4085822)] [gbkey=CDS]

Четвертая - lcl|U00096.3_cds_AAD13462.1_3987 [gene=fdhF] [locus_tag=b4079] [db_xref=UniProtKB/Swiss-Prot:P07658] [protein=formate dehydrogenase H] [transl_except=(pos:418..420,aa:Sec)] [protein_id=AAD13462.1] [location=complement(4297219..4299366)] [gbkey=CDS]

Остальные последовательности содержат в себе невероятную аминокислоту, которая, кто бы мог подумать, кодируется стоп-кодоном! Она называется селеноцистеин, обладает и другими уникальными особенностями, но важно, что в практике описаний последовательности обозначается через Sec в составе сообщения о каком-то исключении (translation exception).

Задание 3

1. E.coli

TGA 1241

TAA 2756

TAG 303

2.Candidatus

TGA 1

TAA 1000

TAG 188

3. Mycoplasma

TGA 0

TAA 531

TAG 210

У Mycoplasma pneumoniae, на самом деле, встречаются триплеты TGA, просто они участвуют не в терминации синтеза mRNA, а кодируют аминокислоту триптофан [1]. Если попробовать отыскать такие участки, то вяснится, что в данном геноме они встречаются 5189 раз, но ни разу на последней позиции в гене. Что же касается Candidatus Gracilibacteria bacterium, то по проведенным вычислениям TGA в качестве стоп-корона встречается лишь раз, но, дело в том, что последовательность, в которой это имеет место, - псевдоген, что, надо полагать (тут я не уверен и был бы рад комментарию), не является значимым случаем. Дело в том, что у Candidatus Gracilibacteria bacterium эта последовательность нуклеотидов транскрибируется как глицин.[2] И действительно встречается не в терминальных позициях (12442 раз)

Задание 4

1. E.coli

2. Candidatus Gracilibacteria bacterium

3. Mycoplasma pneumoniae

Предположений у меня нет, но я почитал про возможные причины этого. Интересная теория насчет GC-состава последовательности, потому что действительно может быть отдано предпочтение этим нуклеотидам, которые повышают устойчивость ДНК в растворах. Но, вроде, в нашем случае это подтверждается только на примере E.coli (потому что доля CTG, содержащего две "крепкие" пары, наибольшая+10,5% СТС, в которой тоже две таких пары), но в двух других преобладают кодоны с тимином, причем ТТА даже больше, чем ТТG, в котором есть хотя бы одна "крепкая" п.н.. Возможно, что они отдали предпочтение в своей эволюции не более стабильному варианту, а тому, на котором легче проводить реакции матричного синтеза. Потому что, полагаю, легче разорвать двойные водродные связи, нежели тройные. Может быть, это что-то говорит о разнице в образах их жизни. Имеется в виду, что бактерии 2 и 3 делятся чаще, чем первая, или синтезируют больше РНК?

Задание 5

Задание 6

Я не до конца, кажется, понял, что подразумевалось под учетом ориентации последовательности, так что просто использовал тот факт, что в некоторых случаях не сразу дают координаты рамки считывания, а еще указывают, что это на комплементарной цепи (+там еще возникает join иногда и некая запись вида <ЧИСЛО..ЧИСЛО>). То есть я не строил комплементарную цепочку для таких случаев, но если нужно, сделаю, потому что это, в общем, несложно добавить в программу. Ну и из более обширных проверок откидывал те последовательности, в описании которых было pseudo. (Описываю свои действия, чтобы можно было понять, что я сделал не так, если что)

У кишечной палочки в топ-5 вошли AAGGAG (179), TAAGGA (151), AGGAGA (132), AAAGGA (125) и CAGGAG (124)

У Candidatus Gracilibacteria bacterium TTTTTT (226), TTTTTA (160), AAAAAA (148), TAAAAA (134), AAATAA (129) и ATTTTT (127)

У Mycoplasma pneumoniae TTTAAA (45), AATTAA (40), ATTAAA (33), AAAGGA (32), ATTTAA (31)

Если посмотреть на процентное содержание таких 6-меров, то самый большой показатель у TTTTTT второй бактерии - 1,54%, остальные еще меньше.

Ну, получается, что у второй и третьей бактерии в топе, в основном, комбинации A и Т, хотя и гуанин тоже встречается у третьей, а вот у E.coli число G и С увеличивается. Надо сказать, что это, в целом, соотносится с 4 заданием, где у кишечной палочки преобладают варианты кодонов с G или C, тогда как у остальных с T и А. Если я правильно понял тогда, то по GC составу некодирующих областей, в целом, можно предсказывать предпочтение в кодонах кодирующей части. Думаю, что это можно сделать усмотреть.

Чем объяснить, не знаю. Но приведу старую догадку о том, что это может быть связано с процессами репкликации ДНК, ну или более общо с реакциями матричного синтеза на ДНК, которые требуют разрыва спирали на две цепочки.

(Тут надо было обратить внимание на повторяемость части последовательности Шайна-Дальгарно)

Источники информации

1.https://www.ncbi.nlm.nih.gov/pmc/articles/PMC208464/?page=1

2.https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4032931/

Users/mlmisha/12 (последним исправлял пользователь mlmisha 2022-02-09 17:37:00)