Решение к Практикуму 1, задание 5
こんにちは! Здесь я представлю свои шаги решения данной задачи. Для неё я, кстати, выбрал ген белка S SARS-CoV-2.
1. Сперва необходимо посмотреть примерные диапазоны нахождения старт- и стоп-кодонов. Для старт-кодона выберем диапазон [21500:21700]. Выполним необходимые команды на сервере kodomo и получим следующий результат. (NB!:Большинство строк, полученных в результате выполнения команд, я вырезал, поставил на их месте ..., так как они избыточны, и оставил только то, что нас интересует.:)
fuzznuc -pattern ATG '/P/y20/SARS-CoV-2.fasta[21500:21700]' -stdout ... ... Start End Strand Pattern Mismatch Sequence 21536 21538 + pattern:ATG . ATG 21563 21565 + pattern:ATG . ATG ... ...
Заметим, что позиции старт-кодонов отличаются в кратное 3 количество раз, поэтому выберем тот, что ближе к началу гена на схеме, т.е. ATG(21563-21565). (имея пока команды из подсказки, можем руководствоваться только такой логикой)
P.S.: как я уже увидел в замечаниях, данный выбор обоснован тем, что между этими кодонами находится TSL последовательность, поэтому первый ATG вырезается, но я не уверен, что, используя методы из подсказки, можно это обнаружить. Возможно, если при выполнении практикума позволительно обращаться к последовательности SARS-CoV-2, то можно руководствоваться и этой логикой.
2. Теперь аналогично найдем и для стоп-кодонов TAA, TAG, TGA (диапазон [25300:25500])
TAA:
fuzznuc -pattern TAA '/P/y20/SARS-CoV-2.fasta[25300:25500]' -stdout ... ... Start End Strand Pattern Mismatch Sequence 25382 25384 + pattern:TAA . TAA 25430 25432 + pattern:TAA . TAA ... ...
TAG:
fuzznuc -pattern TAG '/P/y20/SARS-CoV-2.fasta[25300:25500]' -stdout ... ... # Pattern_name Mismatch Pattern # pattern 0 TAG # # Complement: No ... ...
TGA:
fuzznuc -pattern TGA '/P/y20/SARS-CoV-2.fasta[25300:25500]' -stdout ... ... Start End Strand Pattern Mismatch Sequence 25330 25332 + pattern:TGA . TGA 25333 25335 + pattern:TGA . TGA 25345 25347 + pattern:TGA . TGA 25406 25408 + pattern:TGA . TGA 25436 25438 + pattern:TGA . TGA 25446 25448 + pattern:TGA . TGA ... ...
3. На данном этапе нам нужно найти стоп-кодон, для этого нужно проверить, попадает ли каждый из найденных нами триплета в рамку считывания нашего старт-кодона. Для этого выполним следующее(python 3.8.5):
TAA:
for i in [25384,25432]: print((i-21563+1)/3) 1274.0 1290.0
TGA:
for i in [25332,25335,25347,25408,25438,25448]: print((i-21563+1)/3) 1256.6666666666667 1257.6666666666667 1261.6666666666667 1282.0 1292.0 1295.3333333333333
Для того, чтобы выбрать стоп-кодон, нужно посмотреть, какому кодону соответствует наименьшее целое значение. Здесь это 1274, которому соответствует кодон TAA(25382-25384).
Вывод
Координатами гена S-белка SARS-CoV-2 является [21563:25384]
Вот и всё! Чтобы вернуться назад, нажмите сюда → Назад
P.S.: За что дают бонусы?