Поиск гена, кодирующего белок N SARS-CoV-2 (ID:43740575).
Примерные координаты положения старт-кодона ATG – [28200:28400], стоп-кодона – [29600:29800]. Для начала, нужно определить рамку считывания. Для этого я взяла промежуток, в котором не должно оказаться стоп-кодонов – [28400:29600]. По команде fuzznuc -pattern TAA '/P/y20/SARS-CoV-2.fasta[28400:29600]' stdout на сервере kodomo я нашла координаты всех последовательностей стоп-кодона TAA на этом промежутке. Координаты первого нуклеотида каждого триплета при делении на 3 дают остаток 0 или 1. Эти рамки считывания не подходят, значит, искомая рамка считывания – 2.
По команде fuzznuc -pattern ATG '/P/y20/SARS-CoV-2.fasta[28200:28400]' stdout я нашла несколько координат последовательностей ATG на данном промежутке, координаты их первого нуклеотида:28207, 28228, 28274, 28284, 28305, 28359. Координата, которая при делении на 3 дает остаток 2 - 28274 – координата первого нуклеотида необходимого нам старт-кодона.
Аналогичным образом нахожу координаты стоп – кодона (в данном случае просматриваю все 3 стоп кодона: TAA, TAG, TGA). Соответствующие координаты последнего нуклеотида: TAA – 29533, 29695 ; TAG – 29675, 29672, 29769; TGA – 29767. Так как триплет TAA с координатами последнего нуклеотида 29533 находится в последовательности раньше остальных – он и будет искомым стоп-кодоном.
Таким образом, координаты гена белка N – [28274:29533], стоп-кодон - ТАА.
Для проверки полученных результатов я использовала банк генома SARS-CoV-2 https://www.ncbi.nlm.nih.gov/nuccore/NC_045512 .