Solution
1. Найдем потенциальное местоположение старт-кодона гена (приближенно):
fuzznuc -pattern ATG '/P/y20/SARS-CoV-2.fasta[26500:26600]' -stdout Start End Strand Pattern Mismatch Sequence 26523 26525 + pattern:ATG . ATG 26579 26581 + pattern:ATG . ATG
2. Найдем потенциальное местоположение стоп-кодона гена (приближенно):
fuzznuc -pattern TRR '/P/y20/SARS-CoV-2.fasta[27150:27200]' -stdout Start End Strand Pattern Mismatch Sequence 27158 27160 + pattern:ATG . TAG 27164 27166 + pattern:ATG . TGA 27189 27191 + pattern:ATG . TAA 27193 27195 + pattern:ATG . TGA
3. Вычислим и проверим на кратность трем (на принадлежность кодонов к одной рамке считывания) разности значений позиций найденных старт- и стоп-кодонов:
(27158-26523):3=211.666... (27164-26523):3=213.666... (27189-26523):3=222 (27193-26523):3=223.333... (27158-26579):3=193 (27164-26579):3=195 (27189-26579):3=203.333... (27193-26579):3=204.666...
4. Нам подошли 3 варианта:
27189-26523 27158-26579 27164-26579
5. Проверим по базе данных NCBI:
Оказалось, что первые нуклеотиды старт- и стоп-кодона согласуются с позициями 26523 и 27191 соответственно. Задача решена.