ID: UP000236214.
обоснование его выбора: анализ протеома.
Proteom ID: UP000236214;
NCBI RefSeq assembly: GCF_002897535.1;
GenBank assembly: GCA_002897535.1;
Taxon ID: 1513897.
Чтобы получить последовательность (fasta-формат) и таблицу локальных особенностей (gff3-формат), была использована команда:
Получен zip-архив, распаковав его командой unzip, получили следующие файлы:
Сначала надо определить, какую таблицу генетического кода использует организм. Для этого получим его запись в базе данных taxonomy.
В поле GeneticCode указан 11 вариант генетического кода.
Получим ORF и сразу протранслируем их, а потом получим белковую базау данных по этим ORF:
Проверим, что нет ORF длиною меньше 50:
Получим последовательности ДНК-метилтрансфераз: P0AED9 (E.coli), P0AEE8 (E.coli), P23941 (Bacillus amyloliquefaciens), указаны коды доступа в базе Swiss-Prot.
В качестве запроса последовательности из предыдущего пункта и использая blastp (по базе данных proteome созданной в четвертом пункте) попробуем найти сходные ORF.
Ссылка на выдачу blastp: blast.out.
Далее весь анализ связан с находкой, у которой наибольший вес. Характеристики находки представлены в таблице 1.
| Название рамки | NZ_BDEC01000011.1_22 |
|---|---|
| Предполагаемый гомолог | m4C |
| координаты в геноме* | 9735 - 11342 |
| цепь | + |
*Координаты найдены в описании рамки в файле с рамками
Выберем нужные столбцы из gff-файла (4 и 5 - координаты, 7 - цепь, 9 - доп.иформация) для дальнейшего анализа
Попробуем найти аннотированные CDS близкие к нашей находке:
Близкие CDS: neighbors.tsv.
Найдена СDS на той же цепи, начало не совпадает (мы искали от стоп-кодона, не от старт-кодона), конец на три нуклеотида раньше - стоп-кодон.
В опсиании этой CDS (WP_103103312.1) указано, что белок обладает ДНК-метилтрансферазной активностью.
Используя нашу находку, попробуем найти CDS по наличию в аннотации EC-кода фермента ДНК-метилтрансферазы (2.1.1.113 для m4C).
Найден всего 1 белок, и это WP_103103312.1 из предудщего пункта.