Данные по моей сборке протеома Vibrio Cholerae:
ID сборки RefSeq: GCF_008369605.1,ссылка на страницу NCBI Datasets Genome
ID сборки GenBank: GCA_008369605.1
ID UniProt Proteomes: UP000322474,ссылка
Для скачивания последовательности генома и таблицы локальных особенностей использовалась команда:
После распаковки полученного архива была получена папка, внутри которой лежат файлы ncbi_dataset/data/GCF_008369605.1/GCF_008369605.1_ASM836960v1_genomic.fna с последовательностью и ncbi_dataset/data/GCF_008369605.1/genomic.gff с таблицой локальных особенностей.
Для начала удостоверимся, какую таблицу генетического кода использует моя бактерия, посмотрим данные про ее таксон.
Эта команда показывает запись о таксоне в Datasets Taxonomy в формате xml. В поле GeneticCode указано 11, то есть классческая таблица.
Далее получим рамки считывания с помощью следующей команды. При этом положим, что длина полученных ORF должна быть больше 150 нуклеотидов, чтобы избавиться от маловероятных вариантов.
Проверим, что длины полученных белков больше 50 аминокислот, с помощью команды:
Все верно, самая маленькая длина белка - 50.
Теперь создадим локальную базу данных этих белков, чтобы по ней в дальнейшем запускать BLAST. Для этого используем следующую команду:
Получим белковые последовательности некоторых метилтрансфераз.
Проведем поиск похожих на наши метилтрансферазы белков по базе данных proteome, созданной нами ранее, с помощью blastp.
Некоторая информация о лучшей находке:
Название рамки: NZ_CP043554.1_830
Координаты в геноме: 238441 - 239271 (получены из файла ORFs.fasta с пом. grep по названию рамки)
Метилтрансфераза: m6A
Вес находки: 2.23e-127
По координатам рамки мы, используя файл с аннотацией, можем найти лежащие рядом CDS. Для этого сначала выберем нужные столбцы в файле с аннотацией (4, 5 - координаты, 7 - цепь, 9 - доп. информация), а затем проведем поиск.
Выдача команды: файл с близкими CDS
Среди прочего обнаружена CDS, первая координата которой совпадает с найденой (238441), а последняя - на 3 больше (239274). Если искать по ID этой CDS (WP_000744680.1) в базе данных, обнаружим белок, являющийся метилтрансферазой. Таким образом, мы смогли найти CDS, соответствующий метилтрансферазе.
Попробуем найти интересующую CDS с помощью поиска по аннотации. Для этого найдем нашу рамку в nuccore, перейдем в соответствующие ей белковые записи, и из белков отберем только те, в аннотации которых есть указание на наш класс фермента. Затем получим коды доступа для этих белков.
Найдено 2 белка: первый - тот же, что мы нашли в предыдущем пункте, второй - так называемый type I restriction-modification system subunit M.