В прошлом семестре был исследован протеом Borreliella burgdorferi
Proteome ID: UP000001807
Ссылка на страницу в Proteomes
Код доступа сборки GenBank: GCA_000008685.2
Ссылка на страницу сборки в Genome
Код доступа из RefSeq: GCF_000008685.2
NCBI_TaxID=224326 записан в поле OX в файле UP000001807.swiss.gz (zgrep '^OX' UP000001807.swiss.gz | head -1)
Команды для скачивание геномной сборки и распаковки скачанного архива:
В архиве находится таблица локальных особенностей в формате gff3 и последовательность генома в формате fasta (также файл jsnol с метаданными сборки генома и аннотациями и json со списком файлов и их типов).
Определим, какой вариант генетического кода использует исследуемая бактерия
Borreliella burgdorferi использует таблицу кода 11 (<GeneticCode> <GCId>11</GCId>).
Команды для поиска открытых рамок считывания и получения их трансляции:
Используем таблицу генетического кода 11, -minsize 150 - трансляции не короче 50 аминокислот, -find 0 - рамки между стоп-кодонами.
Создаём по трансляциям белковую базу для blastp
Проверяем, что среди трансляций нет тех, которые короче 50 а.о
Сначала скачаем последовательности белков из Swiss-Prot, с которыми будем проверять сходство
В результате получили файл query.fasta с последовательностями.
Лучшая по весу (28.9 bits) находка: NC_001318.1_435; гомолог - P23941 (m4C-МТаза, Bacillus amyloliquefaciens).
Команда для получения координат находки в геноме:
Координаты: 195678 - 197693
Теперь по координатам находки можно понять какие CDS из таблицы локальных особенностей генома находятся рядом c находкой. Сначала отберём из таблицы локальных особенностей строки и столбцы, которые соответствуют CDS в той же геномной последовательности, что и находка.
Команда для поиска CDS соседних или перекрывающихся с находкой:
В файле neighbors.tsv была найдена CDS, c координатами 195693-197696, белок для этого CDS - guanosine-3',5'-bis(diphosphate) 3'-pyrophosphohydrolase (WP_002657610.1).
Теперь проведём поиск по аннотациям кодирующих участков в геноме по EC-коду 2.1.1.113 m4C (находка гомолог для m4C).
В результате ничего не было найдено.