Практикум №9. EMBOSS, EDirect, NCBI Datasets CLI и blast+
Введение
В данном практикуме отрабатывались навыки работы с базами данных, а также инструментами по анализу и систематизации полученной из них информации.
Непосредственной задачей был поиск ДНК-метилтрансферазы в геноме бактерии Streptomyces collinus по её последовательности и аннотации.
Получение AC геномной сборки и TaxID организма
Перед началом работы используя идентификатор протеома: UP000015423 на странице базы данных UniProt Proteomes, а также базы NCBI Assembly (Datasets Genome) были получены следующие данные:
Код доступа геномной сборки из GenBank (GCA_000444875.1)
Перед дальнейшей работой нужно было определить вариант используемого генетического кода исследуемой бактерией. Для этого с помощью efetch была скачана запись про таксон в базе NCBI Тaxonomy в формате xml:
efetch -db taxonomy -id 1214242 -format xml > output.xml
id был взят со страницы таксона на сайте NCBI. В абзаце GeneticCode было указано значение 11, что соответствует стандартной таблице №11.
Далее используя программу getorf из пакета EMBOSS были найдены открытые рамки считывания и сразу получены их трансляции:
При поиске сходства последовательностей метилтрансфераз в качестве сравниваемого фермента было высказано предположение, что для m4C-МТаза бактерии Bacillus amyloliquefaciens с большей вероятностью обнаружится сходство в последовательностях ферментов. Данный выбор был обоснован большим родством организмов, чем с E.coli.
Для загрузки одним конвеером использовался следующий запрос:
Если оценивать находки по проценту идентичности, тогда лучшей из них является ДНК-цитозин метилтрансфераза E.coli. Однако стоит принять во внимание значения evalue, которые для всех последовательностей являются слишком большими.
Из низкой статистической значимости сходства двух сравниваемых последовательностей следует высокая вероятность случайного появления наблюдаемого уровня сходства. Из этого можно сделать вывод, что последовательности базы данных и схожих с метилтрансферазой последовательности среди белков иследуемой бактерии нельзя считать гомологичными.
В ходе дальнейшей работы были установлены координаты "лучшей" находки:
grep 'NC_021985.1_49758' peptides
А также получена таблица CDS:
grep 'CDS' genomic.gff | cut -f 4,5,7,9 > CDS.tsv
По координатам (6085197 - 6082249) был произведен поиск расположенных рядом CDS
Из выдачи следует, что наиболее перекрывающимся геном является белок-повтор тетратрикопептида системы FxSxx-COOH с координатами (6082414-6085242).
Поиск по аннотациям кодирующих участков
Так же в работе было проверена возможность нахождения "лучшей" находки по аннотированным генам исследуемой бактерии, для чего был сделан запрос entrez: