Перед тем, как начать работу с практикумом я скачала для своего прошлосеместрового организма (Streptomyces globosus) файл с протеомом при помощи команды:
Изначально этот прекрасный файл заархивирован, поэтому пришлось прибегнуть к распаковке следующим образом (у меня Linux):
После этих действий началась работа непосредственно в рамках практикума.
Для начала необходимо найти генмную сборку, соответствующую моему протеому. Для начала, надо было найти TaxID моего организма; была выполнена следующая программа в терминале:
На выходе я получила: 6315 NCBI_TaxID=68209.
Далее по TaxID нужно было увидеть все возможные геномные сборки организма, что было получено при помощи следующей команды:
Для работы я выбрала самую верхнюю сборку (потому что она самая лучшая) GCF_039529415.1.
Затем нужно было скачать геном и таблицу локальных особенностей для моего организма. Для этого я использовала следующую команду:
После загрузки архив с файлами надо распаковать с помощью следующей программы:
После распаковки в моей рабочей директории term3/pr9 появились следующие файлы: md5sum.txt README.md и директория ncbi_dataset, которая оказалась очень полезной для выполнения следующих заданий.
Прежде, чем искать открытые рамки считывания, нужно было определить, какой вариант генетического кода использует моя бактерия (большая вероятность того, что таблица №11, но нужно было удостовериться). Для этого использовалась следующая программа:
Я залезла в полученный файл info.xml и подтвердила своё изначальное предположение.
Затем с помомщью следующей команды были найдены открытые рамки считывания (предварительно из директории ncbi_dataset/data/GCF_039529415.1 был скопирован файл GCF_039529415.1_ASM3952941v1_genomic.fna в рабочую директорию):
Дальше была создана белковая база для blastp с названием ORFs:
По результату программы были получены следующие файлы: ORFs.pdb ORFs.phr ORFs.pin ORFs.pot ORFs.psq ORFs.ptf ORFs.pto.
С помощью программы infoseq из EMBOSS надо было проверить, что среди трансляций нет тех, которые короче 50 а.о.:
Из Swiss-Prot были скачены 3 последовательности ДНК-метилтрансфераз (P0AED9 (Dcm, m5C-МТаза, E.coli), P0AEE8 (Dam, m6A-МТаза, E.coli), P23941 (m4C-МТаза, Bacillus amyloliquefaciens)), которые в следующем запросе будут запросом в программе blastp. Это было выполнено программой, создающей файл query_MTases.fasta с тремя последовательностями:
Поиск по сходству последоватаельностей осуществлялся при помощи blastp, с использованием команды:
Здесь представленна ссылка на файл с находками. Заглянув в него, я увидела, что С DCM_ECOLI было найдено 5 находок, а с DMA_ECOLI и MTB1_BACAM ничего не было найдено.
Самая лучшая находка была с весом - 59.3. Название рамки - NZ_BAAAMT010000041.1_285. У этой находки хороший показатель E-value: 2.35e-09, а её координаты в геноме: 37305-38603.
С использованием координат находки, можно отобрать CDS из таблицы локальных особенностей. Далее нужно было определить с какими CDS пересекается моя лучшая находка, для этого нужно создать файл CDS.tsv, содержащий только CDS из той же нуклеотидной последовательности, что и находка, а также необходимую информацию о них (все данные о CDS были взяты из файла genomic.gff из описанной ранее директории):
После этого были выбраны близлежащие CDS с помощью следующей команды:
Здесь представлен полученный файл. Была найдена 1 CDS WP_344332434.1, кординаты которой пересекаются (37302-38588) с найденной ORF, но они полностью не накладываются.
В завершении, надо попробовать найти CDS, соответствующие моей находке, с помощью поиска по аннотации кодирующих участков в геноме. Для этого были выполнены следующие похожие друг на друга команды:
По результатам данных программ (по факту только первая дала результат) был получен белок WP_344332434.1, который есть и в файле neighbors.tsv.