EMBOSS, Entrez Direct, NCBI Datasets
В данном практикуме исследуется геном и протеом бактерии Tenacibaculum finnmarkense. Идентификатор протеома: UP000234556. Ранее был скачен файл, содержащий информацию о белках её протеома в формате swiss: UP000234556.swiss.gz1. Получение AC геномной сборки
Команда для получения содержимого поля TaxID для всех белков протеома:
zgrep NCBI_TaxID UP000234556.swiss.gz| cut -f 4 -d ' '| tr -d '[:alpha:]' | tr -d '='| tr -d '_'Чтобы понять, совпадают ли все значение в этой выдаче была использована команда:
zgrep NCBI_TaxID UP000234556.swiss.gz| cut -f 4 -d ' '| tr -d '[:alpha:]' | tr -d '='| tr -d '_'| sort -uВыдача: 2781243 Таким образом, TaxID Tenacibaculum finnmarkense – 2781243 (значения для всех белков совпадают).
Далее для получения списка геномных сборок была использована следующая команда:
esearch -db assembly -query "2781243" | esummary| xtract -pattern DocumentSummary -element AssemblyAccession,TaxId,Title|sort -uОказалось, что сборок несколько. Чтобы определить, какая из них относится к рассматриваемому протеому, была использована команда, сократившая выдачу до одной сборки:
zgrep 'DR EMBL' UP000234556.swiss.gz | cut -f 5 -d ' '| tr -d ';'| elink -db nuccore -target assembly| esummary| xtract -pattern DocumentSummary -element AssemblyAccession,TaxId,TitleAC геномной сборки: GCA_900239485.
2. Скачивание последовательности генома и таблицы локальных особенностей
Команда для загрузки последовательности генома и feature table (по уже известному AC сборки):
datasets download genome accession GCA_900239485 --include gff3 --include genome --filename tf_genome.zipКоманда для распаковки архива:
unzip tf_genome.zipТаким образом, была создана папка ncbi_dataset, содержащая все нужные файлы.
3. Поиск и трансляция открытых рамок считывания
Чтобы узнать, какой вариант генетического кода у Tenacibaculum finnmarkense, была использована команда:
efetch -db taxonomy -id 2781243 -format xmlВ выдаче содержалась строчка <GCId>11<GCId>, следовательно рассматриваемая бактерия использует таблицу №11.
Команда для поиска открытых рамок считывания и их трансляций:
getorf " GCA_900239485.1_TFHFJT_V1_genomic.fna" -minsize 150 -table 11 -filter >tf_orfGCA_900239485.1_TFHFJT_V1_genomic.fna – файл с геномом Tenacibaculum finnmarkense. tf_orf – создаваемый файл с искомыми аминокислотными последовательностями. Чтобы проверить длину полученных последовательностей была использована команда:
infoseq -only -length tf_orf |sort -n -uВыдача начинается с самой маленькой длины, которая здесь равна 50. Команда для создания базы данных ORFs по полученным последовательностям трансляций:
makeblastdb -in tf_orf -out ORFs -dbtype prot
4. Получение последовательностей гомологичных метилтрансфераз
Нужные ДНК-метилтрансферазы: P0AED9 (Dcm, m5C-МТаза, E.coli) P0AEE8 (Dam, m6A-МТаза, E.coli) P23941 (m4C-МТаза, Bacillus amyloliquefaciens).
Команда для записи AC этих белков в файл prot.txt:
echo 'sw:P0AED9','sw:P0AEE8','sw:P23941'| tr ',' '\n' > prot.txtКоманда для создания файла с нужными последовательностями:
seqret @prot.txt query_MTases.fasta
5. Поиск по сходству последовательностей
По созданной базе данных ORFs с помощью алгоритма blastp был осуществлен поиск фрагментов белковых последовательностей, схожих с ДНК-метилтрансферазами, последовательности которых содержатся в файле query_MTases.fasta. Команда:
blastp -query query_MTases.fasta -db ORFs -out tf_blastp.out -outfmt 7Ссылка на табличную выдачу blastp Характеристики лучшей по весу находки (обнаружено сходство с ДНК-метилтрансферазой P0AED9, то есть m5C): Идентификатор: OEND01000001.1_371 координаты в геноме T. finnmarkense: 184990 - 186342 вес находки: 118 Координаты в геноме были найдены с помощью текстовой выдачи blastp; команда:
blastp -query query_MTases.fasta -db ORFs -out tf_blastp.out1
Чтобы определить, какие CDS из таблицы локальных особенностей генома бактерии располагаются рядом с этой находкой, были использованы следующие команды. Команда для создания файла CDS.tsv, содержащего информацию о CDS, находящихся в той же геномной последовательности, что и интересующая находка:
grep OEND01000001.1 genomic.gff | grep CDS | cut -f4,5,7,9 > CDS.tsvКоманда для поиска участков, которые по координатам наиболее близки или перекрываются с находкой:
echo -e '184990\t186342\t-\tMY-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'MY-ORF' > neighbors.tsvСсылка на файл с найденными соседними CDS. Получилось, что с найденной открытой рамкой пересекается 1 CDS из таблицы локальных особенностей (хотя координаты не совпадают), она соответствует белку с координатами 185116-186345 и protein_id=SOS53667.1; также указано, что кодируемым белком является Cytosine-specific methyltransferase.
6. Поиск по аннотациям кодирующих участков
Команда для поиска CDS а аннотации генома Tenacibaculum finnmarkense (2.1.1.37 – EC-код ДНК-метилтрансферазы m5C):
elink -target protein -db nuccore -id OEND01000001.1 | efilter -query '2.1.1.37' | efetch -format 'fasta'Было найдено 2 белка, одним из которых оказалась указанная в предыдущем пункте ДНК-метилтрансфераза (SOS53667.1).