Для выполнения задания был выбран геном бактерии Streptomyces collinus, протеом которой изучался в pr8 семестра 2.
Идентификатор протеома: UP000015423
AC GenBank: GCA_000444875.1
AC RefSeq: GCF_000444875.1
Для загрузки таблицы локальных особенностей в формате GFF3 использовалась следующая команда:
datasets download genome accession GCF_000444875.1 --include genome,gff3
Информация про тип генетического кода, используемого организмом, была получена из записи про таксон из базы NCBI Taxonomy с помощью конвейера:
esearch -db 'taxonomy' -query 'Streptomyces collinus[Scientific Name]' | efetch -format 'xml'
Таблица генетического кода бактерии имеет номер 11 (поле GeneticCode), что соответствует распространенному среди бактерий и архей варианту генетического кода. К его особенностям относят возможность старта трансляции с GUG и UUG, а также, в редких случаях, старт с AUU.
Поиск открытых рамок считывания производился программой getorf из EMBOSS:
getorf -sequence ncbi_dataset/data/GCF_000444875.1/GCF_000444875.1_ASM44487v1_genomic.fna -table 11 -minsize 150
Правильость работы программы проверялась с помощью infoseq:
infoseq -sequence orf_output -only -length | sort -n | head -n 20
В выдаче присутствовали длины последовательностей не менее 50, значит getorf сработала верно
Далее, была создана белковая база данных по последовательностям трансляций:
makeblastdb -in orf_output -dbtype prot -out proteome
Последовательности ДНК-метилтрансфераз были скачаны с помощью конвейера из программ seqret и tr:
echo 'sw:P0AED9 sw:P0AEE8 sw:P23941' | tr " " "\n" | seqret -filter @stdin -outseq query.fasta
С помощью локального blast было произведено выравнивание по базе proteome запроса query.fasta:
blaedstp -query query.fasta -db proteome -outfmt 7 -out blastp_output.txt
Как видно из выдачи, лучшей по весу находкой является NC_021985.1_23183 - гомолог m4C-МТазы (координаты в геноме: 4839429 - 4840391).
Затем, была получена таблица из CDS исследуемой бактерии, а затем были найдены соседние с находкой CDS:
grep 'CDS' ncbi_dataset/data/GCF_031348265.1/genomic.gff | cut -f 4,5,7,9 > CDS.tsv
echo -e '4839429\t4840391\t-\tFOUND-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'FOUND-ORF' > neighbors.tsv
Ген, наиболее сильно пересекающийся с координатами находки имеет координаты 4839615 - 4840394 и кодирует белок, имеющий метилтрансферазную активность (methyltransferase activity).
Проверка возможности поиска белка из предыдущего задания по аннотированным последовательостям проводилась с помощью следующего конвейера:
elink -db nuccore -id 'NC_021985.1' -target 'protein' | efilter -query '2.1.1.72[EC/RN Number]' | efetch -format 'acc'
Поиск производился по EC всех трех метилтрансфераз. CDS, соответствующие находке, найти не удалось.