Задание 1. Информация о геноме Thermus thermophilus HB8
Идентификатор протеома: UP000000532 - по работе из 2 семестра
Ссылка на страницу Genome - по коду доступа GenBank
Код доступа GenBank: GCA_000091545.1 - находится в аннотации записи на сайте UniProt Proteomes
Код доступа RefSeq: GCF_000091545.1 - находится в аннотации записи на сайте NCBI Genomes
Задание 2. Скачивание последовательности генома и таблицы локальных особенностей
При помощи следующей команды я скачал последовательность геном и таблицу локальных особенностей
datasets download genome accession GCF_000091545.1 --filename GCF_000091545.1.zip --include gff3,genome
Затем я распаковал архив командой:
unzip GCF_000091545.1.zip
В итоге у меня получилось два файла:
1) GCF_000091545.1_ASM9154v1_genomic.fna — последовательность генома
1) genomic.gff — таблица локальных особенностей в формате GFF3
Задание 3. Поиск и трансляция открытых рамок считывания
TaxID: 300852 - был найден в NCBI/datasets/taxonomy
Я использовал команду:
efetch -db taxonomy -id 300852 -mode xml > tax.xml
Было выяснено, что архея использует генетический код под номером 11 - стандартный генетический код бактерий, архей и растительных пластид.
Затем при помощи команды я получил открытые рамки считывания, длиной больше 50-ти аминокислот и заключенные между двумя стоп-кодонами:
getorf GCF_000091545.1_ASM9154v1_genomic.fna -table 11 -minsize 150 ORF.out
Затем я использовал infoseq, чтобы удостовериться в том, что длина всех открытых рамок считывания больше или равняется 50. Я использовал команду, которая выводит уникальные длины в а.о. открытых рамок считывания:
infoseq ORF.fasta -filter -only -length | sort -n | less
Затем я создал базу данных с названием proteome при помощи команды makeblastdb:
makeblastdb -in ORF.fasta -dbtype prot -out proteome
Задание 4. Получение последовательностей гомологичных метилтранфераз
Затем при помощи данного конвейера я получил файл с тремя последовательностями белка формата FASTA:
echo " sw:P0AED9 sw:P0AED9 sw:P23941" | tr ' ' '\n' | seqret @stdin -osformat2 fasta -filter -out query.fasta
Задание 5. Поиск по сходству последовательностей.
При помощи команды blastp мною были найдено 14 находок:
4 для m5C-МТаза E.coli — P0AED9
4 для m6A-МТаза E.coli — P0AEE8
6 для m4C-МТаза Bacillus amyloliquefaciens — P23941
Для этого я использовал следующую команду:
blastp -db proteome -query query.fasta -outfmt 7 -out blastp.out
Из всех находок лучшую находку я выбрал по наибольшему bits score, так как этот показатель расчитывается вне зависимости от длины запроса.
Этой находкой оказалась открытая рамка считывания с номером NC_006461.1_2093 и bits score равным 53.1, где в качестве запроса использовалась m4C-МТаза Bacillus amyloliquefaciens. Для того, чтобы найти координаты находки использовал команду:
grep NC_006461.1_2093 ORF.fasta | less
Затем при помощи конвейера я создал таблицу CDS.tsv. Она содержит кодирующие последовательности только хромосомы 1, на которой была найдена лучшая находка. Также таблица содержит только столбцы с наименьшей и наибольшей координатой кодирующей последовательности, типом цепи и дополнительной информацией:
cat genomic.gff | cut -f 1,4,5,7,9 | grep "^NC_006461.1" | cut -f 2-4 > CDS.tsv
Затем используя, конвейер, который был дан в задании, я создал файл neighbors.tsv:
echo -e '387464\t389260\t-\tFOUND-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'FOUND-ORF' > neighbors.tsv
С моей рамкой считывания (387464 - 389260 нуклеотиды) пересеклось сразу 2 CDS: pseudouridine synthase (387447 - 388373) и DNA-methyltransferase (388370 - 389263). ДНК-метилтрансфераза WP_011227916.1 является нужной нам находкой. При этом первая половина открытой рамки считывания пересекается почти полностью с CDS псевдоуридинсинтазы, а вторая половина пересекается полностью с CDS ДНК-метилтранферазой. Координаты конца рамки считывания и конца CDS ДНК-метилтрансферазы имеют разницу в три 3 нуклеотида, что объясняется, скорее всего, тем, что в CDS включен стоп-кодон, а в ORF нет.
Задание 6. Поиск по аннотации кодирующих участков
Моей находке с m4C Bacillus amyloliquefaciens соответствует EC-код фермента 2.1.1.113. При поиске при помощи данного конвейера было найдено ноль находок:
elink -db nuccore -id 'NC_006461' -target 'protein' | efilter -query '2.1.1.113[ECNO]' | efetch -format acс
Поиск по 2.1.1.72 и по 2.1.1.37 также не дал никаких результатов. Затем я решил найти аннотацию моей ДНК-метилтранферазы при помощи следующего конвейера:
efetch -db protein -id WP_011227916.1 -format est | less
EST - это фрагмент мРНК, который используется для идентификации генов. Формат EST содержит подробную информацию о белке, включая его особенности (можно было использовать -format ft), в которых обычно содержится ферментативная классификация. Однако оказалось, что аннотация белка неполная и не содержит в себе информацию о EC-коде фермента.