Этап 1. Получение AC геномной сборки
Во 2 семестре в практикуме 8 я выбрала протеом Dickeya dadantii (strain 3937) (Erwinia chrysanthemi (strain 3937)) из UniProtKB – UP000006859
Чтобы получить AC геномной сборки нужно узнать TaxID выбранного организма, эта информация содержится в файле протеома в поле OX. Для поиска TaxID выполнила конвейер:
zcat UP000006859.swiss.gz | grep ^OX | cut -c17-22 | uniq -c
(более неочевидный конвейер: zcat UP000006859.swiss.gz | grep ^OX | cut -f2 -d '=' | cut -f1 -d ' ' | cut -f1 -d ';'| uniq -cВыдача в обоих случаях:
3324 198628
3324 – число строк (которые содержат TaxID), 198528 – TaxID.
Далее с помощью конвейера выяснила, что у моего организма одна сборка, ее я и выбрала (есть аннотация в RefSeq). AC сборки – GCF_000147055.1
Конвейер:datasets summary genome taxon 198628 --as-json-lines | dataformat tsv genome | vd
Этап 2. Cкачивание последовательности генома и таблицы локальных особенностей
Далее с помощью datasets скачала последовательность генома и таблицу локальных особенностей.
datasets download genome accession GCF_000147055.1 --include genome
datasets download genome accession GCF_000147055.1 --include gff3
Этап 3. Поиск и трансляция открытых рамок считывания
С помощью efetch получила информацию про таксон и вариант таблицы генетического кода из созданного файла taxonomy.xml. У моего организма 11ая таблица.
efetch -db taxonomy -id '198628' -format xml > taxonomy.xml
Поиск открытых рамок считывания проводился с помощью getorf между стоп-кодонами (GCF_000147055.1_ASM14705v1_genomic.fna – файл с последовательностью генома), с условием, что минимальный размер трансляции – 50 аминокислот (после -minsize число 150, так как это минимальное число не аминокислот, а нуклеотидов).
getorf -filter -sequence 'GCF_000147055.1_ASM14705v1_genomic.fna' -outseq 'transl.fasta' -table 11 -minsize 150 -find 0
Провела проверку длины трансляций. Убедилась, что длин меньше 50 аминокислот нет.
infoseq -filter -only -length 'transl.fasta' | sort -n -u | head -n 10
Создала белковую базу для blastp:
makeblastdb -dbtype 'prot' -in transl.fasta -out ORFs
Этап 4. Получение последовательностей гомологичных метилтрансфераз
Скачала из Swiss-Prot 3 последовательности метилтрансфераз: P0AED9 (Dcm, m5C-МТаза, E.coli), P0AEE8 (Dam, m6A-МТаза, E.coli), и P23941 (m4C-МТаза, Bacillus amyloliquefaciens)
echo 'sw:P0AED9,sw:P0AEE8,sw:P23941' |tr ',' '\n'| seqret -filter '@stdin' 'query_MTases.fasta'
Этап 5. Поиск по сходству последовательностей
Выполнила алгоритм blastp для поиска по сходству последователньостей. База ORFs, query_MTases.fasta в качестве запроса.
blastp -query 'query_MTases.fasta' -db 'ORFs' -outfmt 7 -out 'blastp_out.txt'
Лучшая находка по весу (376) и e-value – NC_014500.1_26209 – гомолог m6A-МТазы (E.coli), 26209 – название рамки. Координаты в геноме: 4443961 - 4443122 (REVERSE SENSE).
Отобрала нужные строки и столбцы из таблицы локальных особенностей (столбцы с координатами (4 и 5), с цепью (7), с доп. информацией (9)).
grep 'NC_014500.1' genomic.gff | grep 'CDS' | cut -f4,5,7,9 > CDS.tsv
Далее по координатам находки blastp определила какие CDS из таблицы локальных особенностей генома располагаются рядом.
echo -e '4443122\t4443961\t-\tMY-ORF' | cat - CDS.tsv | sort -n | grep -C 3 'MY-ORF' > neighbors.tsv
Перекрытие по координатам имеет CDS 4443119-4443947, которая (по дополнительной информации из стобца 9) соответствует ДНК-метилтрансферазе (аденин-специфичной). Следовательно выравнивание выдало верную находку.
Этап 6. Поиск по аннотациям кодирующих участков
Теперь нужно проверить можно ли найти CDS, соответствующий (-ие) моей находке, с помощью поиска по аннотации кодирующих участков в геноме.
Проводила поиск по EC-коду фермента, который уже нашла на прошлом этапе (2.1.1.72 (m6A)). В результате был найдет тот же гомолог m6A-МТазы (WP_013319753.1), что и в прошлом пункте. Делаю вывод, что можно делать поиск гомологов как по транслированным рамкам считывания, так и по аннотации кодирующих участков в геноме.
elink -target 'protein' -db 'nuccore' -id 'NC_014500.1'|efilter -query '2.1.1.72'|efetch -format 'fasta'