Для выполнения заданий данного практикума будет использована бактерия Succinivibrio dextrinosolvens, выбранная для практикума 8 во втором семестре. Белки ее протеома, скаченные в формате swiss, были сохранены на kodomo.
Для получения строк, содержащих TaxID организма был использован конвейер:
grep -e 'TaxID' UP000242432.swiss | cut -d ' ' -f4 | sort -u | less.
Для получения списка сборок, соответствующих данному таксону, был использован конвейер
esearch -db assembly -query "Succinivibrio dextrinosolvens DSM 3072" | efetch -format docsum | xtract -pattern DocumentSummary -element AssemblyAcces sion,TaxId,Title
Далее для скачивания последовательности и feature table была использована команда:
datasets download genome accession GCF_900167015.1 --include genome,gff3 --filename my_genome_data.zip
Чтобы узнать, какой вариант генетического кода использует исследуемый организм была скачана таблица с информацией о таксоне из базы NCBI Тaxonomy
efetch -db taxonomy -id 1123324 -format xml > data.xml
Далее для получения открытых рамок считывания была использована команда:
getorf -sequence GCF_900167015.1_IMG-taxon_2585428075_annotated_assembly_genomic.fna -outseq seq_frames.fna -minsize 150 -table 11
infoseq -sequence seq_frames.fna -only -length | sort -u -n | less
makeblastdb -in orfs.fasta -out ORFs -dbtype prot -parse_seqids
Для получения последовательностей гомологичных метилтрансфераз был cоздан промежуточный файл с целевыми последовательностями:
echo -e 'sw:P0AED9\nsw:P0AEE8\nsw:P23941' | tr ' ' '\n' > temp_ids.txt && seqret @temp_ids.txt query_MTases.fasta -osformat fasta && rm temp_ids.txt
Поиск по сходству последовательностей выполнялся с помощью команды:
blastp -query query_MTases.fasta -db ORFs -out blastp.out -outfmt 7
Результаты:
Таблица 1
subject acc.ver | s. start | s. end |
bit score | гомолог |
---|---|---|---|---|
NZ_FUXX01000004.1_428 | 21 | 285 | 143 | m6A |
С помощью команд bash был получен файл CDS.tsv, содержащий нужные строки и столбцы:
grep NZ_FUXX01000004.1 genomic.gff | grep CDS | cut -f4,5,7,9 > CDS.tsv
echo -e '68642\t69532\t-\tORFs' | cat - CDS.tsv | sort -n | grep -C 3 'ORFs' > neighbors.tsv
Также был проведен поиск по аннотации кодирующих участков в геноме:
elink -target protein -db nuccore -id NZ_FUXX01000004.1 | efilter -query '2.1.1.72' | efetch -format 'fasta' > step6.fasta
elink -target protein -db nuccore -id NZ_FUXX01000025.1 | efilter -query '2.1.1.37' | efetch -format 'fasta' >> step6.fasta