Практикум №7-9
Нуклеотидные банки данных
Из всех эукариотических организмов я решил выбрать Pan troglodytes (chimpanzee).
Пояснение к параметрам N50 и L50:
N50 — длина такого фрагмента (контига или скэффолда), что фрагменты длиной ≥ N50 в сумме содержат не менее 50% всей длины сборки.
L50 — минимальное число фрагментов (контигов или скэффолдов), суммарная длина которых составляет не менее 50% всей сборки.
Чем выше значение N50 и меньше L50 — тем лучше качество сборки (геном представлен более длинными и цельными последовательностями).
Идентификатор GenBank Идентификатор RefSeq Уровень сборки генома Общий размер генома (п.н.) Число фрагментов генома в сборке Параметры N50 и L50 (контиги / скэффолды)
GCA_028858775.3 GCF_028858775.2 Chromosome 3 177 739 762 п.н.; Число контигов: 30, Число скэффолдов: 25 Contigs: N50 = 146 288 486 п.н.; L50 = 9;
Scaffolds: N50 = 146 288 486 п.н.; L50 = 9

Пользуясь расширенным поиском на сайте NCBI, было выяснено:

Пользуясь расширенным поиском сайта ENA, было выяснено:

Поиск ДНК-метилтрансферазы в геноме Halanaeroarchaeum sulfurireducens

На основе практикума 8 была взята всё та же архея Halanaeroarchaeum sulfurireducens, но уже референсная сборка.

Ссылка на страницу протеома

Ссылка на страницу Genome

Идентификатор протеома в UniProt Proteomes: UP000069906

Код доступа GenBank: GCA_001011115.1

Код доступ RefSeq: GCF_001011115.1

Для загрузки последовательности и таблицы локальных особенностей, применил команду:

datasets download genome accession GCF_001011115.1 --include genome,gff3

Распаковка:

unzip ncbi_dataset.zip

Чтобы определить вариант генетического кода, я скачал запись про таксон из NCBI Taxonomy:

esearch -db taxonomy -query "Halanaeroarchaeum sulfurireducens[Scientific Name]" | efetch -format xml > tax.txt

Из строки 'GCId' выяснено, что таблица формата №11.

Поиск открытых рамок считывания производился при помощи команды из пакета EMBOSS:

getorf -sequence GCF_001011115.1_ASM101111v1_genomic.fna -outseq ORFs.faa -table 11 -minsize 150

Опция table - собственно, номер таблицы. Опция minsize указывает минимальное количество нуклеотидов. Т.к. требуется не менее 50 аминокислот, указываем 150 нуклеотидов.

Создание белковой базы:

makeblastdb -in ORFs.faa -dbtype prot -out proteome

Проверочная команда, чтобы убедиться в отсутствии рамок менее 50 а.о.:

infoseq ORFs.faa -only -name -length -nohead | cut -d ' ' -f 2 | grep -E '^[0-4]?[0-9]$' | wc -l

Выбираем только поля name, length, и убираем заголовки в таблице. Вырезаем колонку 2 с длиной, разделитель - пробел. grep для поиска чисел от 0 до 49.

Для скачивания последовательностей белков создал конвейер:

seqret @<(printf "sw:P0AED9\nsw:P0AEE8\nsw:P23941\n") -outseq query.fasta

@< как раз позволяет прочитать сразу несколько адресов из вывода команды, printf выводит текст, внутри кавычек разделяем каждый адрес на новую строку, чтобы seqret получил список адресов с одним на строке, иначе не сработает.

Поиск по сходству последовательностей:

blastp -query query.fasta -db proteome -outfmt 7 -out res.tab

Ссылка на результат blastp

Лучшая находка (47 bit score) - NZ_CP008874.1_20836. Координаты - 421581 - 420454. Эта находка соответствует выравниваю с m4C-Метилтрансферазой Bacillus amyloliquefaciens.

Для нахождения CDS рядом с ORF воспользовался командой:

cut -f 3,4,5,7,9 genomic.gff | grep "^CDS" | cut -f 2,3,4,5 > CDS.tsv

Создался файл-таблица, содержащая первый (название плазмиды), четвёртый, пятый (координаты), седьмой (плюс/минус цепь) и девятый (информация о участке) столбцы строк CDS из таблицы локальных особенностей.

К файлу добавлена строка с ORF и её координатами. Строки были отсортированы по возрастанию, и взяты ближайшие 10 строк к ORF(снизу и сверху)

echo -e '420454\t421581\t-\tFOUND_ORF' >> CDS.tsv

sort -k2,2n CDS.tsv > CDS.sort.tsv

grep -C 5 "FOUND_ORF" CDS.sort.tsv > neighbors.tsv

Ссылка на neighbors.tsv

По выдаче можно сказать, что только одна CDS пересекается с ORF - 4 номер. Она почти полностью лежит в ORF. Код доступа данной CDS - WP_050047764.1. Из аннотации нуклеотидных последовательностей (genomic.gbff) выяснено, что это действительно ДНК-метилтрансфераза.

Попытка найти CDS поиском по аннотациям:

elink -db nuccore -id NZ_CP008874.1 -target protein | efilter -query '2.1.1.113[EC/RN Number]'| efetch -format 'acc' > m4c_proteins.txt

Однако поиск по m4c метилтрансферазе не привёл к ожидаемому результату. Перебрав оставшиеся EC-коды, положительный результат удалось получить по m6a метилтрансферазе (код - 2.1.1.72), код доступа к записи - WP_050049408.1. Эта запись создана на основе второй, гораздо меньшей плазмиды, имеющейся у археи, pHSR2-01.