Главная страница Сергея Соколова

Из всех эукариотических организмов я решил выбрать Pan troglodytes (chimpanzee).

**Пояснение к параметрам N50 и L50:**
• **N50** — длина такого фрагмента (контига или скэффолда), что фрагменты длиной ≥ N50 в сумме содержат не менее 50% всей длины сборки.
• **L50** — минимальное число фрагментов (контигов или скэффолдов), суммарная длина которых составляет не менее 50% всей сборки.
Чем выше значение N50 и меньше L50 — тем лучше качество сборки (геном представлен более длинными и цельными последовательностями).
Идентификатор GenBank	Идентификатор RefSeq	Уровень сборки генома	Общий размер генома (п.н.)	Число фрагментов генома в сборке	Параметры N50 и L50 (контиги / скэффолды)
GCA_028858775.3	GCF_028858775.2	Chromosome	3 177 739 762 п.н.;	Число контигов: 30, Число скэффолдов: 25	Contigs: N50 = 146 288 486 п.н.; L50 = 9; Scaffolds: N50 = 146 288 486 п.н.; L50 = 9

Пользуясь расширенным поиском на сайте NCBI, было выяснено:

Всего записей по мРНК: 37690 (все мРНК, со словом в заголовке "Glutamine"). Запрос: (Glutamine[Title]) AND biomol_mrna[Properties]
Всего записей по генам: 23894 (все типы нуклеотидных последовательностей, со словом в заголовке "Glutamine"). Запрос: Glutamine[Title] AND biomol_genomic[Properties]
Для мРНК:
- 33,488 - из базы RefSeqk
- 4,201 - из базы GenBank
Для генов:
- 8 - из базы RefSeq
- 23,885 - из базы GenBank
Для Homo sapiens по мРНК:
- 114 - из базы RefSeqk
- 494 - из базы GenBank
- Запрос: Glutamine[Title] AND biomol_mrna[Properties] AND "Homo sapiens"[Organism]
Для Homo sapiens по геному:
- 4 - из базы RefSeqk
- 158 - из базы GenBank
- Запрос: Glutamine[Title] AND biomol_genomic[Properties] AND "Homo sapiens"[Organism]

Пользуясь расширенным поиском сайта ENA, было выяснено:

Всего записей по мРНК для Homo sapiens: 719. Запрос: description="Glutamine" AND scientific_name="Homo sapiens" AND mol_type="mrna"
Всего записей по генам для Homo sapiens: 5. Запрос: description="Glutamine" AND scientific_name="Homo sapiens" AND mol_type="genomic dna"

Пользуясь расширенным поиском сайта DDBJ, было выяснено:

Всего записей по мРНК для Homo sapiens: 711. Запрос: definition="Glutamine" AND Organism="Homo sapiens" AND molecular type="mrna"
Всего записей по генам для Homo sapiens: 5. Запрос: definition="Glutamine" AND Organism="Homo sapiens" AND molecular type="dna"

В реальной ситуации я бы выбрал поиск NCBI или DDBJ, но скорее NCBI. Система поиска ENA совсем не понравилась, мне она показалась неудобной и интуитивно непонятной.

Нуклеотидный BLAST

Последовательность белка в формате fasta тут

Идентификатор белка: XP_001138674.1

Идентификатор нуклеотидной записи: NC_072417

Ген ATP5PD — **Рис.1** Положение гена ATP5PD (ген δ-субъединицы АТФ синтазы) на 19-ой хромосоме *Pan troglodytes*. Ген относится к нуклеотидной записи NC_072417.2. К данному гену относится одна белковая запись - XP_001138674.1. CDS, соответствующие этой записи, имеют координаты: 88034500..88042326

Для исследования на консервативность последовательности окрестности гена, проводилось выравнивание методами blastn и tblastn среди отряда Araneae. База данных - refseq genomes.

blastn в данном случае применим потому, что ищет последовательности с минимальным сходством среди геномов пауков. Среди стандартных параметров изменен только размер слова - 7, чтобы уменьшить длину совпадающего участка и найти больше совпадений.

Рис.2 Графическая интепретация поиска blastn

Было найдено 92 совпадения среди всех 4 сборок в базе refseq_genomes среди пауков. Было найдено несколько действительно хороших совпадений с низким e-value(4e-30 - 4e-11).

tblastn используется для поиска гомологичных последовательностей исходной среди пауков.Т.к. одна аминокислота кодируется разными кодонами, то нуклеотидные последовательности могут сильно отличаться. Поэтому blastn не найдёт такие последовательности. А tblastn транслирует эти последовательности и сравнивает с последовательностью белка. Длина слова - 2, остальные параметры - по умолчанию.

Рис.3 Графическая интепретация поиска tblastn

Было найдено всего лишь два совпадения с высоким e-value(0.024 и 0.037).Можно сделать вывод, что в последовательности белка нет таких консервативных участков, которые бы сохранились у дальних друг от друга таксонов.

Предварительно перед поиском гомологов генов рРНК E.Coli в геноме P. troglodytes была создана локальная база данных "chim" при помощи команды:

makeblastdb -in GCF_028858775.2_NHGRI_mPanTro3-v2.0_pri_genomic.fna -dbtype nucl -out chim

В файлы 16S_E.Coli.txt и 23S_E.Coli.txt сохранены последовательности. При помощи локального blastn они были выравнены с последовательностями P. troglodytes из базы chim. Команды:

blastn -task blastn -db chim -query 16S_E.Coli.txt -out 16s_res.out -outfmt 7

blastn -task blastn -db chim -query 23S_E.Coli.txt -out 23s_res.out -outfmt 7

Ссылка на результат выравнивания 16sРНК

Ссылка на результат выравнивания 23sРНК

Рис.4 Графическая интепретация blastn для 16sРНК на 23 хромосоме. Все находки были на - цепи.

Было обнаружено 84 совпадения. Почти всегда E-value повторялись среди 1.03e-04 и 7.9. Результаты с E-value 1.03e-04 соответсвуют участку 1494 - 1536 рРНК E.Coli.

Рис.5 Графическая интепретация blastn для 23sРНК на 22 хромосоме. Все находки были на - цепи.

Было обнаружено 164 совпадения. Самый низкий E-value - 6.38e-17, соответствует участку 2442 - 2613.

Для построения карт локального сходства были взяты археи разных штаммов: Halanaeroarchaeum sulfurireducens и Halanaeroarchaeum sp. HSR-CO. Коды доступа RefSeq NZ_CP008874.1 и NZ_CP087724.1 соответственно. Первую архею я описывал в своём миниобзоре.При использовании алгоритмов blastn и megablast плазмидные последовательности были получены при помощи всё тех же кодов доступа RefSeq.

Рис.6 DotPlot плазмид Halanaeroarchaeum sulfurireducens и Halanaeroarchaeum sp. HSR-CO по результатам алгоритма blastn

blastn нашёл множество коротких совпадений, скорее всего являющиеся дупликациями. Этот алгоритм более чувствителен, чем megablast, т.к. последний ищет очень схожие последовательности.

Рис.7 DotPlot плазмид Halanaeroarchaeum sulfurireducens и Halanaeroarchaeum sp. HSR-CO по результатам алгоритма megablast

На основе практикума 8 была взята всё та же архея Halanaeroarchaeum sulfurireducens, но уже референсная сборка.

Ссылка на страницу протеома

Ссылка на страницу Genome

Идентификатор протеома в UniProt Proteomes: UP000069906

Код доступа GenBank: GCA_001011115.1

Код доступ RefSeq: GCF_001011115.1

Для загрузки последовательности и таблицы локальных особенностей, применил команду:

datasets download genome accession GCF_001011115.1 --include genome,gff3

Распаковка:

unzip ncbi_dataset.zip

Чтобы определить вариант генетического кода, я скачал запись про таксон из NCBI Taxonomy:

esearch -db taxonomy -query "Halanaeroarchaeum sulfurireducens[Scientific Name]" | efetch -format xml > tax.txt

Из строки 'GCId' выяснено, что таблица формата №11.

Поиск открытых рамок считывания производился при помощи команды из пакета EMBOSS:

getorf -sequence GCF_001011115.1_ASM101111v1_genomic.fna -outseq ORFs.faa -table 11 -minsize 150

Опция table - собственно, номер таблицы. Опция minsize указывает минимальное количество нуклеотидов. Т.к. требуется не менее 50 аминокислот, указываем 150 нуклеотидов.

Создание белковой базы:

makeblastdb -in ORFs.faa -dbtype prot -out proteome

Проверочная команда, чтобы убедиться в отсутствии рамок менее 50 а.о.:

infoseq ORFs.faa -only -name -length -nohead | cut -d ' ' -f 2 | grep -E '^[0-4]?[0-9]$' | wc -l

Выбираем только поля name, length, и убираем заголовки в таблице. Вырезаем колонку 2 с длиной, разделитель - пробел. grep для поиска чисел от 0 до 49.

Для скачивания последовательностей белков создал конвейер:

seqret @<(printf "sw:P0AED9\nsw:P0AEE8\nsw:P23941\n") -outseq query.fasta

@< как раз позволяет прочитать сразу несколько адресов из вывода команды, printf выводит текст, внутри кавычек разделяем каждый адрес на новую строку, чтобы seqret получил список адресов с одним на строке, иначе не сработает.

Поиск по сходству последовательностей:

blastp -query query.fasta -db proteome -outfmt 7 -out res.tab

Ссылка на результат blastp

Лучшая находка (47 bit score) - NZ_CP008874.1_20836. Координаты - 421581 - 420454. Эта находка соответствует выравниваю с m4C-Метилтрансферазой Bacillus amyloliquefaciens.

Для нахождения CDS рядом с ORF воспользовался командой:

cut -f 3,4,5,7,9 genomic.gff | grep "^CDS" | cut -f 2,3,4,5 > CDS.tsv

Создался файл-таблица, содержащая первый (название плазмиды), четвёртый, пятый (координаты), седьмой (плюс/минус цепь) и девятый (информация о участке) столбцы строк CDS из таблицы локальных особенностей.

К файлу добавлена строка с ORF и её координатами. Строки были отсортированы по возрастанию, и взяты ближайшие 10 строк к ORF(снизу и сверху)

echo -e '420454\t421581\t-\tFOUND_ORF' >> CDS.tsv

sort -k2,2n CDS.tsv > CDS.sort.tsv

grep -C 5 "FOUND_ORF" CDS.sort.tsv > neighbors.tsv

Ссылка на neighbors.tsv

По выдаче можно сказать, что только одна CDS пересекается с ORF - 4 номер. Она почти полностью лежит в ORF. Код доступа данной CDS - WP_050047764.1. Из аннотации нуклеотидных последовательностей (genomic.gbff) выяснено, что это действительно ДНК-метилтрансфераза.

Попытка найти CDS поиском по аннотациям:

elink -db nuccore -id NZ_CP008874.1 -target protein | efilter -query '2.1.1.113[EC/RN Number]'| efetch -format 'acc' > m4c_proteins.txt

Однако поиск по m4c метилтрансферазе не привёл к ожидаемому результату. Перебрав оставшиеся EC-коды, положительный результат удалось получить по m6a метилтрансферазе (код - 2.1.1.72), код доступа к записи - WP_050049408.1. Эта запись создана на основе второй, гораздо меньшей плазмиды, имеющейся у археи, pHSR2-01.