Практикум №8. Нуклеотидный BLAST

Поиск δ-субъединицу АТФ-синтазы

В данном задании исследовался геном и протеом коралла Acropora millepora.

С помощью текстового поиска в файле протеома была найдена последовательность δ-субъединицы АТФ-синтазы. В качестве запроса были заданы слова "subunit delta".

Файл с последовательностью белка atpase_sub_delta.fasta

Далее бклок был найден в NCBI Protein Database, откуда был взят идентификатор нуклеотидной записи, к которой относится ген, кодирующий данный белок: NC_058079.1

Файл с последовательностью гена и его окружением nucleotide_seq_atpase.fasta

Координаты гена: 4438820-4443480

environment

Рис 1. Окружение гена.

Применение различных алгоритмов BLAST для фрагмента ДНК

Так как Acropora millepora не относится ни к первичноротым животным, ни ко вторичноротым животным, то для дальнейшего анализа было выбрано произвольное семейство Кошачих (Felidae).

t3pr8_distr.png

Рис 2. При поиске с помощью blastn на вход подавался fasta-файл с последовательностью гена δ-субъединицы АТФ-синтазы. При этом megablast не использовался ввиду наличия большого расхождения псоледовательностей, из-за чего выдача была бы путой. В качестве базы данных для поиска была выбрана refseq_genomes. В параметрах алгоритма была указана минимальная длина слова 7. В результате было найдено 15 записей.

environment

Рис 3. Поиск проводился по базе данных refseq_genomes. Была указана длина слова 5, так как достоверных находок оказалось достаточное количество. Была использована программа tblastn вместо tblastx, так как имеет меньшее время работы. Обнаружено 15 соответствий, что говорит о наличии в гене δ-субъединицы АТФ-синтазы консерватиных участков.

Поиск в геноме Acropora millepora генов основных рибосомальных РНК по далёкому гомологу

Для поиска гомологов последовательности генома Acropora millepora были проиндексированы с помощью локального BLAST:

makeblastdb -in GCF_013753865.1_Amil_v2.1_genomic.fna -dbtype nucl -out Amil_DB

Поиск гомологов 16S и 23S рРНК у E. coli по базе данных Acropora millepora производился с помощь алгоритма blastn:

blastn -task blastn -query 16S_rRNA_ecoli.txt -db Amil_DB -out 16s_pr8.out -evalue 0.01 -outfmt 7

blastn -task blastn -query 23S_rRNA_ecoli.txt -db Amil_DB -out 23s_pr8.out -evalue 0.01 -outfmt 7

Ниже представленны файлы выдачи отдельно для каждой рРНК:

Выдача blastn 16S

Выдача blastn 23S

В результате локального поиска с помощью алгоритма blastn для 16S рРНК было найдено 14 хитов, которые имели значение E-value меньше 0.01. Для 23S рРНК было найдено 33 хита.

Для визуализации локального поиск BLAST были построены схемы выравнивания 2 повторов для гомолога NW_025322990.1, соответствующих участку 1490-1536 на 16S рРНК.

environment

Рис 4. Первый повтор.

environment

Рис 5. Второй повтор.

Построение карты локального сходства участков двух схожих геномов

Для построения карты локального сходства были выбраны хромосомные сборки из геномов бактерий Bacillus subtilis и Bacillus licheniformis. Построение осуществлялось с помощью алгоритмов megablast, blastn и tblastx.

Выбор организмов из одного рода был обусловлен необходимостью сильного сходства между сравниваемыми последовательностями.

environment

Рис 6. Карта локального сходства хромосом Bacillus subtilis и Bacillus licheniformis, построенная с помощью алгоритма megablast.

environment

Рис 7. Карта локального сходства хромосом Bacillus subtilis и Bacillus licheniformis, построенная с помощью алгоритма blastn.

Большая диагональ здесь не возрастает, а убывает. Это означает, что последовательность одной бактерии является обратно-комплементарной по отношению к другой, что может быть обучловлено глобальной инверсией. Однако она скорее всего обуславливается прочтением хромосом с разных концов и не имеет биологической причины.

При этом выдача tblastx содержит сообщение, что сходства между последовательностями не обнаружено.

Это может быть связано с самим принципом алгоритма, который сравнивает последовательности, используя очень малую длинну слова, так как сравнение происходит не нуклеотидных последовательностей, а их аминокислотных продуктов, полученных с помощью автоматической трансляции.