Учебный сайт студента ФББ МГУ

Киселёв Матвей Олегович

Отчёт о практикуме 8

Алгоритмы BLAST

Для анализа был выбран ген перилипина 1 (PLIN1), расположенный на 11 хромосоме Suncus etruscus (Savi, 1822), согласно данным о сборке mSunEtr1.pri.cur (см. предыдущий практикум).

Запись в базе данных NCBI Gene: 126022371

Координаты гена на хромосоме: 8 721 428 - 8 726 477 (длина 5049 п.о.).

Для анализа выделена последовательность чуть больше, чем сам ген (8 719 965 - 8 728 637, длина 8673 п.о.), включающая также некодирующие неаннотированные регионы как "upstream", так и "downstream" от PLIN1. Незамысловатая схема представлена на рис.1.

Простите, изображение не загрузилось :( Проверьте подключение к сети
Схема участка 11-й хромосомы S. etruscus, взятого для анализа. В нём располагается единственный CDS, PLIN1, фланкированный некодирующими участками. Получена с помощью Unipro Ugene v42.0

Ссылка на FASTA-файл с последовательностью выбранного региона.

Поиск BLAST

Ради интереса рассмотрим, что выдадут разные алгоритмы BLAST при поиске последовательности из ядерного генома млекопитающего (Mammalia) внутри зауропсид (Sauropsida) - таксона, включающего рептилий в широком смысле (черепахи, клювоголовые, чешуйчатые и архозавры, в числе которых и птицы).

Mammalia и Sauropsida - клады в составе безрангового таксона Amniota.

Поиск проводился на сайте NCBI BLAST.

megablast: поиск с длиной слова 16 и макс. числом находок 250.

Результат: 218 находок. E value от 1е-37. Гены PLIN1 разнообразных птиц и двух видов черепах.

blastn: поиск с длиной слова 11. Максимальное число находок 100.

Результат: 100 находок, E value от 2е-42. Гены PLIN1 птиц. Видовой состав их такой же, как и в результате поиска megablast.

Этот алгоритм принимает на вход нуклеотидную последовательность и используется для поиска гомологичных ей в нуклеотидной базе данных. megablast работает по такому же принципу, но работает быстрее, т.к. ищет только последовательности с высоким уровнем сходства. Эти алгоритмы могут быть использованы, например, для поиска гомологичных некодирующих регионов ДНК.

blastx: максимальное число находок 250, длина слова 5.

Результат: 250 находок, E value от 5е-30. Гены PLIN1 птиц. Видовой состав тот же.

Алгоритм принимает на вход нуклеотидную последовательность, транслирует её по заданной таблице и проводит поиск в белковой базе данных. Позволяет, например, выяснить, какие аминокислотные замены встречаются в данном белке.

tblastx: максимум 100 находок, длина слова 3.

Алгоритм не выдал ни одной находки даже после снятия всех ограничений на поиск.

Работает так же, как и blastx, но поиск проводит по базе данных, составленной из транслированных сиквенсов нуклеиновых кислот. Позволяет предсказывать гены.

Локальный запуск

Я установил на свой ПК пакет BLAST+.

Локальная база данных для поиска была создана с помощью программы:

makeblastdb -in D:\Users\User\Desktop\sunetr.fna -dbtype nucl

Таким образом, BLAST поиск будет проводится по индексированной сборке mSunEtr1.pri.cur.

Я провёл локально BLAST-поиск последовательностей 16S и 23S-рРНК E.coli K12.

16S-рРНК играет важную роль в формировании малой субъединицы рибосомы, ближе к 3'-концу содердит последовательность Шайна-Дальгарно. 23S-рРНК формирует структуру большой субъединицы рибосомы. Вместе эти две РНК, связываясь, обеспечивают формированиие цельного рибосомального комплекса в процессе инициации трансляции.

Я использовал алгоритм blastn, т.к. последовательности РНК-кодирующих генов не нуждаются в трансляции.

Параметры запуска:

blastn -task blastn -query D:\Users\User\Desktop\16S_rRNA.txt -db D:\Users\User\Desktop\sunetr.fna -out D:\Users\User\Desktop\blastnout_16.txt -evalue 0.05

blastn -task blastn -query D:\Users\User\Desktop\23S_rRNA.txt -db D:\Users\User\Desktop\sunetr.fna -out D:\Users\User\Desktop\blastnout_23.txt -evalue 0.05

16S-рРНК: 4 находки, из которых одна располагается в нелокализованном скаффолде.

Среди найденных участков только один кодирующий: локус LOC126031457 15 хромосомы, где закодирована 18S-рРНК. Я не думаю, что в данном случае найден действительно гомологичный участок. Тем более, что их и не могло найтись, т.к. в сборке отсутствует митохондриальный геном, включающий ген 16S-рРНК, схожей с таковой у бактерий.

23S-рРНК: 12 находок, из которых одна располагается в нелокализованном скаффолде. Гомологичных кодирующих последовательностей не нашлось.