Онлайн

BLAST

СеместрыТретий семестр • Онлайн BLAST

Поиск организма по фрагменту нуклеотидной последовательности

По заданному нуклеотидному фрагменту я, используя megablast на сайте NCBI определил, что он содержится в геноме Methanothermobacter thermautotrophicus str. Delta H. Идентификатор в базе RefSeq NC_000916.1. Данный фрагмент содержится в последовательности генома с 1145 по 1444 нуклеотид и кодирует белок L3P 50S рибосомы.

Поиск гомолога белка человека в слоне

Для этого задания мне необходимо было выбрать белок человека, для которого идентификатор Swiss-Prot и моя фамилия начинаются с максимального количества одинаковых букв. С помощью

infoseq sw:z*_human -only -name -desc -out zlobin_human.txt

я получил все белки человека, чей идентификатор начинается на "Z". К сожалению, нет ни одного белка, в идентификаторе которого за "Z" шла бы "L", поэтому из полученного списка один белок я выбирал случайным образом. Перепробовав 10 белков и получив для каждого в качестве гомолога только суперконтиг, я решил на этом остановиться. Для белка с идентификатором znf71_human (индуцируемый фактором альфа некроза опухоли белок эндотелия, содержащий цинковый палец) "гомологом" можно назвать суперконтиг supercontig:loxAfr3:scaffold_4:1:100893473:1 REF. Его координаты: начало 18179160, конец 18180623, интронов нет. Идентичность 83%, e-value 3E-248.

Поиск некодирующих последовательностей программой BLAST

Для этого задания нужно было вырезать в отдельный файл последовательность любой тРНК из генома Clostridium botulinum A2 str.Kyoto. Я скачал файл со всеми тРНК в формате .frn и вырезал оттуда последовательность треониновой тРНК. Затем я провел поиск гомологов данной последовательности в геноме бактерий, относящихся к тому же порядку - Clostridiales - тремя разными способами: алгоритмом megablast, алгоритмом blastn с параметрами по умолчанию, алгоритмом blastn с длиной слова = 7, match/mismatch = 1/-1. Результаты приведены в таблице 1.

Таблица 1. Результаты поиска гомологов треониновой тРНК.

Алгоритм

Число находок

megablast 615
blastn 1531
blastn с максимально чувствительными параметрами 3032

Полученное количество находок отвечает ожиданям: megablast ищет незначительно различающиеся последовательности и находит меньше, чем простой blastn, который в свою очередь взятый с параметрами по умолчанию менее чувствителен и выдает меньше находок, чем blastn с наиболее чувствительными параметрами.

Сравнение программ blastn и megablast

В выдаче megablast подавляющее большинство находок имело 100% длину выравнивания (537 нуклеотида), только 67 - меньше, что составляет 10,9% от всех находок megablast. В выдаче blastn с параметрами по умолчанию примерно половина находок имела длину выравнивания меньше 100%, в случае blastn с максимально чувствительными параметрами таких находок оказалось примерно 2/3. Это объясняется предназначением алгоритмов: megablast как раз нацелен на поиск слабо различающихся последовательностей, и потому в его выдаче оказалось так много абсолютно выравнивающихся находок. Чем чувствительнее параметры blastn, тем допускается большая вариативность на выравнивание, и число находок с длиной выравнивания меньше 100% растет.

Для конкретной находки Clostridium cellulovorans 743B, whole genome shotgun sequence в случае megablast длина выравнивания 100%, e-value 4e-22, идентичность 92%. В blastn длина выравнивания 100%, e-value 5e-23, идентичность 92%. В blastn с чувствительными параметрами длина выравнивания 100%, e-value 1e-20, идентичность 92%. Привлекает внимание различие в e-value - оно там меньше, чем более чувствителен алгоритм, и, соответственно, богаче база случайных последовательностей.