Учебный сайт Николаевой Дарьи

Нуклеотидный blast

Задание 1. См. Задание 4 практикума №7.
Задание 2. 3 алгоритма blast.
В этом задании требовалось для последовательности из практикума 7 (последовательность) запустить 3 разных алгоритма blast (blastn, megablast, discontiguous megablast) и сравнить результаты их работы.
Для каждого запуска были установлены следующие параметры:

Было решено ограничить находки тем же родом, что и лучшая находка в Задании 1, а именно Polycirrus (область поиска не удалось ограничить конкретным видом, получалось слишком мало находок; а при выборе другого рода процент сходства был слишком низкий).
Количество выводимых находок я ограничила 1000 (по умолчанию было 100), чтобы отследить их реальное количество.
Все остальные параметры по умолчанию и одинаковы для всех 3 запусков.

Также было важно, чтобы сходство находок было заметно разным: находки в blastn и discontiguous megablast имеют диапазон сходства от 100% до 77%.

В Таблице 1 представлены некоторые характеристики результатов работы 3 алгоритмов.

Таблица 1. Сравнение 3 алгоритмов BLAST.

Название алгоритма	blastn	megablast	discontiguous megablast
Число находок	34	4	27
E-value худшей находки	2.5 (ген рРНК - короткая последовательность) 2e-147 (нужный ген - большой процент покрытия)	0.0	2e-147
Процент сходства для худшей находки	100% (короткая) 77% (полная)	77%	89%
Скриншот страницы находок	Рис. 1а	Рис. 1b	Рис. 1с

Рис. 1a. Страница находок алгоритма blastn. В красной рамке находки, которые не найдены алгоритмом discontiguous megablast; в синей рамке - алгоритмом megablast

Рис. 1b. Страница находок алгоритма megablast.

Рис. 1c. Страница находок алгоритма discontiguous megablast. В синей рамке находки, которые не найдены алгоритмом megablast

Как видно из данных Таблицы 1 и Рис.1а-с, набор находок неодинаков для разных алгоритмов.

В частности, megablast нашел только 4 наиболее достоверные находки с наименьшим E-value (0.0) и наибольшим процентом сходства (100%-92%). Этот алгоритм позволяет найти последовательности, обладающие очень высоким сходством с исходной.
discontiguous megablast нашел на 23 находки больше (Рис. 2а), например, 4 находки из организма Polycirrus eximius (E-value = 0.0, процент сходства - 82%). Как позднее будет видно в сравнении с выдачей blastn, discontiguous megablast выдал все находки, которые можно считать достоверными: они относятся к тому же гену, который представлен в исходной последовательности. megablast не нашел эти последовательности, так как он ищет сходные последовательности по паттерну в 28 нуклеотидов (выше вероятность попадания замены, чем в паттерне длиной 11 нуклеотидов).
blastn нашел еще 7 находок (в сравнении с discontiguous megablast), которые относятся к участкам последовательностей генов рРНК и являются очень короткими (11-12 нуклеотидов): эти находки имеют худший E-value = 2.5 и покрытие только 1% (Рис. 2b). Из этого следует, что blastn ищет любые сходные участки, а discontiguous megablast - сходные последовательности, которые могут являться близкими гомологами (но оба алгоритма производят поиск по паттерну длиной 11 нуклеотидов). Данный пример как раз это иллюстрирует: blastn нашел сходные участки, но они совершенно точно не могут быть гомологами исходной последовательности.

Рис. 2a. Находки алгоритма discontiguous megablast, которые не нашел megablast.

Рис. 2b. Находки алгоритма blastn, которые не нашел discontiguous megablast.

Можно заключить:

blastn ищет сходные участки любого размера, то есть покрытие исходной последовательности не имеет значения. Используется для поиска ЛЮБЫХ сходных последовательностей.
discontiguous megablast ищет сходные последовательности, потенциально (!!!) являющиеся близкими гомологами (не можем по выдаче blast судить о гомологии).
megablast ищет сходные последовательности; по всей видимости, помимо хорошего значения E-value, важен процент сходства (не менее ≈ 90% в моем случае). Можно использовать для поиска очень близких гомологов.

Задание 3 (3.2). Проверка наличия гомологов 5 белков в геноме организма.

В данном задании нужно было проверить наличие гомологов 5 белков в организме Amoboaphelidium (ссылка на сборку генома).
Для этого требовалось провести локальный blast (standalone blast) аминокислотной последовательности каждого из белков против трансляции нуклеотидного банка данных (последовательности генома Amoboaphelidium) в 6 рамках считывания - алгоритм tblastn.
Требовалось отобрать 5 белков, гомологи которых, предположительно, должны встречаться у всех эукариот. В Таблице 2 перечислены выбранные мной белки и кратко указаны их функции.

Таблица 1. Сравнение 3 алгоритмов BLAST.

Название белка	Имя записи в UniProt (Entry Name)	Идентификатор и ссылка на страницу в UniProt	Функция
Гистон H4	H4_HUMAN	P62805	Является компонентом нуклеосом, которые наматывают на себя ДНК и компактизуют хроматин, органичивая доступ к ДНК клеточным комплексам, использующим ДНК в качестве матрицы. Таким образом, гистоны играют ключевую роль в транскрипции, репликации и репарации ДНК, а также поддержании стабильности хромосомы. Доступ к ДНК регулируется посредством модификаций гистонов (так называемый гистоновый код).
Малая субъединица (35 кДа) фактора сплайсинга U2AF	U2AF1_HUMAN	Q01081	РНК-связывающий белок, выполняющий функцию фактора сплайсинга пре-мРНК (первичных транскриптов); связывается с динуклеотидом AG в 3'-сайте сплайсинга, "приводит" мяРНП (малую ядрышковую рибонуклеопротеидную частицу) U2 к точке разветвления. Таким образом, является посредником во взаимодействиях, необходимых для точного определения 3'-сайта сплайсинга, а также может играть роль "моста" между энхансерным комплексом и U2AF2, чтобы привлечь последний к следующему интрону.
Субъединица 1 фактора инициации транскрипции IIA	TF2AA_HUMAN	P52655	Является компонентом транскрипционного комплекса РНК-полимеразы II и играет важную роль в активации транскрипции.
Каталитическая субъединица ДНК-полимеразы альфа	DPOLA_HUMAN	P09884	Играет ключевую роль в инициации репликации ДНК. В течение S-фазы клеточного цикла комплекс ДНК-полимеразы альфа (состоящий из каталитической субъединицы POLA1/p180, регуляторной субъединицы POLA2/p70 и двух субъединиц - праймаз PRIM1/p49 и PRIM2/p58) ассоциируется с ДНК в области репликативных вилок через взаимодействия с MCM10 и WDHD1. Праймаза инициирует синтез ДНК, образуя короткие РНК-праймеры на лидирующей и остающей цепях. Эти праймеры исходно удлиняются каталитической субъединицей полимеразы альфа и впоследствии переносятся на полимеразы дельта и эпсилон для процессивного синтеза ДНК на отстающей и лидирующей цепях, соответственно. Перенос происходит по причине того, что полимераза альфа обладает ограниченной процессивностью и не обладает 3'-экзонуклеазной активностью, позволяющей корректировать ошибки, поэтому полимераза альфа не подходит для репликации длинных участков.
ДНК-направленная субчастица RPB1 РНК-полимеразы II	RPB1_HUMAN	P24928	ДНК-зависимая РНК-полимераза II катализирует транскрипцию ДНК в РНК с использованием рибонуклеозидтрифосфатов в качестве субстрата. Данная субъединица - самый крупный каталитический участок РНК-полимеразы II, который синтезирует предшественников мРНК и многие функциональные некодирующие РНК; в комплексе с некоторыми другими субчастицами образует ДНК-связывающий домен - бороздку, в которой синтезируется РНК по матрице ДНК. Содержит С-концевой домен, состоящий из 52 повторов длиной 7 аминокислот (YSPTSPS), который необходим для полимеразной активности [1].

Последовательности всех белков я собрала в один fasta-файл, так как это позволяет ускорить процесс работы алгоритма tblastn: fasta.
Затем было необходимо создать банк данных из последовательности генома организма Amoboaphelidium.

Команда: makeblastdb -in X5.fasta -dbtype nucl

Далее я непосредственно запустила tblastn.

Команда: tblastn -query h4.fasta -db X5.fasta -out h4.out -outfmt 7

Для каждого белка программа обнаружила разное (но главное, что ненулевое) число находок. С результатами работы программы можно ознакомиться в файле.
Также я отразила данные о находках в Таблице 3.
Примечание: проанализировав все параметры выдачи программы, я условно определила, что, начиная с E-value=0.1 и выше, находки не будут считаться значимыми (то есть не могут являться потенциальными гомологами. Ситуация для каждого белка неодинакова, но для удобства такую верхнюю границу можно принять. По остальным параметрам не удалось выявить общий критерий, ситуация слишком индивидуальна.

Таблица 3. Данные о находках алгоритма tblastn.

Название белка (Entry Name)	Число хороших находок в геноме/Общее чило находок	В какой записи лучшая находка	E-value лучшей находки	Процент идентичности лучшей находки	Процент покрытия входной последовательности лучшей находкой	Иллюстрация выдачи tblastn
H4_HUMAN	7/9	unplaced-368	1e-48	93.90	79.6	Рис. 3а
U2AF1_HUMAN	1/4	unplaced-986	1e-46	46.67	81.25	Рис. 3b
TF2AA_HUMAN	4/4	scaffold-568 scaffold-162	6e-11 2e-10	62.16	9.8	Рис. 3c
DPOLA_HUMAN	5/8	scaffold-423	0.0	38.91	80.5	Рис. 3d
RPB1_HUMAN	21/21	scaffold-157	0.0	53.04	70.9	Рис. 3e

Рис. 3а. Находки алгоритма tblastn для белка H4_HUMAN. В бежевой рамке - хорошие находки, в красной - "интересности".

Рис. 3b. Находки алгоритма tblastn для белка U2AF1_HUMAN. Бежевой линией подчеркнута единственная хорошая находка.

Рис. 3с. Находки алгоритма tblastn для белка TF2AA_HUMAN. В красных рамках - лучшие находки.

Рис. 3d. Находки алгоритма tblastn для белка DPOLA_HUMAN. В бежевой рамке - хорошие находки, в красной рамке - "интересности".

Рис. 3е. Находки алгоритма tblastn для белка RPB1_HUMAN. В разноцветных рамках - "интересности".

Отдельно хочу прокомментировать результаты:

Для белка H4_HUMAN все хорошие находки имеют крайне сходные параметры (3-6 и вовсе одинаковые, а 7 просто заметно короче). Это позволяет предположить, что мы имеем дело с повторами, причем находки 3-4 и 5-6 даже представляют собой повторы в пределах одного скэффолда. Наверное, это можно объяснить значимостью гистона Н4 в жизнеспособности организма; возможно, он представлен в нескольких копиях для уменьшения вероятности гибели организма при нарушении гена.
Для белка U2AF1_HUMAN я признала хорошей только одну находку, так как она намного лучше остальных по всем параметрам. Однако все остальные находки имеют крайне сходные параметры, что настораживает, но мне здесь не хватает знаний, чтобы это прокомментировать. ((
Для белка TF2AA_HUMAN представлено 2 "сета" хороших находок, каждый из которых относится к своему скэффолду. Параметры находок 1, 3 и 2, 4 имеют крайне высокое сходство. Итак, рискну предположить, что в каждом из двух скэффолдов содержится по копии гена, при этом в каждом скэффолде присутствует пара находок, которые могут соответствовать двум экзонам, разделенным интроном (организм же эукариотический!), что подтверждается соответствием разным участкам входной последовательности и банка данных.
Очень интересная ситуация с белком DPOLA_HUMAN: из 5 хороших находок первая и вторая пары также имеют очень схожие значения параметров между собой. Также пары отличаются друг от друга длиной выравнивания, но вряд ли здесь можно предположить разделение находок на экзоны, так как один участок входной последовательности полностью включает в себя другой. Еще одна интересная деталь: в первой паре находок гены белка направлены в одну сторону (лежат на одной цепи), а во второй паре гены направлены в разные стороны (лежат на разных цепях).
Для белка RPB1_HUMAN я признала все находки хорошими. Находки относятся к 4 скэффолдам, причем находки скэфолдов 300 и 157 и 44 и 100 имеют между собой сходные значения параметров. В итоге можно предположить, что ген представлен в нескольких (2?) копиях, находки внутри каждой пары скэффолдов относятся к разным копиям, находки каждой пары скэффолдов, предположительно, соответствуют экзонам, разделенным интронами. Находки внутри каждого скэффолда так же могут соответствовать экзонам.

Замечания:

Локальный blast не выдает информации о покрытии исходной последовательности. Это крайне неудобно, для подсчета пришлось делить длину выравнивания на длину соответствующего белка.
Я слукавила: была попытка найти гомолог центромерного белка С, но blast не нашел ни одной находки, что мне показалось очень странным, так как это крайне важный белок эукариот (как минимум, я знала, что он гомологичен у дрожжей и высших эукариот). Было предположение, что у организма эту функцию все-таки выполняет негомологичный белок (это было бы возможно в случае принадлежности организма какому-нибудь экзотическому таксону).

Использованные ресурсы:
- [1] - РНК-полимераза II