Работа с нуклеотидным BLAST

Определение таксономии и функции прочтенной нуклеотидной последовательности из практикума 6

Для выполнения задания была взята последовательность, полученная при выполнении практикума 6. Затем с помощью нуклеотидного BLASTа с алгоритмом blastn (Somewhat similar sequences) по базе данных Nucleotide collection (nr/nt) при дефолтных параметрах.


Результат работы алгоритма blastn

Из этого можно сделать вывод, что скорее всего, данная последовательность является митохондриальный ген, кодирующий субъединицу 1 цитохром-С оксидазы дыхательного комплекса IV. Таксономию изучаемой последовательности можно восстановить по нескольким найденным самым схожим. С помощью программы Jalview было построено выравнивание с первыми 10 находками.



Как видно, последовательности практически идентичны друг другу. Таким образом, т.к. все 10 скачанных мной последовательностей принадлежат одному виду, можно однозначно сказать, что источником выбранных последовательностей является вид Ophiopholis aculeata (Его таксономия до рода: Eukaryota; Opisthokonta; Metazoa; Eumetazoa; Bilateria; Deuterostomia; Echinodermata; Eleutherozoa; Asterozoa; Ophiuroidea; Ophiuridea; Ophiurida; Ophiurina; Gnathophiurina; Ophiactidae; Ophiopholis).

Сравнение списков находок разными алгоритмами BLAST

В данном случае будут рассматриваться три алгорится: blastn, megablast и discontiguous megablast. Чтобы сравнить их, нужно расширить область поиска. Результаты запроса по роду Ophiactidae (taxid:41169): 18 последовательности для megablast, 28 для discontiguous megablast, 28 для blastn.

Параметры ограничения таксонов

Параметры запуска BLAST
Algorithm DatabaseMax Target SequencesExpect Threshold Word SizeMax matchesMatch/Mismatch ScoresGap Costs
megablastNucleotide collection (nr/nt)10000.00128 01, -2Linear
discontiguous megablastNucleotide collection (nr/nt)10000.001 1102, -3Existence:5, Extention: 2
blastnNucleotide collection (nr/nt)10000.00111 02, -3Existence:5, Extention: 2


Результаты работы алгоритма megablast


Результаты работы алгоритма discontiguous megablast


Результаты работы алгоритма discontiguous blastn

Сравнение алгоритмов
АлгоритмЧисло находокScore лучшей находкиScore худшей находки E-value лучшей находкиE-value худшей находкиIdent лучшей находки Ident худшей находкиQuery cover лучшей находкиQuery cover худшей находки
megablast186935380.01e-15586%82%99% 100%
discontiguous megablast287584290.09e-13286%81%99% 74%
blastn287584590.09e-13286%81%99% 74%

Больше всего находок выдали алгоритмы discontiguous megablast и blastn (нашли одинаковые последовательности). При расширении зоны поиска до семейства ситуация аналогичная: найдены 237 одинаковых пунктов у обоих алгоритмов, при этом разница с числом находок megablast (34 штуки) сильно увеличивается. При дальнейшем укрупнении запрашиваемого таксона, появляется небольшая разница между blastn и discontiguous megablast (blastn находит немного больше).
Пример находки, найденной ими и не найденной megablast: Ophiopholis sp. EAC01 voucher BIOUG<CAN>:HLC-24064 cytochrome oxidase subunit 1 (COI) gene, partial cds; mitochondrial
Все находки megablast пересекаются со списком discontiguous megablast и blastn, но их значительно меньше.
Из полученных данных можно сделать вывод, что blastn и discontiguous megablast работают одинаково, с единственным отличием, что blastn выдает немного больше последовательностей. Blastn (или discontiguous megablast) и megablast находят одни и те же находки, но отличные по параметрам max score, total score и query cover. Megablast работает гораздо строже, отсеивая большее количество находок и, следовательно, выдавая последовательности, лишь наиболее близкие к исходной. Он подходит для поиска близкородственных последовательностей, работает достаточно быстро.

Проверка наличия гомологов белков

Необходимо проверить наличие гомологов определенных белков в геноме организма X5 (Amoboaphelidium protococarum) c помощью локального BLAST. Задание выполнялось с помощью версии BLAST+, установленной на kodomo.
Для начала я создала локальную базу данных (makeblastdb -in X5.fasta -dbtype nucl).Параметр "-dbtype" указывает на тип последовательности (в случае нуклеотидной последовательности нужно указать "-dbtype nucl". Затем для каждого из выбранных белков запустила по ней алгоритм tblastn, находящий гомологи белка в формальной трансляции нуклеотидного банка (tblastn -query xxx.fasta -db X5.fasta > xxx.out)[2]

1.Белок HSP7C_HUMAN

Белок HSP7C - белок теплового шока. Выступает репрессором активации транскрипции. Ингибирует транскрипционную активность CITED1 Smad-опосредованной транскрипции. Консервативный шаперон HSP70. Компонент комплекса PRP19-CDC5L, формирующий концевую часть сплайсосомы, необходим для активации сплайсинга pre-mRNA. Контактирует со всеми ее компонентами, поэтому может выполнять структурную функцию. Связывается с бактериальными LPS, выступает посредником в LPS-индуцированной воспалительной реакции, включая секрецию моноцитами фактора некроза опухолей TNF.[2]

Результат работы программы tblastn в файле

Лучший результат:
> scaffold-199
Length=1112851
Score = 917 bits (2369), Expect = 0.0, Identities = 474/607 (78%), Positives = 538/607 (89%), Gaps = 0/607 (0%), Frame = -2

Лучшая находка имеет хороший E-value и остальные параметры, таким образом, что эту находку можно назвать гомологом, и скорее всего она несет схожие функции.

1.Белок TERT_HUMAN

TERT_HUMAN - теломераза, восстанавливающая длину хромосомы при репликации. Имеется у большинства, но не у всех эукариот. Активна в прогениторных и раковых клетках, в нормальных же соматических не активна или проявляет очень низкую активность. Играет важную роль в процессах старения и предотвращении апоптоза.[3]

Результат работы программы tblastn в файле

Лучший результат:
> scaffold-17
Length=2125590
Score = 105 bits (263), Expect = 8e-23, Method: Compositional matrix adjust.
Identities = 151/568 (27%), Positives = 248/568 (44%), Gaps = 43/568 (8%)
Frame = +1

Находку можно охарактеризовать как условно положительную: совпадения в последовательностях есть, хоть и параметры сходства довольно низкие (не можем говорить о похожих функциях), и они так разбросаны, что о гомологии доменов говорить не приходится.

1.Белок CISY_HUMAN

CISY_HUMAN - митохондриальная цитратсинтаза. Участвует в цикле трикарбоновых кислот. Проявляет каталитическую активность в реакции Acetyl-CoA + H2O + oxaloacetate = citrate + CoA. [4]

Результат работы программы tblastn в файле

Лучший результат:
> scaffold-693
Length=1268102
Score = 565 bits (1457), Expect = 2e-180, Method: Compositional matrix adjust.
Identities = 262/377 (69%), Positives = 315/377 (84%), Gaps = 3/377 (1%)
Frame = +1

Параметры сходства снова достаточно хорошие, так что с уверенностью можно утверждать, что данный белок является гомологом.

Поиск гена белка, закодированного в одном контиге ''Amoboaphelidium''

С помощью команды infoseq пакета EMBOSS была получена информация о длинах контигов (infoseq X5.fasta -only -name -length.) Я выбрала последовательность scaffold-693 (длина 1268102 нуклеотидов), т.к. она достаточно большая для наличия в ней кодирующего белок гена, и поместила ее в отдельный файл (командой seqret X5.fasta:scaffold-693 -out scaf693.fasta).

Далее был запущен blastn с параметрами по умолчанию и ограничению по таксону Amoeboaphelidium (taxid:1243176).

Результат работы blastn

Как видно из результатов, у нас есть 3 последовательности генов со 100% Identity и хорошим E-value. Такой низкий Query cover обусловлен малыми размерами гена по сравнению с длиной общей последовательности. Следовательно, с уверенностью можно утверждать, что данный контиг содержит найденные гены.
Лучший в списке находок - частичная последовательность рибосомального гена 18S изолята FD95; полная последовательность внутреннего транскрибируемого сплайсера 1 5.8S рибосомального РНК гена и внутренноего транскрибируемого сплайсера 2; частичная последовательность 28S рибосомального РНК гена.

[1]. Heat shock cognate 71 kDa protein (UniProt)
[2]. Инструкция к BLAST на kodomo
[3]. Telomerase reverse transcriptase (UniProt)
[4]. Citrate synthase, mitochondrial (UniProt)

Назад
На главную



© Кучеренко Варвара 2015