Поиск по сходству (нуклеотидный blast)

Задание №1

В задании требовалось определить с помощью BLAST таксономию и функцию нуклеотидной последовательности, прочтенной в практикуме №6. Последовательность в формате fasta была подана на вход в blastn. Поиск осуществлялся по базе данных Nucleotide collection (nr/nt) со стандартными параметрами алгоритма megablast. Выдача blast (лучшие находки) представлена ниже.

Первые 44 находки имели следующие характеристики: E-value = 0, Identity >95%, Query cover >97% (за исключением 3-х находок), Score = [1182-1046]. Далее шли находки с меньшим покрытием, идентичностью и весом. Помимо Ophiopholis aculeata были найдены Ophiopholis japonica, Ophiopholis sp. EAC01 , Ophiopholis longispina , Ophiolepis cincta , Ophioscolex glacialis , Ophiactis amator , Ophiothrix lineata , и др.

Чтобы определить таксономию данной последовательности было построено выравнивание ее и 5 лучших находок из рода Ophiopholis.

Выравнивание демонстрирует родственность пяти видов, однако, наибольшее число идентичных позиций с исходной последовательностью наблюдается у последовательности, принадлежащей виду Ophiopholis aculeata.
Таким образом, можно сказать, что исследуемая последовательность принадлежит виду Ophiopholis aculeata.

Систематика вида:




Кодируемый белок однозначно определяется результатами: все лучшие находки — гены, кодирующие один и тот же белок. Однозначно можно сказать, что данный митохондриальный ген кодирует субъединицу 1 цитохромоксидазы (CO1).

Цитохром с-оксидаза (цитохромоксидаза) — терминальная оксидаза аэробной дыхательной цепи переноса электронов, которая катализирует перенос электронов с цитохрома с на кислород с образованием воды. Цитохромоксидаза присутствует во внутренней мембране митохондрий всех эукариот, а также в клеточной мембране многих аэробных бактерий.
Три большие субъединицы комплекса (в том числе и CO1), гомологичные бактериальным, несут на себе все необходимые кофакторы и осуществляют основные реакции катализа, связанные, в том числе, и с переносом протонов.

Задание №2

Во втором задании необходимо было сравнить списки находок нуклеотидной последовательности тремя разными алгоритмами blast.

1) megablast (Optimize for Highly similar sequences)

2)discontiguous megablast (More dissimilar sequences)

3)blastn (Somewhat similar sequences).

алгоритм blastn предназначен для поиска не обязательно родственных, но похожих последовательностей. Поэтому среди находок могут быть и негомологичные последовательности, которые не нужно учитывать при дальнейшем анализе. Кроме того, поиск довольно медленный, однако размер слова* задается в пределах от 7 до 15;

алгоритм discontiguous megablast предназначен для межвидового поиска гомологов. При этом в слове* допускаются мисматчи, а его размер задается в пределах от 11 до 12;

алгоритм megablast предназначен для поиска близкородственных последовательностей и особенно подходит для поиска на 95% идентичных находок. Помимо этого этот алгоритм самый быстрый. Однако размер слова* можно задать только в пределах от 16 до 256.

*Слово, инициирующее выравнивание (initial seed) — слово определенной длины, с которого начинается выравнивание.

Все параметры кроме длины слова и количества находок (1000) были дефолтными.
Для уменьшения количества находок поиск был ограничен семейством Ophiactidae (Tax ID: 41169).

Параметры поиска (megablast, discontiguous megablast, blastn соответственно):

В результате были получены 3 выдачи, в которых оценивались две находки: лучшая и худшая. Их сравнение представлено в следующей таблице таблице.

По алгоритму blastn было найдено на одну последовательность больше, чем по алгоритму discontiguous megablast; однако эта находка имееет очень высокий e-value и очень низкое покрытие.

Примечание: для алгоритма blastn были приведены две худшие находки, так самая плохая имела очень высокий e-value и очень низкое покрытие.

организм

max score

total score

query cover

E-value

ident

количество находок

megablast

66

Ophiopholis aculeata

1182

1182

100%

0.0

99%

Ophiactis amator

374

374

98%

0,00000

77%

discontiguous megablast

283

Ophiopholis aculeata

1157

1157

100%

0.0

99%

Ophiactis savignyi

298

298

69%

0,00000

75%

blastn

284

Ophiopholis aculeata

1157

1157

100%

0.0

99%

Ophiactis simplex

27,4

27,4

2%

7,10000

100%

Ophiactis savignyi

298

298

69%

0,00000

75%

Задание №3

В этом задании нужно было проверить наличие гомологов трех белков в заданном геноме Amoeboaphelidium protococarum.

В начале была создан банк данных по геному Amoboaphelidium

команда: makeblastdb -in X5.fasta -dbtype nucl

Для проверки гомологии были выбраны следующие белки: HSP7C_HUMAN , CISY_HUMAN , PABP2_HUMAN

Далее для проверки наличия гомологов надо было запустить локальный бласт нуклеотидной последовательности против нуклеотидного банка данных, но проверять на сходство белковые последовательности. Это делает алгоритм tblastn.

команды:

tblastn -query HSP7C_HUMAN.fasta -db X5.fasta -out HSP7C.out -outfmt 7

tblastn -query CISY_HUMAN .fasta -db X5.fasta -out CISY .out -outfmt 7

tblastn -query PABP2_HUMAN .fasta -db X5.fasta -out PABP2 .out -outfmt 7

HSP7C_HUMAN - консервативный шаперон HSP70, белок теплового шока (белок стресса), с молекулярной массой 70кДа. Белки теплового шока действуют как внутриклеточные шапероны в отношении других белков: принимают участие в сворачивании и разворачивании белков, обеспечивают клетке нечувствительность к нагреванию. Предотвращает сворачивание белков в ходе посттрансляционного транспорта в митохондрии и хлоропласты. С-конец включает домен, связывающий субстрат, а N-конец — АТФ-связывающий домен. Между двумя доменами находится консервативный участок, называемый петлей LL,1. Ближе к С-концу, возможно, располагается сайт для докинга ко-шаперонов. При связывании с полипептидами способствует их правильному фолдингу. Также принимает участие в апоптозе, росте и дифференциации клеток, сигнальной трансдукции

Число находок — 22 (из них 6 – unplaced).

Лучшая находка (минимальный E-value в сочетании с максимальным % идентичности)

> scaffold-199

score: 917

e-value: 0.0

identity: 78%

такие данные позволяют предположить, что гомолог и этого белка тоже присутствует у исследуемого организма.

Примечание: blast построил несколько выравниваний, в которые вошли лишь некоторые участки нашего белка – выравнивания, скэффолд которых определялся как unplaced. Например, одно из таких выравниваний имеет следующие параметры:

> unplaced-804

score: 265

e-value: 5e-75

identity: 69%

Можно сделать вывод, что у исследуемого организма есть гомологичный домен, который также может быть частью более крупного гомологичного участка, в данный момент разбитого на части, (т.к. точное расположение unplaced-804 в геноме нашего организма пока неизвестно).

CIZY-HUMAN (цитратсинтаза) — фермент, с помощью которого катализируется первая реакция в цикле Кребса, представляющая в свою очередь конденсацию ацетил Со-А с оксалоацетатом, что приводит к образованию цитрата. Синтетаза цитрата обнаружена практически во всех клетках аэробных организмов. Фермент располагается в митохондриальном матриксе эукариот, однако кодируется ядерным геномом. Можно предположить, что такой белок должен быть у всех аэробных организмов.

Всего было построено 6 выравниваний, из которых стоят внимания только два идентичных выравнивания для двух разных скэффолдов: scaffold-693 и scaffold-157.
Характеристика обоих выравниваний:

score: 565 (564)

e-value: 2(5)e-180

identity: 69%

Примечание: Значение параметра e-value в выравниваниях отличается

На основании этого можно предположить условно положительный ответ: данные участки являются гомологоми, но функции могут быть видоизменены, т.к. сходство достаточно низкое.

PABP2_HUMAN — белок, связывающий поли(А)-хвост (200-250нк) матричной РНК. Стимулирует поли(А)полимеразу. Может защищать поли(А)-хвост от разрушения. Также присутствует на разных стадиях метаболизма мРНК8. Полиаденилирование защищает мРНК от ферментативного разрушения в цитоплазме, способствует терминации транскрипции, участвует в экспорте мРНК из ядра и трансляции. Практически все эукариотические мРНК полиаденилируются, поэтому мы также можем предположить, что такой белок должен быть нашего организма.

Всего было построено 28 выравниваний. Все из которых, кроме двух, не имеют статистической ценности. Обе находки идентичны одному и тому же участку 168-253.

Характеристика обоих выравниваний:

> scaffold-100, > scaffold-199

score: 117 (114)

e-value: 2e-28 (2e-27)

identities: 63%

Возможно, имеется гомология доменов, однако мне это представляется маловероятным по причине маленького числа идентичных позиций на столь небольшом участке.

Задание 4.

В четвертом задании было необходимо найти один ген белка, закодированный в одном скэффолде Amoboaphelidium protococarum.

Из файла X5.fasta была получена информация о длинах скэффолдов.

infoseq X5.fasta -only -name –length

Затем был выбран скэффолд №126 длиной в несколько десятков тысяч пар нуклеотидов (92370 п.н.), и с помощью команды:

seqret X5.fasta:scaffold-126 -out scaffold126.fasta

была получена последовательность данного скэффолда (scaffold126.fasta)

Так как для данного рода помимо Amoboaphelidium protococarum нет достаточного количества представителей с секвенированным геномом, поиск по роду Amoeboaphelidium (Tax ID: 1243176) не дал бы значительных результатов.

Поэтому поиск blast был ограничен по Opisthokonta и Fungi, так как наш вид принадлежит группе опистоконт, являясь при этом родственником грибов. Параметры поиска:

Выдача megablast:

Лучшая находка кодирует 18S-цепь малой субъединицы рибосомы Amoeboaphelidium protococcarum. Однако, значение e-value, identity и то, что большинство найденных генов кодируют 28S-цепь большой субъединицы цитоплазматической эукариотической рибосомы, позволяет предположить, что именно этот ген закодирован в 126-м скэффолде.

Примечание: значение query cover, равное нулю у всех находок, сильно напрягает.

На следующем рисунке показано примерное расположение гена в скэффолде (точные границы blast найти не позволяет).

Скорее всего, такое количество вариантов обусловлено тем, что скэффолд 126, помимо гена, кодирующего 28S-цепь, содержит еще несколько генов, кодирующих представленные в результате выдачи megablast структуры: 18S-цепь малой субъединицы хромосомы и гистон H3 (вариант h3.1); к тому же все они расположены в разных участках скэффолда.

К семестрам


© Енькова Анна, 2017