|
|
|
![]() |
Кодируемый белок однозначно определяется результатами: все лучшие находки —
гены, кодирующие один и тот же белок. Однозначно можно сказать, что данный
митохондриальный ген кодирует субъединицу 1 цитохромоксидазы (CO1).
Цитохром с-оксидаза (цитохромоксидаза) — терминальная оксидаза аэробной
дыхательной цепи переноса электронов, которая катализирует перенос
электронов с цитохрома с на кислород с образованием воды. Цитохромоксидаза
присутствует во внутренней мембране митохондрий всех эукариот, а также в
клеточной мембране многих аэробных бактерий.
Три большие субъединицы комплекса (в том числе и CO1), гомологичные
бактериальным, несут на себе все необходимые кофакторы и осуществляют
основные реакции катализа, связанные, в том числе, и с переносом протонов.
Задание №2
Во втором задании необходимо было сравнить списки находок нуклеотидной последовательности тремя разными алгоритмами blast.
1) megablast (Optimize for Highly similar sequences)
2)discontiguous megablast (More dissimilar sequences)
3)blastn (Somewhat similar sequences).
алгоритм blastn предназначен для поиска не обязательно родственных, но похожих последовательностей. Поэтому среди находок могут быть и негомологичные последовательности, которые не нужно учитывать при дальнейшем анализе. Кроме того, поиск довольно медленный, однако размер слова* задается в пределах от 7 до 15;
алгоритм discontiguous megablast предназначен для межвидового поиска гомологов. При этом в слове* допускаются мисматчи, а его размер задается в пределах от 11 до 12;
алгоритм megablast предназначен для поиска близкородственных последовательностей и особенно подходит для поиска на 95% идентичных находок. Помимо этого этот алгоритм самый быстрый. Однако размер слова* можно задать только в пределах от 16 до 256.
*Слово, инициирующее выравнивание (initial seed) — слово определенной длины, с которого начинается выравнивание.
Все параметры кроме длины слова и количества находок (1000) были
дефолтными.
Для уменьшения количества находок поиск был ограничен семейством
Ophiactidae (Tax ID: 41169).
Параметры поиска (megablast, discontiguous megablast, blastn соответственно):
В результате были получены 3 выдачи, в которых оценивались две находки: лучшая и худшая. Их сравнение представлено в следующей таблице таблице.
По алгоритму blastn было найдено на одну последовательность больше, чем по алгоритму discontiguous megablast; однако эта находка имееет очень высокий e-value и очень низкое покрытие.
Примечание: для алгоритма blastn были приведены две худшие находки, так самая плохая имела очень высокий e-value и очень низкое покрытие.
организм |
max score |
total score |
query cover |
E-value |
ident |
количество находок |
megablast |
66 |
|||||
1182 |
1182 |
100% |
0.0 |
99% |
||
Ophiactis amator |
374 |
374 |
98% |
0,00000 |
77% |
|
discontiguous megablast |
283 |
|||||
1157 |
1157 |
100% |
0.0 |
99% |
||
Ophiactis savignyi |
298 |
298 |
69% |
0,00000 |
75% |
|
blastn |
284 |
|||||
Ophiopholis aculeata |
1157 |
1157 |
100% |
0.0 |
99% |
|
Ophiactis simplex |
27,4 |
27,4 |
2% |
7,10000 |
100% |
|
Ophiactis savignyi |
298 |
298 |
69% |
0,00000 |
75% |
Задание №3
В этом задании нужно было проверить наличие гомологов трех белков в заданном геноме Amoeboaphelidium protococarum.
В начале была создан банк данных по геному Amoboaphelidium
команда: makeblastdb -in X5.fasta -dbtype nucl
Для проверки гомологии были выбраны следующие белки: HSP7C_HUMAN , CISY_HUMAN , PABP2_HUMAN
Далее для проверки наличия гомологов надо было запустить локальный бласт нуклеотидной последовательности против нуклеотидного банка данных, но проверять на сходство белковые последовательности. Это делает алгоритм tblastn.
команды:
tblastn -query HSP7C_HUMAN.fasta -db X5.fasta -out HSP7C.out -outfmt 7
tblastn -query CISY_HUMAN .fasta -db X5.fasta -out CISY .out -outfmt 7
tblastn -query PABP2_HUMAN .fasta -db X5.fasta -out PABP2 .out -outfmt 7
HSP7C_HUMAN - консервативный шаперон HSP70, белок теплового шока (белок стресса), с молекулярной массой 70кДа. Белки теплового шока действуют как внутриклеточные шапероны в отношении других белков: принимают участие в сворачивании и разворачивании белков, обеспечивают клетке нечувствительность к нагреванию. Предотвращает сворачивание белков в ходе посттрансляционного транспорта в митохондрии и хлоропласты. С-конец включает домен, связывающий субстрат, а N-конец — АТФ-связывающий домен. Между двумя доменами находится консервативный участок, называемый петлей LL,1. Ближе к С-концу, возможно, располагается сайт для докинга ко-шаперонов. При связывании с полипептидами способствует их правильному фолдингу. Также принимает участие в апоптозе, росте и дифференциации клеток, сигнальной трансдукции
Число находок — 22 (из них 6 – unplaced).
Лучшая находка (минимальный E-value в сочетании с максимальным % идентичности)
> scaffold-199
score: 917
e-value: 0.0
identity: 78%
такие данные позволяют предположить, что гомолог и этого белка тоже присутствует у исследуемого организма.
Примечание: blast построил несколько выравниваний, в которые вошли лишь
некоторые участки нашего белка – выравнивания, скэффолд которых определялся
как unplaced. Например, одно из таких выравниваний имеет следующие
параметры:
> unplaced-804
score: 265
e-value: 5e-75
identity: 69%
Можно сделать вывод, что у исследуемого организма есть гомологичный домен, который также может быть частью более крупного гомологичного участка, в данный момент разбитого на части, (т.к. точное расположение unplaced-804 в геноме нашего организма пока неизвестно).
CIZY-HUMAN (цитратсинтаза) — фермент, с помощью которого катализируется первая реакция в цикле Кребса, представляющая в свою очередь конденсацию ацетил Со-А с оксалоацетатом, что приводит к образованию цитрата. Синтетаза цитрата обнаружена практически во всех клетках аэробных организмов. Фермент располагается в митохондриальном матриксе эукариот, однако кодируется ядерным геномом. Можно предположить, что такой белок должен быть у всех аэробных организмов.
Всего было построено 6 выравниваний, из которых стоят внимания только два
идентичных выравнивания для двух разных скэффолдов: scaffold-693 и
scaffold-157.
Характеристика обоих выравниваний:
score: 565 (564)
e-value: 2(5)e-180
identity: 69%
Примечание: Значение параметра e-value в выравниваниях отличается
На основании этого можно предположить условно положительный ответ: данные участки являются гомологоми, но функции могут быть видоизменены, т.к. сходство достаточно низкое.
PABP2_HUMAN — белок, связывающий поли(А)-хвост (200-250нк) матричной РНК. Стимулирует поли(А)полимеразу. Может защищать поли(А)-хвост от разрушения. Также присутствует на разных стадиях метаболизма мРНК8. Полиаденилирование защищает мРНК от ферментативного разрушения в цитоплазме, способствует терминации транскрипции, участвует в экспорте мРНК из ядра и трансляции. Практически все эукариотические мРНК полиаденилируются, поэтому мы также можем предположить, что такой белок должен быть нашего организма.
Всего было построено 28 выравниваний. Все из которых, кроме двух, не имеют статистической ценности. Обе находки идентичны одному и тому же участку 168-253.
Характеристика обоих выравниваний:
> scaffold-100, > scaffold-199
score: 117 (114)
e-value: 2e-28 (2e-27)
identities: 63%
Возможно, имеется гомология доменов, однако мне это представляется маловероятным по причине маленького числа идентичных позиций на столь небольшом участке.
Задание 4.
В четвертом задании было необходимо найти один ген белка, закодированный в одном скэффолде Amoboaphelidium protococarum.
Из файла X5.fasta была получена информация о длинах скэффолдов.
infoseq X5.fasta -only -name –length
Затем был выбран скэффолд №126 длиной в несколько десятков тысяч пар нуклеотидов (92370 п.н.), и с помощью команды:
seqret X5.fasta:scaffold-126 -out scaffold126.fasta
была получена последовательность данного скэффолда (scaffold126.fasta)
Так как для данного рода помимо Amoboaphelidium protococarum нет достаточного количества представителей с секвенированным геномом, поиск по роду Amoeboaphelidium (Tax ID: 1243176) не дал бы значительных результатов.
Поэтому поиск blast был ограничен по Opisthokonta и Fungi, так как наш вид принадлежит группе опистоконт, являясь при этом родственником грибов. Параметры поиска:
Выдача megablast:
Лучшая находка кодирует 18S-цепь малой субъединицы рибосомы Amoeboaphelidium protococcarum. Однако, значение e-value, identity и то, что большинство найденных генов кодируют 28S-цепь большой субъединицы цитоплазматической эукариотической рибосомы, позволяет предположить, что именно этот ген закодирован в 126-м скэффолде.
Примечание: значение query cover, равное нулю у всех находок, сильно напрягает.
На следующем рисунке показано примерное расположение гена в скэффолде (точные границы blast найти не позволяет).
Скорее всего, такое количество вариантов обусловлено тем, что скэффолд 126, помимо гена, кодирующего 28S-цепь, содержит еще несколько генов, кодирующих представленные в результате выдачи megablast структуры: 18S-цепь малой субъединицы хромосомы и гистон H3 (вариант h3.1); к тому же все они расположены в разных участках скэффолда.
© Енькова Анна, 2017 |