Вернуться на главную страницу

Семестры

Третий семестр

Нуклеотидный blast

Задание №1

Требовалось определить с помощью BLAST таксономию и функцию нуклеотидной последовательности, прочтенной в практикуме №6. Для начала стоит обратить внимание, что из практикума №6 мы имеем две последовательности: с прямой цепи и с обратной цепи. Было решено объединить в единную последовательность, для того, чтобы не терять значительную и довольно не плохо прочитанную часть последовательности. После, при анализе полученных находок, можно будет учесть, что концы менее достоверны, чем средняя часть.

Данная последовательность была брошена в нуклеотидный BLAST; по базе данных Nucleotide collection (nr/nt); с длиной слова 16. Выдача blast (лучшие находки) представлена ниже.

Судя по всему, данная последовательность не является белоккодирующей, а последовательностью 18S рРНК малой (40S) субъединицы рибосомы эукариот. Последовательность гена рРНК явялется одной из наиболее консервативных (что и видно по выдаче blast, в которой разнообразные организмы имеют довольно высокое сходство).

Чтобы определить таксономию данной последовательности было построено выравнивание ее и 9 лучших находок (с identity от 98% до 92%) из семейства Loxosomatidae (рис.1), и из них 5 лучших находок, которые относятся к роду Loxosomella (рис.2).

Рисунок 1

Рисунок 2

Видно, что исходная последовательность (первая в выравнивании) различается примерно так же, как и остальные последовательности разных видов внутри этого рода (при том некоторые виды даже больше отличаются). Добавление последовательностей из других родов еще ухудшает ситуацию, но не сильно. Значит можно утверждать, что данная последовательность относится к роду Loxosomella.

Полная таксономия: Eukaryota; Metazoa; Lophotrochozoa; Entoprocta; Loxosomatidae; Loxosomella

[1]

Задание №2

Сравнивались (для последовательности из первого задания) три алгоритма работы blast: 1) megablast (Optimize for Highly similar sequences) 2)discontiguous megablast (More dissimilar sequences) 3)blastn (Somewhat similar sequences). Все параметры кроме длины слова и количества находок были дефолтными.

Таблица 1. Параметры запуска.

AlgoritmDatabaseOrganismMax target sequencesExpect thresholdWord sizeMax matches in a query rangeMatch/Mismatch ScoresGap Costs
megablastNucleotide collection (nr/nt)Entoprocta (taxid:43120)1000101601,-2Linear
discontiguous megablastNucleotide collection (nr/nt)Entoprocta (taxid:43120)1000101102,-3Existence:5 Extention: 2
blastnNucleotide collection (nr/nt)Entoprocta (taxid:43120)100010702,-3Existence:5 Extention: 2

В результате были получены 3 выдачи. Их сравнение представлено в таблице 2.

Таблица 2.

АлгоритмКоличество находокНаходка 1Находка 2Количество находок только при данном алгоритмеПримерКоличество находок других алгоритмов, не найденных даннымКонмментарии
megablast24Loxosomella varians

1474(Max score) 1474(Total score) 100%(Query cover) 0.0(E-value) 98%(Ident)

Loxosomella sp. 2 JF-2010

1219(Max score) 1219(Total score) 100%(Query cover) 0.0(E-value) 93%(Ident)

0-7Набор находок совпадает с алгоритмом discontiguous megablast
discontiguous megablast24Loxosomella varians

1474(Max score) 1474(Total score) 100%(Query cover) 0.0(E-value) 98%(Ident)

Loxosomella murmanica

1296(Max score) 1296(Total score) 100%(Query cover) 0.0(E-value) 93%(Ident)

0-7Однако очень отличается посчтанный Score: к примеру, находка 2 в алгоритме megablast находится на предпоследнем месте
blastn31Loxosomella varians

1474(Max score) 1474(Total score) 100%(Query cover) 0.0(E-value) 98%(Ident)

Loxosomella murmanica

1296(Max score) 1296(Total score) 100%(Query cover) 0.0(E-value) 93%(Ident)

7Loxosomella murmanica cytochrome c oxidase subunit I gene, partial cds; mitochondrial

28.3(Max score) 28.3(Total score) 5%(Query cover) 0.32(E-value) 75%(Ident)

0Эти дополнительные 7 находок находятся в самом конце и с абсолютно неправдоподобными E-value

Выдача megablast

Выдача discontiguous megablast

Выдача blastn

Сравнение этих алгоритмов демострирует, что blastn выдает большее количество находок чем остальные, однако требует от них как и сильно меньшей схожести (minIdent 24.7 против ~750), так и сильно меньшего качества (minE-value 3.9 против 0.0). А алгоритмы megablast и discontiguous megablast не столь сильно различаются между собой.

Задание №3

Надо было проверить наличие гомологов трех белков (были выбраны HSP7C_HUMAN, CISY_HUMAN, PABP2_HUMAN) в геноме Amoboaphelidium protococarum.

В начале была создан банк данных по геному Amoboaphelidium с помощью команды makeblastdb -in X5.fasta -dbtype nucl. Далее для проверки наличия гомологов надо было запустить локальный бласт нуклеотидной последовательности против нуклеотдного банка данных, но проверять на сходство белковые последовательности. Это делает алгоритм tblastn. Команда: tblastn -query input.fasta -db X5.fasta > output.out

HSP7C_HUMAN

Консервативный шаперон HSP70, белок теплового шока (белок стресса), с молекулярной массой 70кДа. Белки теплового шока действуют как внутриклеточные шапероны в отношении других белков: принимают участие в сворачивании и разворачивании белков, обеспечивают клетке нечувствительность к нагреванию. Предотвращает сворачивание белков в ходе посттрансляционного транспорта в митохондрии и хлоропласты. Компонент комплекса PRP19-CDC5, формирующего неотъемлемую часть сплайсингсомы и обязательного для активации pre-mRNA сплайсинга. Играет роль в сердечно-сосудистой системе. Участвует в связывании и презентации антигенов. Связывает бактериальные липополисахариды (LPS), медиирующие LPS-индуцированный воспалительный ответ, включающий выработку TNF моноцитами.

Результаты работы локального бласт представлены в файле HSP7C_HUMAN.OUT

Было получено 16 находок, все с разумным E-value (< 0,001) и первые со значительным Score.

Параметры лучшей находки:

scaffold-199

Length=1112851

Score = 917 bits (2369), Expect = 0.0, Identities = 474/607 (78%), Positives = 538/607 (89%), Gaps = 0/607 (0%) Frame = -2

На основании этого можно предположить, что данный участок гомологичен hps70 и выполняет подобную функцию.

CISY_HUMAN

Митохондриальная цитратсинтаза - фермент, катализирующий реакцию конденсации ацетата (ацетил-CoA) и оксалоацетата, в результате чего образуется цитрат. Катализируемая реакция является лимитирующей на первом этапе цикла трикарбоновых кислот. Синтетаза цитрата обнаружена практически во всех клетках аэробных организмов.

Результаты работы локального бласт представлены в файле CISY_HUMAN.OUT

Было получено 16 находок, все с разумным E-value (< 0,001) и первые два имеют не такой маленький Score, но все-таки значительно меньше, чем для hps70.

Параметры лучшей находки:

scaffold-693

Length=1268102

Score = 565 bits (1457), Expect = 2e-180, Identities = 262/377 (69%), Positives = 315/377 (84%), Gaps = 3/377 (1%) Frame = +1

На основании этого можно предположить условно положительный ответ: данный участок является гомологом, но функции могут быть видоизменены, т.к. сходство значительно ниже, чем в первом случае. При том нельзя утверждать наличие каких-то гомологичных доменов, потому что несоответствия распределены равномерно вдоль всей последовательности.

PABP2_HUMAN

Белок, связывающий поли(А) хвост (200-250нк) матричной РНК. Стимулирует поли(А)полимеразу. Может защищать поли(А) хвост от разрушения.

Результаты работы локального бласт представлены в файле PABP2_HUMAN.OUT

Было получено 16 находок, из который 6 с с разумным E-value (< 0,001), но даже у первых находок Score весьма низкий.

Параметры лучшей находки:

scaffold-100

Length=762135

Score = 117 bits (292), Expect = 2e-28, Identities = 54/86 (63%), Positives = 64/86 (74%), Gaps = 0/86 (0%) Frame = +1

На основании этого можно дать отрицательный ответ, потому что хоть E-value и достаточный, но вес выравнивания слишком мал, чтобы утверждать гомологию.

Задание №4

Надо найти один ген белка, закодированный в одном скэффолде ''Amoboaphelidium''

Чтобы выбрать скеффолд подходящей длины была использована команда infpseq из пакета (EMBOSS) infoseq X5.fasta -only -name -length. В результате был выбран контиг unplaced-1071 с длиной 86429. Он довольно длинный, и в нем вполне может уместиться ген.

Для извлечения этого контига была использована команда: seqret X5.fasta: unplaced-1071 -out unplaced1071.fasta. Полученный файл

Результаты выдачи blastn c дефолтными параметрами по таксону fungi (taxid:4751)

У находок хорошее E-value и неплохое Identity, так что можно утверждать, что в данном скеффолде закодирована mRNA белка 14-3-3


© Матвейшина Елена, 2015