Ралдугина Василиса

Студентка Факультета биоинженерии и биоинформатики

МГУ имени М.В. Ломоносова

Обо мне

Главная

Сайт ФББ МГУ

Нуклеотидный Blast

Задание 1. Определить таксономию и функцию прочтенной вами нуклеотидной последовательности (из практикума 6)

Последовательность, прямое прочтение: straight.fasta
Заданные параметры и выдача:



     Максимально сходство с последовательностью, доступной по ссылке.
Организм: Polycirrus medusa (Eukaryota; Metazoa; Lophotrochozoa; Annelida; Polychaeta; Scolecida; Terebellida; Terebellidae; Polycirrus). Последовательность кодирует первую субъединицу цитохром оксидазы (Cytochrome oxidase subunit 1 (COI) gene).

Задание 2. Сравните списки находок нуклеотидной последовательности 3-я разными алгоритмами blast

В данном случае будут рассматриваться три алгоритма: blastn, megablast и discontiguous megablast. Чтобы сравнить их, нужно расширить область поиска. Результаты запроса по роду Polycirrus (taxid:516039): 18 последовательности для megablast, 44 для discontiguous megablast, 51 для blastn.

Параметры запуска BLAST
Algorithm DatabaseMax Target SequencesExpect Threshold Word SizeMax matchesMatch/Mismatch ScoresGap Costs
megablastNucleotide collection (nr/nt)10000.00128 01, -2Linear
discontiguous megablastNucleotide collection (nr/nt)10000.001 1102, -3Existence:5, Extention: 2
blastnNucleotide collection (nr/nt)10000.00111 02, -3Existence:5, Extention: 2


Результаты работы алгоритма megablast


Результаты работы алгоритма discontiguous megablast


Результаты работы алгоритма discontiguous blastn

Сравнение алгоритмов
АлгоритмЧисло находокScore лучшей находкиScore худшей находки E-value лучшей находкиE-value худшей находкиIdent лучшей находки Ident худшей находкиQuery cover лучшей находкиQuery cover худшей находки
megablast188917080.00.094%88%100% 100%
discontiguous megablast449044620.01e-13294%78%100% 97%
blastn5190422.90.02.694%%100%100% 5%

Все три алгоритма нашли одинаковые последовательности с максимальным сходством.
Как и ожидалось, megablast нашел меньше находок, чем другие алгоритмы, т.к. предназначался для поиска среди очень похожих последовательностей. Он подходит для поиска близкородственных последовательностей, работает достаточно быстро. Больше всего находок у blastn, т.к. алгоритм охватывает более широкий спектр исследования. Полученный выше вывод подтверждает Query score худшей находки.

megablast, discontiguous megablast, discontiguous blastn

Задание 3. Проверить наличие гомологов трех белков в геноме одного организмов

Необходимо проверить наличие гомологов определенных белков в геноме организма X5 (Amoboaphelidium protococarum) c помощью локального BLAST. Задание выполнялось с помощью версии BLAST+, установленной на kodomo.
Для начала я создала локальную базу данных (makeblastdb -in X5.fasta -dbtype nucl).Параметр "-dbtype" указывает на тип последовательности (в случае нуклеотидной последовательности нужно указать "-dbtype nucl". Затем для каждого из выбранных белков запустила по ней алгоритм tblastn, находящий гомологи белка в формальной трансляции нуклеотидного банка (tblastn -query xxx.fasta -db X5.fasta > xxx.out)[2]

Белок HSP71_YEAST

Белок HSP71_YEAST - белок теплового шока. Консервативный шаперон HSP70.

Результат работы программы tblastn в файле

Лучший результат:
> scaffold-199
Length=1112851
Score = 920 bits (2377), Expect = 0.0, Identities = 481/609 (79%), Positives = 550/600 (90%), Gaps = 3/600 (0%), Frame = -2

Лучшая находка имеет хороший E-value и остальные параметры, таким образом, что эту находку можно назвать гомологом, и скорее всего она несет схожие функции.

Белок PRPC_EMENI

PRPC_EMENI - митохондриальная цитратсинтаза.

Результат работы программы tblastn в файле

Лучший результат:
> scaffold-693
Length=1268102
Score = 393 bits (1010), Expect = 6e-121, Method: Compositional matrix adjust.
Identities = 212/376 (56%), Positives = 269/376 (72%), Gaps = 6/376 (2%)
Frame = +1

Находку можно охарактеризовать как гомологичную, т.к. параметры сходства я сочла достаточно высокими.

Белок TBB_NEUCR

TBB_NEUCR - тубулин, белок, участвующий в образовании микротрубочек

Результат работы программы tblastn в файле

Лучший результат:
> unplaced-665
Length=20473
Score = 742 bits (1915), Expect = 0.0, Method: Compositional matrix adjust.
Identities = 367/450 (82%), Positives = 389/450 (88%), Gaps = 22/450 (5%)
Frame = -2

Параметры сходства снова достаточно хорошие, так что можно сказать, что данный белок является гомологом.

Задание 4. Найти один ген белка, закодированный в одном скэффолде ''Amoeboaphelidium protococcarum'

С помощью команды infoseq пакета EMBOSS была получена информация о длинах контигов (infoseq X5.fasta -only -name -length.) Я выбрала последовательность scaffold-17 (длина 2125590 нуклеотидов), т.к. она достаточно большая для наличия в ней кодирующего белок гена, и поместила ее в отдельный файл (командой seqret X5.fasta:scaffold-17 -out scaf17.fasta).

Далее был запущен blastn с параметрами по умолчанию и ограничению по таксону Amoeboaphelidium (taxid:1243176).

Результат работы blastn

Как видно из результатов, у нас есть 5 последовательностей генов с Identity 92-96%. Такой низкий Query cover обусловлен малыми размерами гена по сравнению с длиной общей последовательности. Я считаю, что можно утверждать, что данный контиг содержит найденные гены. Далее мной были выбраны гены белка, закодированные в скэффолде

Рисунок


Лучший в списке находок - Amoeboaphelidium protococcarum RPB2 (RPB2) gene, complete cds

© Raldugina Vasilisa 2016