Учебный сайт Сергея Пушкарева

Навигация по сайту:

BLASTN и все-все-все

Задание 1. Определение таксономии.

Для поисков гомологов последовательности из практикума 6 был использован BLASTN(word size 7, match/mismatch 1,-1) по банку Nucleotide collection. В выдаче BLASTN виден переход от вида, которому предположительно принадлежит последовательность, к другим видам(падение процента идентичности с 98 до 88, а также Score с 919 до 771).

Рис 1. Выдача BLASTN. Момент перехода, описываемый выше, отмечен красной линией.

В виду того, что Onchidoris muricata так хорошо отличается от всего остального, можно предположить, что наша последовательность действительно принадлежит ему. Т.е. уровень таксономии — вид. Что касается гена, то наша последовательность — это участок гена(partial CDS) COX1(COI) митохондриальной ДНК, использующийся для баркодинга (то, что он используется в баркодинге мы знаем из презентации и, например из того, что в записи GenBank одной из гомологичных последовательностей, найденных с помощью BLASTN, в поле KEYWORDS указано "BARCODE").

Задание 2. Сравнение вариантов BLAST

Первое сравнение

В первом сравнении искали гомологи последовательности, полученной в прошлом практикуме. Искали по банку nr, по суперсемейству Anadoridoidea, исключая семейство Onchidorididae, которому принадлежит Onchidoris muricatа.

Алгоритм Word size Match/mismatch Число хитов
Megablast 28 1/-2 44
BLASTN стандартный 11 2/-3 204
BLASTN чувствительный 7 1/-1 209
Таблица 1. Первое сравнение.

Как видно из таблицы 1, BLASTN намного лучше подходит для поиска гомологов, чем Megablast. Отличие же blastn с разными параметрами запуска не впечатлило: чувствительный blastn нашел только на 5 последовательностей больше, причем смысла в них немного: они имеют очень низкий coverage и находятся вообще не в гене COI, а в последовательности 16S рРНК.

Рис. 2. Конец выдачи BLASTN на стандартных настройках.
Рис. 3. Конец выдачи BLASTN на чувствительных настройках.

Второе сравнение

Во втором сравнении искали гомологи последовательности 18S rRNA из митохондриального генома Huperzia squarrosa, который анализировался в прошлом практикуме. Искали по классу Lycopodiopsidа, исключая род Phlegmariurus, которому принадлежит Huperzia squarrosa.

Алгоритм Word size Match/mismatch Число хитов
Megablast 28 1/-2 58
BLASTN стандартный 11 2/-3 161
BLASTN чувствительный 7 1/-1 156
Таблица 2. Второе сравнение.

BLASTN снова показал себя лучше Megablast, однако произошло нечто необъяснимое: стандартный blastn нашел больше последовательностей, чем чувствительный. При более подробном рассмотрении с помощью python скрипта, оказалось, что каждый алгоритм нашел некоторые последовательности, которые не нашел другой: чувствительный blastn нашел JQ863217.1, KX013258.1, а стандартный XM_002981212.2, XM_024674373.1, XM_024674372.1, XM_024665014.1, XM_002982873.2, XM_002982678.2, XM_024660597.1.

Задание 3. Поиск гомологов в геноме

Поиск гомологов осуществлялся с помощью TBLASTN.

HSP71_YEAST

В геноме Amoeboaphelidium protococcarum обнаружился гомолог с достаточно большим процентом идентичности (79%), отличающиеся остатки распределены равномерно по белку, что позволяет говорить, что это действительно гомолог. По данным Uniprot, белок участвует в транспорте полипептидов в ЭПР и через митохондриальные мембраны. Координаты гомолога в scaffold-199: 1109256-1107430(комплементарная цепь, рамка -2). E-value настолько мал, что TBLASTN пишет 0(Например 8e-171 у четвертого по score выравнивания он еще выводит).

Выходной файл TBLASTN.

EIF3G_SCHPO

Лучший score у scaffold-20. E-value получился равным 2e-21, на фоне других выравниваний для этого гена (за исключением scaffold-444, где E-value только на порядок больше) выглядит достаточно показательно, чтобы считать участок в scaffold-20 гомологом. Процент идентичности — 38%. EIF3G - компонент фактора инициации трансляции эукариот. Координаты в scaffold-20: 8619-7774(комплементарная цепь, рамка -1).

Выходной файл TBLASTN.

TBB_NEUCR

Лучший score имеет unplaced-665. Координаты гомолога в unplaced-665: 7236-5887(комплементарная цепь, рамка -2). E-value, как и в случае HSP71_YEAST, "равен" 0. В выравнивании есть один большой гэп, который может соответствовать какой-нибудь петле и ни на что не влиять. Процент идентичности высокий: 82%. Скорее всего это гомолог. Uniprot сообщает, что белок является β-тубулином, составным элементом микротрубочек.

Выходной файл TBLASTN.

Задание 4. Поиск гена в контиге

Для поиска был выбран большой контиг unplaced-5. C помощью Megablast в нем отыскалось множество гомологов гена α-тубулина.

Фрагмент выдачи Megablast.
То же, только в графическом виде.

Задание 5. Карта локального сходства геномов

Для этого задания были выбраны две бактерии из рода Brucella: B. ovis и B. abortus. Обе имеют по две хромосомы. У B. ovis это NC_009505.1 и NC_009504.1, у B. abortus — NC_006932.1 и NC_006933.1 соотвественно. Выравнивали Megablast-ом попарно хромосомы. Первое выравнивание получилось довольно скучным, а вот во втором можно увидеть делецию у B. ovis в правом вехнем углу, а также крупную инверсию.

Карта локального сходства первых хромосом. Вертикальная ось - B. abortus, горизональная - B.ovis.
Карта локального сходства вторых хромосом. Вертикальная ось - B.ovis, горизональная - B. abortus.

© Пушкарев Сергей, 2018