На главную

Поиск по сходству (нуклеотидный blast)

1. Определение таксономии и функции нуклеотидной последовательности

В данном практикуме использовалась последовательность WS1944_COI_F_C11_WSBS-Seq-4-08-15.fasta, полученная в Практикуме 6. По ней был запущен алгоритм blastn (Somewhat similar sequences) с описанными ниже параметрами (параметры заданы по умолчанию).

Результаты работы программы blastn

Поскольку у первых двух находок покрытие (Query cover) равно 100% и 99% соответственно, а процент совпадений (Ident) равен 99%, можно предположить, что наш белок принадлежит Polycirus medusa. Таксономия: Eukaryota; Opisthokonta; Metazoa; Eumetazoa; Bilateria; Protostomia; Lophotrochozoa; Annelida; Polychaeta; Scolecida; Terebellida; Terebellidae; Polycirrus. Можно также отметить, что первые 50 находок относятся к представителям семейства Terebellidae.

Затем был запущен алгоритм blastх с описанными ниже параметрами.

Результаты работы программы blastх

Как видно из результатов работы программы blastx, выданная последовательность является митохондриальным геном и кодирует субъединицу 1 цитохром-С оксидазы дыхательного комплекса IV (терминального каталитического комплекса митохондриального окислительного фосфорилирования). Цитохром С играет ключевую роль в аэробном метаболизме. У человека MT-CO1 (COX1) кодируется геном MT-CO1, а у других эукариот генами COX1, CO1 или COI.

Для определения возможной таксономии прочитанной последовательности использованы 5 находок с лучшими параметрами E-value, Query cover и Ident. Было построено их выравнивание в jalview вместе с исходной последовательностью (она находится снизу).

2. Сравнение трех алгоритмов

Было проведено сравнение трех алгоритмов — blastn (somewhat similar sequences), discontigious megablast (more dissimilar sequences) и megablast (highly similar sequences). Поиск был ограничен семейством Terebellidae (taxid:32261).

Таблица 1. Параметры запуска программ blast
Алгоритм поискаDatabaseMax target
sequences
Expect
treshold
Word sizeMax matches
in a query range
Match/
Mismatch scores
Gap costs
blastnNucleotide collection (nr/nt)1000101102;-35;2
discontigious megablastNucleotide collection (nr/nt)1000101602;-35;2
megablastNucleotide collection (nr/nt)1000101602;-35;2

Таблица 2. Результаты работы программ blast
Алгоритм поискаКоличество
находок
Max scoreQ-coverE-valueIdentРезультат
лучш.худш.лучш.худш.лучш.худш.лучш.худш.
blastn1151121176100%48%0.09 E-4699%73%blastn.txt
discontigious megablast8965439.299%11%0.02 E-0484%72%mega_disc.txt
megablast131147268100%49%0.01 E-7399%82%megablast.txt

3. Проверка наличия гомологов трех белков в организме Amoeboaphelidium protococcarum

Для обработки были выбраны три белка:

Мы хотим узнать, есть ли у этой бактерии белки, гомологичные выбранным нами трем белкам. Для этого при помощи программы makeblastdb была создана локальная база данных на основе генома Amoeboaphelidium protococarum, записанного в файле сборки X5.fasta. Затем запускаестя программа tblastn, которая в созданной нуклеотидной базе данных ищет последовательности, кодирующие белки, гомологичные подающимся на вход. Выдача алгоритма для трёх выбранных белков приведена на рисунках ниже.

Меньше всего нахоодок обнаружено для белка TERT_HUMAN. Процент совпадения на всех трех найденных последовательностях невысок (порядка 20-30%). Значит, в организме Amoeboaphelidium protococcarum отсутствуют гомологи данного белка.

Чуть больше находок обнаружено для белка COX1_HUMAN (это митохондриальный белок, поэтому ожидать большого количества находок не приходится). Длина выравнивания лучшей находки - 220 нуклеотидов, E-value 6.29 e-65. Процент совпадения для найденных последовательностей невысок (максимум 54%). Предположительно, данные выравнивания недостаточно хороши и в ядерном геноме организма Amoeboaphelidium protococcarum отсутствуют белки, выполняющие аналогичные функции.

Больше всего находок обнаружено для белка PABP2_HUMAN. Параметры лучшей находки: процент совпадения равен 62%, длина выравнивания 86 нуклеотидов, что составляет 1/3 от длины белка, E-value 4 е-29. На наш взгляд, находку данного качества нельзя считать гомологом нашего белка в организме Amoeboaphelidium protococcarum.

4. Поиск гена белка, закодированный в одном контиге Amoeboaphelidium protococcarum

Для поиска был выбран unplaced-717 из сборки генома Х5. Его длина составляет 46913 п.н., следовательно, на нем вполне может поместиться ген. Мы запустили по поиск его гомологов по базе данных при помощи программы blastx. Выбранный нами участок имеет очень большую длину, поэтому нас не должно смущать, что Q-cover=3%. Это означает только, что кодирующая последовательность занимает три процента от всего участка.

Судя по результатам, на выбранном нами участке имеется ген, кодирующий белок Фосфоглицератмутазу.

Результаты работы blastx:


© Екатерина Посицельская, 2016