Учебный сайт Орлова Артёма

Практикум 8. Нуклеотидный BLAST.

Задание 1. Определение таксономии и функции нуклеотидной последовательности.

Были определены предполагаемые функция и таксономия для полученной в практикуме 6 консенсусной последовательности (скачать fasta-файл).

Для поиска был использован blastn с алгоритмом megablast, так как данный алгоритм оптимизирован для поиска очень близких гомологов. В качестве базы данных поставлен параметр "Nucleotide collection", так как эта база данных является объединением последовательностей из БД GenBank, EMBL, DDBJ, PDB и RefSeq, что обеспечивает большой охват данных в поиске. Часть находок представлена на Рисунке 1.

Рис.1

Рисунок 1. Находки megablast с наибольшим весом

Выдача BLAST показывает, что консенсусная последовательность скорее всего является участком гена, кодирующего 18S рРНК. Для определения таксономии последовательности было выбрано несколько находок, принадлежащих к разным родам (отмечены на рисунке 1). Их таксономия приведена на рисунке 2. Также было построено множественное выравнивание выбранных находок (скачать fasta-файл). По выравниванию видно, что последовательности возможно являются гомологами из-за протяженных консервативных участков. Это подтверждает данные о таксономии видов. Следовательно, последовательность характерна для представителей Lophotrochozoa.

Рис.2

Рисунок 2. Таксономия выбранных находок

Задание 2. Сравнение находок.

Было проведено сравнение трёх алгоритмов нуклеотидного BLAST. Поиск осуществлялся по консенсусной последовательности прошлого задания и по CDS вируса из прошлого практикума. Информация о задаваемых параметрах для BLAST и о количестве находок содержится в таблицах 1 и 2.

Таблица 1. Параметры и выдача BLAST для консенсусной последователности

Алгоритм

Word size

Match/Mismatch scores

Gapcosts

Количество находок

megablast

28

1, -2

0, 2.5

30

blastn по умолчанию

11

2, -3

5, 2

35

blastn с чувствительными параметрами

7

2, -3

5, 2

39

Для консенсусной последовательности было выставлено ограничение по таксону Entoprocta (taxid:43120). Выдача blastn отличилась от выдачи megablast на 5 находок, 4 из которых имели большое E-value, что явно указывает на негомологичность относительно консенсуса. На рисунке 3 показано, что все 5 находок оказались в конце списка, то есть их вес меньше по сравнению с находками blastn. В итоге изменение параметров принесло еще одну находку.

Рис.3

Рисунок 3. Конец списка находок blastn с параметрами по умолчанию

Изменение длины слова привело к появлению еще 4 находок, имеющих большое E-value (рисунок 4). Следовательно, полезных находок получено не было.

Рис.4

Рисунок 4. Конец списка находок blastn с уменьшенной длиной слова

Из предыдущего практикума произвольно был выбран CDS вируса с GeneID:2846007 (скачать fasta-файл). Ограничением являлся род Sulfolobus (taxid:2284).

Таблица 2. Параметры и выдача BLAST для CDS вируса

Алгоритм

Word size

Match/Mismatch scores

Gapcosts

Количество находок

megablast

28

1, -2

0, 2.5

5

blastn по умолчанию

11

2, -3

5, 2

16

blastn с чувствительными параметрами

7

2, -3

5, 2

42

Результаты вышли во многом аналогичными первой части задания. Изменение megablast (рисунок 5) на blastn по умолчанию (рисунок 6) привело к появлению лишь одной стоящей находки, так как большинство находок имело большой E-value. Уменьшение длины слова не принесло значимых находок.

Рис.5

Рисунок 5. Находки megablast по CDS вируса

Рис.6

Рисунок 6. Находки blastn с параметрами по умолчанию по CDS вируса

Выбор алгоритма blast оказал небольшое влияние на выдачу значимых находок. Большинство находок было обнаружено еще megablast, blastn с параметрами по умолчанию добавил либо находки с завышенным E-value, либо те, про которые нельзя сказать, что они однозначно гомологичны запросу. Уменьшение длины слова не принесло значимых результатов.

Задание 3. Проверка наличия гомологов трех белков в неаннотированном геноме.

Для задания были взяты 3 консервативных белка, информация о которых приведена ниже. Данные получены из UniProt.

Актин: ACT1_DICDI (скачать fasta-файл). Актины являются высококонсервативными белками для эукариот. Они ключевая составляющая в структуре цитоскелета и в процессе подвижности клетки.

Тубулин (бета-цепь): TBB5_HUMAN (скачать fasta-файл). Тубулин - основной компонент микротрубочек. Сложно вообразить эукариотичекую клетку без этого белка.

Метионинаминопептидаза: MAP2_HUMAN (скачать fasta-файл). Этот фермент удаляет N-концевой метионин из зарождающихся белков. Играет важнейшую роль в регуляции синтеза белка.

Для выбранных белков был осуществлён поиск гомологов по предоставленной сборке генома (скачать fasta-файл). Используемые команды для BLAST+:

makeblastdb -in X5.fasta -dbtype nucl -out pr8_db
tblastn -query pr8_act.fasta -db pr8_db -out pr8_act.out
tblastn -query pr8_tub.fasta -db pr8_db -out pr8_tub.out
tblastn -query pr8_met.fasta -db pr8_db -out pr8_met.out

В таблице 3 приведена основная информация о результатах.

Таблица 3. Результаты поиска гомологов белков

ACT1_DICDI

TBB5_HUMAN

MAP2_HUMAN

Файл выдачи

скачать

скачать

скачать

Количество находок

16

6

3

Лучшая находка

scaffold-444

unplaced-665

scaffold-693

E-value лучшей находки

0

0

3e-155

Identity лучшей находки

93%

85%

64%

Вес лучшей находки

1911

1970

1270

Вывод о гомологичности находки

Функционально гомологична

Функционально гомологична

Гомологична, но возможно без сохранения функции

Задание 4. Поиск гена белка в контиге.

Для поиска гена был взят произвольный контиг (скачать fasta-файл) из сборки организма в предыдущем практикуме. Последовательность контига была взята в качестве запроса в blastx, ограничением были БД RefSeq и царство Metazoa. Полученная выдача представлена на рисунке 7.

Рис.7

Рисунок 7. Результат поиска гена белка с помощью blastx

Видимо, в контиге содержится ген, кодирующий белок ZBED8. Информации о белке известно мало, но ясно, что он может быть получен из транспозона, утратившего способность к транслокации.