Практикум 8. Нуклеотидный BLAST.
Задание 1. Определение таксономии и функции нуклеотидной последовательности.
Были определены предполагаемые функция и таксономия для полученной в практикуме 6 консенсусной последовательности (скачать fasta-файл).
Для поиска был использован blastn с алгоритмом megablast, так как данный алгоритм оптимизирован для поиска очень близких гомологов. В качестве базы данных поставлен параметр "Nucleotide collection", так как эта база данных является объединением последовательностей из БД GenBank, EMBL, DDBJ, PDB и RefSeq, что обеспечивает большой охват данных в поиске. Часть находок представлена на Рисунке 1.
Рисунок 1. Находки megablast с наибольшим весом
Выдача BLAST показывает, что консенсусная последовательность скорее всего является участком гена, кодирующего 18S рРНК. Для определения таксономии последовательности было выбрано несколько находок, принадлежащих к разным родам (отмечены на рисунке 1). Их таксономия приведена на рисунке 2. Также было построено множественное выравнивание выбранных находок (скачать fasta-файл). По выравниванию видно, что последовательности возможно являются гомологами из-за протяженных консервативных участков. Это подтверждает данные о таксономии видов. Следовательно, последовательность характерна для представителей Lophotrochozoa.
Рисунок 2. Таксономия выбранных находок
Задание 2. Сравнение находок.
Было проведено сравнение трёх алгоритмов нуклеотидного BLAST. Поиск осуществлялся по консенсусной последовательности прошлого задания и по CDS вируса из прошлого практикума. Информация о задаваемых параметрах для BLAST и о количестве находок содержится в таблицах 1 и 2.
Алгоритм |
Word size |
Match/Mismatch scores |
Gapcosts |
Количество находок |
megablast |
28 |
1, -2 |
0, 2.5 |
30 |
blastn по умолчанию |
11 |
2, -3 |
5, 2 |
35 |
blastn с чувствительными параметрами |
7 |
2, -3 |
5, 2 |
39 |
Для консенсусной последовательности было выставлено ограничение по таксону Entoprocta (taxid:43120). Выдача blastn отличилась от выдачи megablast на 5 находок, 4 из которых имели большое E-value, что явно указывает на негомологичность относительно консенсуса. На рисунке 3 показано, что все 5 находок оказались в конце списка, то есть их вес меньше по сравнению с находками blastn. В итоге изменение параметров принесло еще одну находку.
Рисунок 3. Конец списка находок blastn с параметрами по умолчанию
Изменение длины слова привело к появлению еще 4 находок, имеющих большое E-value (рисунок 4). Следовательно, полезных находок получено не было.
Рисунок 4. Конец списка находок blastn с уменьшенной длиной слова
Из предыдущего практикума произвольно был выбран CDS вируса с GeneID:2846007 (скачать fasta-файл). Ограничением являлся род Sulfolobus (taxid:2284).
Алгоритм |
Word size |
Match/Mismatch scores |
Gapcosts |
Количество находок |
megablast |
28 |
1, -2 |
0, 2.5 |
5 |
blastn по умолчанию |
11 |
2, -3 |
5, 2 |
16 |
blastn с чувствительными параметрами |
7 |
2, -3 |
5, 2 |
42 |
Результаты вышли во многом аналогичными первой части задания. Изменение megablast (рисунок 5) на blastn по умолчанию (рисунок 6) привело к появлению лишь одной стоящей находки, так как большинство находок имело большой E-value. Уменьшение длины слова не принесло значимых находок.
Рисунок 5. Находки megablast по CDS вируса
Рисунок 6. Находки blastn с параметрами по умолчанию по CDS вируса
Выбор алгоритма blast оказал небольшое влияние на выдачу значимых находок. Большинство находок было обнаружено еще megablast, blastn с параметрами по умолчанию добавил либо находки с завышенным E-value, либо те, про которые нельзя сказать, что они однозначно гомологичны запросу. Уменьшение длины слова не принесло значимых результатов.
Задание 3. Проверка наличия гомологов трех белков в неаннотированном геноме.
Для задания были взяты 3 консервативных белка, информация о которых приведена ниже. Данные получены из UniProt.
Актин: ACT1_DICDI (скачать fasta-файл). Актины являются высококонсервативными белками для эукариот. Они ключевая составляющая в структуре цитоскелета и в процессе подвижности клетки.
Тубулин (бета-цепь): TBB5_HUMAN (скачать fasta-файл). Тубулин - основной компонент микротрубочек. Сложно вообразить эукариотичекую клетку без этого белка.
Метионинаминопептидаза: MAP2_HUMAN (скачать fasta-файл). Этот фермент удаляет N-концевой метионин из зарождающихся белков. Играет важнейшую роль в регуляции синтеза белка.
Для выбранных белков был осуществлён поиск гомологов по предоставленной сборке генома (скачать fasta-файл). Используемые команды для BLAST+:
makeblastdb -in X5.fasta -dbtype nucl -out pr8_db tblastn -query pr8_act.fasta -db pr8_db -out pr8_act.out tblastn -query pr8_tub.fasta -db pr8_db -out pr8_tub.out tblastn -query pr8_met.fasta -db pr8_db -out pr8_met.out
В таблице 3 приведена основная информация о результатах.
ACT1_DICDI |
TBB5_HUMAN |
MAP2_HUMAN |
|
Файл выдачи |
|||
Количество находок |
16 |
6 |
3 |
Лучшая находка |
scaffold-444 |
unplaced-665 |
scaffold-693 |
E-value лучшей находки |
0 |
0 |
3e-155 |
Identity лучшей находки |
93% |
85% |
64% |
Вес лучшей находки |
1911 |
1970 |
1270 |
Вывод о гомологичности находки |
Функционально гомологична |
Функционально гомологична |
Гомологична, но возможно без сохранения функции |
Задание 4. Поиск гена белка в контиге.
Для поиска гена был взят произвольный контиг (скачать fasta-файл) из сборки организма в предыдущем практикуме. Последовательность контига была взята в качестве запроса в blastx, ограничением были БД RefSeq и царство Metazoa. Полученная выдача представлена на рисунке 7.
Рисунок 7. Результат поиска гена белка с помощью blastx
Видимо, в контиге содержится ген, кодирующий белок ZBED8. Информации о белке известно мало, но ясно, что он может быть получен из транспозона, утратившего способность к транслокации.