Задания по BLAST
1. Определение таксономии и функции прочтённой нуклеотидной последовательности
Для поиска гомологов последовательности из практикума 6 был использован BLASTN сначала с параметрами word size 11, match/mismatch (2,-3) по банку Nucleotide collection. По выданным результатам было видно, что последовательность принадлежит гену 18s рибосомальной РНК (все первые сто элементов выдачи являлись генами 18s рРНК с околонулевым E-value). В связи с высокой консервативностью этого гена затем был проведен поиск в megablast с параметрами word size 28, match/mismatch (1,-1). По данным раздела Taxonomy все находки с максимальным score и наиболее близкими к нему значениями принадлежат семейству Orbiniidae многощетинковых кольчатых червей. Более точное определение хозяина секвенированной ДНК определить не удается, т.к. максимальный score имеют представители двух разных родов.
2. Сравнение находок
Было проведено сравнение трёх алгоритмов нуклеотидного BLAST. Сначала поиск осуществлялся по рассмотренной в предыдущем пункте последовательности. Из-за ее высокой консервативности разные алгоритмы давали практически идентичные результаты, в итоге, для достижения различных результатов, пришлось исключить из поиска всех полихет (taxid:6341), при этом ограничив выборку таксоном Lophotrochozoa (taxid:1206795). Между blastn с базовыми и чувствительными параметрами различий все равно практически не было (второй выдал на две находки больше), blastn c word size=7 также не выдал других результатов, тогда как megablast довольно сильно изменил порядок результатов. Интересно, что во всех случаях наиболее высокий score имеют моллюски, а вовсе не другие кольчатые черви. При этом в выдаче megablast первый кольчатый червь появляется на 11 позиции, тогда как в blastn на 17.
Алгоритм | Word size | Match/Mismatch scores | Gapcosts | Количество находок |
megablast | 28 | 1, -2 | 0, 2.5 | 92 |
blastn по умолчанию | 11 | 2, -3 | 5, 2 | 102 |
blastn с чувствительными параметрами | 7 | 2, -3 | 5, 2 | 104 |
Затем проводился поиск по CDS вируса из предыдущего задания.
Алгоритм | Word size | Match/Mismatch scores | Gapcosts | Количество находок |
megablast | 28 | 1, -2 | 0, 2.5 | 55 |
blastn по умолчанию | 11 | 2, -3 | 5, 2 | 98 |
blastn с чувствительными параметрами | 7 | 2, -3 | 5, 2 | 99 |
Среди находок была также и сама бактерия (E.coli), в геноме которой встретилась днк фага.
3. Проверка наличия гомологов трех белков в неаннотированном геноме
Для задания были взяты 3 консервативных белка, информация о которых приведена ниже. Данные получены из UniProt.
- Актин (ACTH_HUMAN), один из ключевых составляющих в структуре цитоскелета и в процессе подвижности клетки
- Енолаза (ENOB_HUMAN), осуществляет одну из реакций гликолиза, который идет по сходному механизму в большинтве организмов
- RPC-субъединица ДНК-зависимой РНК-полимеразы III (RPC1_HUMAN), осуществляет транскрипцию некоторых небольших некодирующих РНК
В неаннотированной сборке генома Amoeboaphelidium protococcarum (X5.fasta) проводился поиск гомологов этих белков, с использованием BLAST+
Команды в EMBOSS:makeblastdb -in X5.fasta -dbtype nucl -out pr8_db tblastn -query pr8_act.fasta -db pr8_db -out pr8_act.out tblastn -query pr8_eno.fasta -db pr8_db -out pr8_eno.out tblastn -query pr8_rnapol.fasta -db pr8_db -out pr8_rnapol.out
Полученные результаты приведены в таблице ниже:
ACT_HUMAN | ENOB_HUMAN | RPC1_HUMAN | |
Файл выдачи | файл | файл | файл |
Количество находок | 16 | 3 | 8 |
Лучшая находка | scaffold-444 | scaffold-22 | scaffold-157 |
E-value лучшей находки | 0 | 3e-177 | 0 |
Identity лучшей находки | 92% | 66% | 52% |
Вес лучшей находки | 733 | 554 | 876 |
Покрытие лучшей находки | 99,2% | 94,9% | 61,2% |
Вывод о гомологичности находки | Функционально гомологична | Функционально гомологична | Функционально гомологична |
Во всех трех случаях можно говорить о гомологичности с сохранением функциональности, поскольку имеются протяженные участки в выравниваниях, где аминокислоты полностью совпадают.