Задания по BLAST

1. Определение таксономии и функции прочтённой нуклеотидной последовательности

Для поиска гомологов последовательности из практикума 6 был использован BLASTN сначала с параметрами word size 11, match/mismatch (2,-3) по банку Nucleotide collection. По выданным результатам было видно, что последовательность принадлежит гену 18s рибосомальной РНК (все первые сто элементов выдачи являлись генами 18s рРНК с околонулевым E-value). В связи с высокой консервативностью этого гена затем был проведен поиск в megablast с параметрами word size 28, match/mismatch (1,-1). По данным раздела Taxonomy все находки с максимальным score и наиболее близкими к нему значениями принадлежат семейству Orbiniidae многощетинковых кольчатых червей. Более точное определение хозяина секвенированной ДНК определить не удается, т.к. максимальный score имеют представители двух разных родов.

taxonomy
Таксономия объекта

2. Сравнение находок

Было проведено сравнение трёх алгоритмов нуклеотидного BLAST. Сначала поиск осуществлялся по рассмотренной в предыдущем пункте последовательности. Из-за ее высокой консервативности разные алгоритмы давали практически идентичные результаты, в итоге, для достижения различных результатов, пришлось исключить из поиска всех полихет (taxid:6341), при этом ограничив выборку таксоном Lophotrochozoa (taxid:1206795). Между blastn с базовыми и чувствительными параметрами различий все равно практически не было (второй выдал на две находки больше), blastn c word size=7 также не выдал других результатов, тогда как megablast довольно сильно изменил порядок результатов. Интересно, что во всех случаях наиболее высокий score имеют моллюски, а вовсе не другие кольчатые черви. При этом в выдаче megablast первый кольчатый червь появляется на 11 позиции, тогда как в blastn на 17.

taxonomy
Результат алгоритма blastn
taxonomy
Результат алгоритма megablast
Алгоритм Word size Match/Mismatch scores Gapcosts Количество находок
megablast 28 1, -2 0, 2.5 92
blastn по умолчанию 11 2, -3 5, 2 102
blastn с чувствительными параметрами 7 2, -3 5, 2 104

Затем проводился поиск по CDS вируса из предыдущего задания.

Алгоритм Word size Match/Mismatch scores Gapcosts Количество находок
megablast 28 1, -2 0, 2.5 55
blastn по умолчанию 11 2, -3 5, 2 98
blastn с чувствительными параметрами 7 2, -3 5, 2 99
taxonomy
Результат алгоритма megablast
taxonomy
Результат алгоритма blastn
taxonomy
Результат алгоритма blastn с чувствительными параметрами

Среди находок была также и сама бактерия (E.coli), в геноме которой встретилась днк фага.

3. Проверка наличия гомологов трех белков в неаннотированном геноме

Для задания были взяты 3 консервативных белка, информация о которых приведена ниже. Данные получены из UniProt.

В неаннотированной сборке генома Amoeboaphelidium protococcarum (X5.fasta) проводился поиск гомологов этих белков, с использованием BLAST+

Команды в EMBOSS:
makeblastdb -in X5.fasta -dbtype nucl -out pr8_db
tblastn -query pr8_act.fasta -db pr8_db -out pr8_act.out
tblastn -query pr8_eno.fasta -db pr8_db -out pr8_eno.out
tblastn -query pr8_rnapol.fasta -db pr8_db -out pr8_rnapol.out

Полученные результаты приведены в таблице ниже:

ACT_HUMAN ENOB_HUMAN RPC1_HUMAN
Файл выдачи файл файл файл
Количество находок 16 3 8
Лучшая находка scaffold-444 scaffold-22 scaffold-157
E-value лучшей находки 0 3e-177 0
Identity лучшей находки 92% 66% 52%
Вес лучшей находки 733 554 876
Покрытие лучшей находки 99,2% 94,9% 61,2%
Вывод о гомологичности находки Функционально гомологична Функционально гомологична Функционально гомологична

Во всех трех случаях можно говорить о гомологичности с сохранением функциональности, поскольку имеются протяженные участки в выравниваниях, где аминокислоты полностью совпадают.

Поиск гена белка в контиге

Был взят один из контигов длиной 9509 п.н. из не аннотированной сборки Amoeboaphelidium X5 c kodomo. С помощью blastx были найдены возможные гомологи закодированных на нем белков. Поиск велся среди грибов. Первой находкой с максимальным E-value 3e-82 и identity 64.20% является гуанин-N(7)-метилтрансфераза-подобный белок организма Neocallimastix californiae. В выравнивании последовательностей имеются протяженные участки без гэпов и несовпадений, на всю последовательность только 5 гэпов, поэтому можно предполагать гомологию данного белка и закодированного в контиге из неаннонтированной сборки.
taxonomy
Выравнивание лучшей находки