Поиск по сходству (BLAST)

Задание 1. Определение таксономии и функции последовательности из практикума 6

Для поиска использовался blastn с алгоритмом megablast, так как он больше всего подходит для поиска близких гомологов.
На рис.1 приведены находки с наибольшим весом. В качестве запроса использовалась консенсусная последовательность из 6 практикума.

Ссылка на консенсусную последовательность.

Ссылка на множественное выравнивание выбранных находок: alignment.

мое фото
рис.1
По выданным результатам видно, что последовательность принадлежит гену, кодирующему гистон H3.

Рис.2 - Таксономия объекта

мое фото
рис.2
По данным раздела Taxonomy все находки с максимальным score и наиболее близкими к нему значениями принадлежат семействам Palpata, Chaetozone setosa и Ophelia limacina многощетинковых кольчатых червей.
Проанализировав множественное выравнивание, можно предположить, что исходный запрос принадлежит роду Palpata и скорее всего виду Brada inhabilis (рис.3). мое фото
рис.3

Задание 2. Сравнение трёх алгоритмов BLAST

В этом задании нужно сравнить результаты трёх запусков BLAST: megablast, blastn с параметрами по умолчанию, blastn чувствительными настройками.

Нужно было исследовать последовательность из задания 1 и одну из CDS вируса из практикума 7. В таблице 1 приведены параметры запусков BLAST.

Таблица1. Параметры BLAST при трёх запусках
Program Selectionmegablastblastn (по умолчанию)blastn (чувствительный)
Max target
sequences
100010001000
Short queries+++
Expect threshold0.00010.00010.0001
Word size28117
Max matches in a
query range
000
Match/Mismatch
Scores
1,-22,-31,-1
Gap CostsLinearExistence: 5
Extension: 2
Existence: 0
Extension: 2
FilterLow complexity
regions
Low complexity
regions
Low complexity
regions
MaskFor lookup table onlyFor lookup table onlyFor lookup table only

Таксоны, в которых шел поиск для червя:

мое фото

Таблица 2.

Находки при шести запусках BLAST
PalpataPseudoalteromonas virus
megablast333
blastn по умолч.2028
blastn чувствит.1082

Megablast во всех случаях нашёл выравнивания с identity от 80%.
Разные параметры запуска blastn из-за высокой консервативности давали практически идентичные результаты для червя.

Для вируса megablast нашёл родственные вирусы, blastn добавил сборки бактерий, на которых данный фаг паразитирует,
и некоторое количество других, уже близко не связанных; изменение параметров только увеличило число этих «других».

Задание 3. Наличие гомологов в неаннотированном геноме

Нужно было выбрать три типично эукариотических белка и проверить наличие их гомологов в сборке Amoeboaphelidium protococcarum X5 с kodomo. Я выбрал актин (ACTH_HUMAN), миозин (MYO6_HUMAN), RPC-субъединица ДНК-зависимой РНК-полимеразы III (RPC1_HUMAN). Нашёл нужные ID в UniProt, а затем выполнил команды:
ACTH_HUMAN MYO6_HUMAN RPC1_HUMAN
Файл выдачи Актин Миозин Полимераза
Количество находок 16 10 8
Лучшая находка scaffold-17 scaffold-17 scaffold-300
E-value лучшей находки 0 1e-121 0
Identity лучшей находки 92% 35% 52%
Вес лучшей находки 733 422 516
Покрытие 99,2% 58,96% 62%
Вывод о гомологичности находки Функционально гомологична Функционально негомологична Функционально гомологична

Не во всех трех случаях можно говорить о гомологичии с сохранением функциональности, поскольку в 1 и 3 случаях имеются протяженные участки в выравниваниях,
где аминокислоты полностью совпадают, а во втором случае их намногот меньше и сама протяженность очень низкая, поэтому очень сложно говорить о гомологичии (возможно сборка генома X5 неполная).

Задание 4. Поиск гена белка в контиге

Для выполнения задания был выбран контиг. С помощью blastx были найдены возможные гомологи закодированных на нем белков.
Первой находкой с максимальным E-value 6e-136 и identity 74.03% является транспозаза организма Pleuronectes platessa.
В выравнивании последовательностей имеются протяженные участки без гэпов и несовпадений, поэтому можно предполагать гомологию данного белка и закодированного в контиге из неаннонтированной сборки.
мое фото