Нуклеотидный BLAST

Задание 1. Определение таксономии и функции нуклеотидной последовательности.

Была взята консенсусная последовательность из предыдущего практикума для определения функции белка кодируемой этой последовательностью, а также ее возможной таксономии.
Для поиска последовательностей был использован blastn с алгоритмом megablast по умолчанию.
Выдача megablast показана на рисунке 1, таксономия на рисунке 2. По находкам имеющим наибольший вес можно сделать вывод, что последовательность кодирует H3 структурные хроматинные гистоны у морских огурцов(Dendrochirotida). У каких конкретно огурцов сказать точно нельзя, но верочтнее всего у семейства Psolidae.
Благодаря множественному выравниванию можно судить о принадлежности к семейству, из-за большого числа консервативных участков.


Рисунок 1. Выдача megablast.


Рисунок 2. Таксономия выдачи с рисунка 1.

Задание 2. Сравнение находок.

Было произведено сравнение трех алгоритмов blastn по умолчанию, blastn с чувствительно настроенными параметрами и megablast.
Сначала было произведен анализ выдачи разных алгоритмов поиска для белков морских огурцов с ограничением по таксону Dendrochirotida. Параметры поиска представлены на рисунках ниже.


Рисунок 3. Параметры blastn


Рисунок 4. Параметры megablast


Рисунок 5. Параметры blastn чувствительного

Таблица 1.

Число находок

Алгоритм Число находок
megablast 20
blastn 30
blastn чувствительный 36

Выходы программ изображены на рисунке 6. Blastn добавил несколько весомых находок по сравнению с megablast. При этом его чувствительная версия "перемешала" значимость находок, при этом добавив лишь одну ценную и кучу мусора в конец списка.


Рисунок 6. Выдача слева на право: megablast, blastn, blastn чувствительный, при этом каждый следующий сравнивается с пердыдущим.
Красным цветом выделены новые находки, зеленым - между какими находками они "нашлись", желтым - перествновки в списке, фиолетовым - новые находки в конце списка.

Было произведено сравнение трех алгоритмов blastn по умолчанию, blastn с чувствительно настроенными параметрами и megablast.
Поиск аналогичный предыдущему, с теми же параметрами поиска, только теперь для вируса(NC_009965.1), ограничение по таксону - Rudiviridae. Параметры поиска представлены на рисунках 3,4,5 выше.

Таблица 2.

Число находок

Алгоритм Число находок
megablast 9
blastn 22
blastn чувствительный 23

Выходы программ изображены на рисунке 7. Blastn добавил несколько находок с покрытием больше 10%, по сравненю с megablast, где таких находок одна. При этом его чувствительная версия "перемешала" значимость находок и уменьшила у всех покрытие опыть до 1%, добавив парочку находок.


Рисунок 7. Выдача слева на право: megablast, blastn, blastn чувствительный, при этом каждый следующий сравнивается с пердыдущим.
Красным цветом выделены новые находки, зеленым - между какими находками они "нашлись", желтым - перествновки в списке, фиолетовым - новые находки в конце списка.

Мной были выбраны следующие 3 белка для поиска гомологов у Amoeboaphelidium protococcarum:
1)Актин(UniProtKB - P63267). Поскольку он является основным компонентом цитоскелета эукариот, можно предполагать его сильную консервативность.
2)Убиквитин(UniProtKB - P62975). Латинское название белка означает "вездесущий", что само по себе не однозначно намекает на его консервативность. Также он очень важен, поскольку участвует в процуссе внутриклеточной деградации других белков.
3)Hsp90(UniProtKB - P07900). Белок-шаперон. Помогает другим белкам принимать третичную структуру, стабилизирует белки во время теплового стресса.
Команды:
makeblastdb -in X5.fasta -dbtype nucl -out prot_db
tblastn -query ubi.fasta -db prot_db -out ubi.out
tblastn -query hsp90.fasta -db prot_db -out hsp90.out
tblastn -query actin.fasta -db prot_db -out actin.out
Результаты описаны в таблице 3.

Таблица 3.

Число находок

Параметр Актин Убиквитин Hsp90
Число находок 16 13 6
Лучшая находка scaffold-444
scaffold-17
scaffold-378 unplaced-64
Процент гэпов в лучшей находке 0 0 5
E-value лучшей находки 0 5e-46 0
Identity лучшей находки 92% 96% 66%
Score лучшей находки в битах 733 144 583
Гомология гомологичен гомологичен гомологичен
Объяснения гомологии Сразу 3 находки с нулевым E-value, высокие проценты идентичности и полное отсутствие гэпов. Высокий процент идентичности, 100% покрытие, низкий E-value, все говорт о гомологии. Не смотря на низкое сходство, в выравнивании имеются хорошо выраженные консервативные части и E-value = 0, почти исключает случайность такой находки.

Задание 4. Поиск белка.

Был выбран scaffold-40 из сборки генома Amoeboaphelidium protococcarum. Как видно из выдачи BLASTX на рисунке 8, все находки попали в интервал, который находится приблизительно между 844 и 1533 нуклеотидами в скеффолде. Поэтому я запустил BLASTX только для этого уастка, чтобы покрятия выглядили адекватно. Из находок(рис 9) нельзя точно сказать какой ген попал P-loop или Fe-S cluster, поскольку все Identity около 50-60%. Но я склоняюсь больше к гену кластера, поскольку находка "Saccharomyces cerevisiae YIL003W CFD1 Highly conserved iron-sulfur cluster binding protein localized in the cytoplasm" имеет наибольшее покрытие в сочетании с наибольшим Identity.
Этот белок служит помогает созревать экстрамитохондриальным Fe-S-белкам, а также участвует в дальнейшей доставке готовых кластеров к комплексам белков.


Рисунок 8. BLASTX


Рисунок 9. BLASTX