Нуклеотидный BLAST

Задание 2 Сравнение списков находок, полученных 3-я разными алгоритмами blast: blastn, megablast и discontiguous megablast.

Для выполнения задания возьмем последовательность из практикума 7
Требуется зависимости от находок blastn ограничить область поиска подходящим таксоном, в моем случае таксоном Loxosomella
Итак, я запустила поиск по данной последовательности и с данным ограничением в blastn, megablast и discontiguous megablast.
Оценим результаты

Рисунок 1 Результаты поиска в blastn

Рисунок 2 Результаты поиска в megablast

Рисунок 3 Результаты поиска в discontiguous megablast

Рисунок 4 Таблица

Blastn нашел 10 последовательностей с E-value 0.0 и Query cover >75%. Три оставшиеся находки ввиду низкого значения Qury cover интереса не представляют
Megablast выдал 9 последовательностей, отвечающих подобным требованиям, Discontiguous megablast - 10.
Из таблицы видно, что megablast и discontiguous megablast отрезают находки со слишком высоким E-value, при этом порог для megablast значительно выше

Задание 3 Проверка наличия гомологов пяти белков в геноме одного из организмов.

Требовалось взять организм из задания 1 практикума 7 - Plasmodium falciparum - и проверить наличие у него гомологов следующих пяти белков: HSP7C_HUMAN, TERT_HUMAN, CISY_HUMAN, RPB1_HUMAN, PABP2_HUMAN.
Для выполнения задачи использовался tblastn, то есть поиск белка в базе транслированных в 6-ти рамках нуклеотидных последовательностей. Область посика была ограничена организмом Plasmodium falciparum
Вначале для каждого белка была найдена запись в Uniprot, сохранены их AC и fasta-последовательности. Затем проведен поиск с помощью tblastn. На вход blast подавался AC белка.

HSP7C_HUMAN - Heat shock cognate 71 kDa protein

Рисунок 5 Находки из Plasmodium falciparum по запросу P11142
По данному запросу выдано 23 находки, из которых хорошими можно считать 12 (с хорошими показатели E-value и Query cover)

TERT_HUMAN - Telomerase reverse transcriptase

Рисунок 6 Находки из Plasmodium falciparum по запросу O14746
По данному запросу обнаружено всего 2 находки, каждая из которых имеет низкий показатель Query cover
На мой взгляд, о наличии гомологии ничего не свидетельствует.

CISY_HUMAN - Citrate synthase, mitochondrial

Рисунок 7 Находки из Plasmodium falciparum по запросу O75390
Найдено три записи, из которых 2 являются хорошими.
Исходя из названия, первая находка - гомолог нашего белка.

RPB1_HUMAN - DNA-directed RNA polymerase II subunit RPB1

Рисунок 8 Находки из Plasmodium falciparum по запросу P24928

Хороших находок 3. Гомологами являются те, которые кодируют субъединицы РНК-полимераз 1,2 и 3, так как РНК-полимеразы всех трех типов похожи, имеют приблизительно одинаковые задачи и механизмы работы и явно гомологичны

PABP2_HUMAN - Polyadenylate-binding protein 2

Рисунок 9 Находки из Plasmodium falciparum по запросу Q86U42

Всего 7 находок, среди которых особо хороших нет ввиду очень низкого показателя Query cover. Судя по названию, первая находка может являться гомологом нашего белка

Рисунок 10 Таблица

Задание 4 Оценка сходства геномов вирусов.

Для выполнения задания я выбрала вирус пятнистости орхидей Orchid fleck virus, с которым мне довелось работать в первом семестре.
Далее были сохранены геномы данного вируса Orchid fleck virus (Идентификатор в INSDC AB244417), а также 5 родственных ему, а именно:

Maize fine streak virus (AY618417)

Sonchus yellow net virus(L32603)

Rice yellow stunt virus(AB011257)

Taro vein chlorosis virus(AY674964)

Iranian maize mosaic nucleorhabdovirus(NC_011542)

Все эти вирусы - двухцепочечные РНК-содержащие. Я брала для сравнения только одну цепь РНК (RNA1 segment)
При помощи команды seqret я объединила файлы с геномами вирусов в один файл viruses.fasta
Далее я сделала базу индексов blast для созданного fasta файла: makeblastdb -in viruses.fasta -dbtype nucl
Потом запустила tblastx, подав на вход тот же самый fasta файл: tblastx -query viruses.fasta -db viruses.fasta -out blast.out -outfmt 7. В итоге таблица с результатами была записана в файл blast.out.
С помощью python-скрипта были удалены неинформативные и слабо сходные находки из полученной таблицы. Были установлены параметры для значение E-value, score и т.д

Рисунок 11 Создание итоговой таблицы

Далее была произведена сортировка по убыванию значения identity. Оказалось,что первые 17 находок с наибольшим процентом идентичных нуклеотидов представляют собой сходные участки двух одних и тех же вирусов: AY618417 и NC_011542,
(Maize fine streak virus и Iranian maize mosaic nucleorhabdovirus), что позволяет предположить, что именно геномы этих двух вирусов наиболее схожи

Рисунок 12 Сортировка по убыванию значения identity

Далее сортировки по длине выравнивания, его счёту и E-value показали, что лучшие находки по этим параметрам также представляют собой выравнивания данных вирусов.

Рисунок 13 Сортировка по убыванию значения bit score

Рисунок 14 Сортировка по убыванию значения aln_len

Рисунок 15 Сортировка по возрастанию значения evalue (правая колонка таблицы)

Таким образом, если оценивать сходство двух геномов вирусов по максимальной длине, максимальному скору, максимальному проценту идентичности и минимальному E-value находок, тогда можно признать, что из данных вирусов наиболее сходные геномы имеют Maize fine streak virus и Iranian maize mosaic nucleorhabdovirus Ссылки

The National Center for Biotechnology Information