Поиск по сходству (нуклеотидный blast)

Для выполнения практикума была взята последовательность, полученная на капиллярном секвенаторе и обработанная мной в одном из предыдущих практикумов. Требовалось определить таксономическое положение обладателя последовательности и её функцию. Для этого использовался blastn (рис.1).
Верхние результаты принадлежат организмам семейства Diphyllobothriidae и являются генами рибосомальной 18S РНК.
По выравниваниям видно, что изучаемая последовательность - это только фрагмент гена, расположенный в области примерно 1300-2100. Для первых двух результатов выдачи: 1247-2023.
Чтобы сделать более точные выводы о таксономической принадлежности, надо взглянуть на вес и идентичность. Показатель query cover не является критично важным, так как тримминг, производившийся автоматически, мог оставить ненужные нуклеотиды. На основе того, что находки для червя Pyramicocephalus phocarum имеют наибольшие значения показателей max score, total score и per.ident, можно сделать вывод о том, что последовательность принадлежит именно ему и является фрагментом гена 18S рибосомальной РНК.

im
Рис. 1.

Выдача blastn



Сравнение разных вариантов blast
Из-за того, что разные варианты blast всё равно выдавали мне одно и то же, мной были исключены результаты для Diphyllobothriidae (taxid:28843).
Варианты:
1. blasn со стандартными параметрами

im
Рис. 2.

Выдача blasn со стандартными параметрами



2. blastn: длина слова 7, match/mismatch score: 4,-5.

im
Рис. 3.

Выдача blastn: длина слова 7, match/mismatch score: 4,-5



3. megablast со стандартными параметрами

im
Рис. 4.

Выдача megablast со стандартными параметрами



Показаны только первые 10 результатов для удобства сравнения, на самом деле результатов с приемлемыми показателями больше.
Видно, что по показателям результаты всё же схожи. Из-за измеённого match/mismatch score в blastn показатели max score и total score стали меньше. Это может объясняться тем, что у находок более чувствительного blastn per.ident немного ниже. В целом отношение reward/penalty нужно увеличивать по мере того, насколько далёкие от нашей последовательности мы хотим найти.
Выравнивания приходятся на примерно один и тот же участок 1200-2000.
На рис.5 показано филогенетическое дерево для организмов, гены которых были в верхних результатах при использовании различных алгоритмов. Дерево построено не по отдельным генам, а по таксономической принадлежности, поэтому однозначных выводов сделать нельзя. Однако, можно увидеть, что некоторая тенденция для разных алгоритмов всё же наблюдается.

im
Рис. 5.

Филогенетическое дерево для организмов, гены которых были в верхних результатах при использовании различных алгоритмов.




Для CDS вируса (ссылка) параметры были теми же
Так как таксономическая группа вируса не исключалась, результаты получились довольно схожими.

im
Рис. 6.

Выдача blasn со стандартными параметрами





im
Рис. 7.

Выдача blasn со стандартными параметрами





im
Рис. 8.

Выдача blasn со стандартными параметрами



Поиск последовательностей производился в базе ncbi protein, оттуда скачивалась последовательность белка в fasta-формате.
Для убиквинтина человека (ссылка) был найден достоверный гомолог (scaffold 17). На выравнивании нет гэпов, eval=0, score и identity хорошие (ссылка).
Для рнк-азы dicer дрожжей (ссылка) не было найдено достоверного гомолога. Показатели для лучшего результата: 29% identity, 74 gaps и прочие неприятные вещи (ссылка).
Для ДНК-лигазы дрожжей (ссылка), на которую я возлагала много надежд, тоже не оправдала моих ожиданий. 28% identity, 44 гэпа и прочие неприятные вещи (ссылка).
Странно, как данный организм обходится без ДНК-лигазы.

Мне коловратка Дани Бобровского тоже очень понравилась, поэтому я искала белки для неё.
параметры поиска: blastx, база данных refseq_protein, Animalia (taxid:33208).
В контиге CAWI020041233.1 нашёлся белок транспозона с piggyBac. В целом по контигам почти всегда что-то находилось, но в основном это были плохо аннотированные белки. Были и такие поражения: нашёлся белок карнитин-О-пальмитоилтрансфераза (контиг CAWI020041119.1). Лучшее выравнивание для белка насекомого Bactrocera dorsalis. В целом выравнивание выглядит неплохо. Видно, что для лучших находок показано, что ген содержит интроны (рис.9).

im
Рис. 9.

Видны интронные области



Однако при более внимательном осмотре выравнивания выяснилось, что экзоны идут в разном порядке, поэтому данный белок пришлось отбросить.

В контиге CAWI020040344.1 нашлась последовательность белка, ассоциированного с TNF-рецептором. Значения Per.ident находятся в скромных пределах 50-60. Выравнивание выглядит довольно убедительно.

im
Рис. 10.

Выравнивание