Поиск по сходству (blast)

Задание 1 (№4 из практикума 7)
Сохраненная стратегия поиcка
Последовательность, по которой проводился поиск
В выдаче программы blastn первые 25 последовательностей представляют собой прочтения одного и того же гена, только отличаются по длине (встречаются еще отличия в несколько единичных нуклеотидов). Скриншот. Этот митохондриальный ген кодирует белок субъединицы 1 цитохромной оксидазы Змеехвостки колючей (ссылка на одну из записей по данному белку в GenBank). Все однотипные записи получены в неопубликованной статье (возможно, это часть одной из программ по штрихкодированию) "ДНК штриховое кодирование иглокожих: разнообразие видов и моделей молекулярной эволюции". Автор: Corstorphine,E.A. Змеехвостка колючая является одним из распространенных обитетелей наших морей, серевной части Атлантического океана.

Фотография Змеехвости колючей сделанная Александром Семеновым (ББС)
Таксономия Змеехвостки колючей
Другие хорошие находки представлены в таблице ниже.

Находка	Ссылка на запись в GenBank	Таксономия	Ident
Ophiopholis aculeata isolate MT07097 cytochrome oxidase subunit I (CO1) gene, partial cds; mitochondrial	ссылка	Ophiopholis aculeata cellular organisms; Eukaryota; Opisthokonta; Metazoa; Eumetazoa; Bilateria; Deuterostomia; Echinodermata; Eleutherozoa; Asterozoa; Ophiuroidea; Ophiuridea; Ophiurida; Ophiurina; Gnathophiurina; Gnathophiuridea; Ophiactidae; Ophiopholis	97%
Ophiopholis kennerlyi voucher BIOUG:BAM00094 cytochrome oxidase subunit 1 (COI) gene, partial cds; mitochondrial	ссылка	Ophiopholis kennerlyi cellular organisms; Eukaryota; Opisthokonta; Metazoa; Eumetazoa; Bilateria; Deuterostomia; Echinodermata; Eleutherozoa; Asterozoa; Ophiuroidea; Ophiuridea; Ophiurida; Ophiurina; Gnathophiurina; Gnathophiuridea; Ophiactidae; Ophiopholis	83%
Ophiopholis japonica voucher BIOUG:HLC-24059 cytochrome oxidase subunit 1 (COI) gene, partial cds; mitochondrial	ссылка	Ophiopholis japonica Lyman cellular organisms; Eukaryota; Opisthokonta; Metazoa; Eumetazoa; Bilateria; Deuterostomia; Echinodermata; Eleutherozoa; Asterozoa; Ophiuroidea; Ophiuridea; Ophiurida; Ophiurina; Gnathophiurina; Gnathophiuridea; Ophiactidae; Ophiopholis	86%

С помощью программы muscle я построила множественное выравнивание по данным находкам и исходной последовательности - файл выравнивания . На рисунке ниже представлено дерево, построенное Jalview(Neighbour joining), на котором видно, что исходная последовательность(WS2951) ближе всего к последовательности gi|301506839|gb|HM542289.1, а это последовательность одного из прочтений гена цитохромной оксидазы Змеехвостки колючей, который я описывала в самом начале.

Таким образом, можно сделать вывод, что это ген субъединицы 1 цитохромной оксидазы, консервативный в роде Ophiopholis(принадлежащий скорее всего Змеехвостке колючей-Ophiopholis aculeata). С лучшей находкой уровень сходства составляет 97%, с Ophiopholis kennerlyi 83%.

Задание 2. Сравнение списков находок нуклеотидной последовательности 3-я разными алгоритмами blast
Последовательность, по которой проводился поиск
Сохраненная стратегия поиска алгоритмом blastn
Обсуждение области поиска
По заданию требовалось ограничить область поиска подходящим таксоном так, чтобы количество находок было от 10 до 1000 и чтобы ident был от 85% до 100%. Также нужно было привести не менее двух находок для каждого алгоритма, не найденных по другими алгоритмам. Выполнить эти условия одновременно мне не удалось. Если я ограничивала область поиска родом Ophiopholis, megablast выдавал 44 находки, discontiguous megablast и blastn выдавали по 50 находок, ident от 83 - 99%. Это удовлетворяет первым двум условиям задания, однако не получится описать находки, уникальные для blastn, так как они все совпадают с поиском discontiguous megablast. Поэтому я поставила в поле Organism семейство Ophiactidae и результаты поиска с данным ограничением привожу в отчете. В этом случае находки не соответствовали условию ident от 85 - 100%, так как самый маленький ident среди находок 74% (предпоследняя в blastn), но я решила, что важнее будет выяснить, какие последовательности пропускает discontiguous megablast.

Сравнение списков находок

	Blastn	Megablast	Discontiguous megablast
Число находок	228	180	227
E-value худшей	0.48	8e-98	5e-83
Ident худшей	100%	78%	74%

Таблица 2. Сравнение результатов поиска тремя разными алгоритмами
Примеры находок одного алгоритма, не найденных другими алгоритмами
1) Blastn. Даже с такими условиями поиска находки blastn отличались от находок discontiguous megablast на одну :(

Рис 2.1 Последние находки discontiguous megablast

Рис 2.2 Последние находки blastn
Это последняя находка Ophiactis simplex hemoglobin (Hb_a) gene, complete cds. Она могла не найтись алгоритмом discontiguous megablast, наверное, потому что не подошла по паттерну - замены нуклеотидов были не в тех местах, либо для discontiguous megablast E-value был слишком высокий и он исключил эту находку из результатов.
2) Discontiguous megablast. Список находок по этому алгоритму на 48 последовательностей длиннее списка находок по алгоритму megablast. В качестве примера приведу одни из последних находок discontiguous megablast: Ophiactis savignyi isolate REU0313 cytochrome oxidase subunit I (COI) gene, partial cds; mitochondrial и Ophiactis simplex voucher ACAP127 cytochrome oxidase subunit 1 (COI) gene, partial cds; mitochondrial. Вероятно, они не находились megablast'ом, так как мегабласт ищет совпадающие строки длиной 28 нуклеотидов, а в их выравниваниях с заданной нами последовательностью есть длинные и частые участки несовпадения.

Выводы

Megablast и discontiguous megablast не включают в результат запросы со слишком высоким E-value (+слишком низким query cover).
Megablast ищет совпадения строк длиной 28 нуклеотидов - его правильно было бы использовать для поиска гомологов.
Discontiguous megablast и blastn можно использовать для поиска менее похожих последовательностей, возможно, для поиска отдельных консервативных участков.

Задание 3.2 Standalone blast
DNA replication ATP-dependent helicase/nuclease DNA2
Это ключевой белок в репликации и репарации ядерной и митохондриальной ДНК. Он участвует в процессинге фрагментов Оказаки: обеспечивате связь одноцепочечного фрагмента с репликативным белком А и позволяет ему стать субстратом для белка FEN1. Участвует в восстановлении двухцепочечных разрывов в ДНК, также у него есть АТФазная, хеликазная и эндонуклеазная активность.
Telomerase reverse transcriptase
Это белок, необходимый для удлинения теломерных концов у большинства эукариот. Он активно синтезируется в стволовых и раковых клетках. Являясь обратной транскриптазой, TERT копирует матричную последовательность РНК-фрагмента энзима и добавляет полученные короткие нуклеотидные повторы к концам хромосом.
Histone H3.3
Это вариант белка-гистона H3, который заменяет обычный H3 во многих нуклеосомах активных генов. Составляет доминирующую форму H3 в неделящихся клетках и связывается с хроматином независимо от синтеза ДНК. Размещается по всей длине транскрибирующихся генов, и тем самым может служить возможным показателем транскрипционно-активного хроматина.
Calcium-binding mitochondrial carrier protein SCaMC-1
Этот белок служит связующим звеном в обратимой электронейтральной реакции обмена Mg-АТФ или Mg-АДФ с фосфат-ионами, катализуя связывание или "утечку" аденина через внутреннюю мембрану митохондрий. Может играть роль в защите клеток от окислительного стресса.
Serine/threonine-protein kinase Nek6
Протеинкиназа, которая играет важную роль в митотическом цикле клетки. Необходима для сегрегации хромосом в метафазе и анафазе митоза, формировании веретена деления и цитокинеза. Ингибирование его активности приводит к апоптозу.

Таблица результатов

Белок	Число лучших из хороших находок	Номер записи	Ident	Query cover	E-value	Файл выдачи tblastn	Длина белка
DNA replication ATP-dependent helicase/nuclease DNA2	2/7	scaffold-105	33.40	92	1e-130	ссылка	1062
Telomerase reverse transcriptase	0/2	scaffold-17	26.58	49	8e-23	ссылка	1032
Histone H3.3	6/8	scaffold-126	92.65	100	5e-75	ссылка	136
Calcium-binding mitochondrial carrier protein SCaMC-1	17/104	scaffold-287	30.30	83	8e-55	ссылка	477
Serine/threonine-protein kinase Nek6	87/232	scaffold-100	71.85	86	2e-97	ссылка	313

Проанализируем данные таблицы. Скрипт, которым я получала файлы: tblastn -query DNA2.fasta -db X5.fasta -out res1_3.out -outfmt "7 sseqid pident qcovs evalue bitscore" -evalue 0.001(С заменой названий файла с последовательностью бедка и выходного файла). Я поставила ограничение по e-value чтобы получить только более-менее достоверные находки. Допустим, что для гомологии необходим ident не менее 30, а query cover больше 50. Число таких находок я и назвала "лучшие из хороших". Такие ограничения я ввела, потому что в выдаче по последним двум белкам было слишком много находок. Белки очень короткие, и такое количество повтором могло быть вызвано тем, что они гомологичны часто встречающимся доменам в белках. Другим объяснением(но менее вероятным, на мой взгляд) может быть наличие повторов в геноме. Для TERT нашлись последовательности с достаточно низким E-value, но не подходящие по моим критериям. В принципе, и ident, и покрытие лучшей находки относительно высокие, поэтому с уверенностью говорить об отсутствии гомологии нельзя.