|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Задание 1 (№4 из практикума 7)
Сохраненная стратегия поиcка Последовательность, по которой проводился поиск В выдаче программы blastn первые 25 последовательностей представляют собой прочтения одного и того же гена, только отличаются по длине (встречаются еще отличия в несколько единичных нуклеотидов). Скриншот. Этот митохондриальный ген кодирует белок субъединицы 1 цитохромной оксидазы Змеехвостки колючей (ссылка на одну из записей по данному белку в GenBank). Все однотипные записи получены в неопубликованной статье (возможно, это часть одной из программ по штрихкодированию) "ДНК штриховое кодирование иглокожих: разнообразие видов и моделей молекулярной эволюции". Автор: Corstorphine,E.A. Змеехвостка колючая является одним из распространенных обитетелей наших морей, серевной части Атлантического океана. ![]() Фотография Змеехвости колючей сделанная Александром Семеновым (ББС) Таксономия Змеехвостки колючей Другие хорошие находки представлены в таблице ниже.
С помощью программы muscle я построила множественное выравнивание по данным находкам и исходной последовательности - файл выравнивания . На рисунке ниже представлено дерево, построенное Jalview(Neighbour joining), на котором видно, что исходная последовательность(WS2951) ближе всего к последовательности gi|301506839|gb|HM542289.1, а это последовательность одного из прочтений гена цитохромной оксидазы Змеехвостки колючей, который я описывала в самом начале. Таким образом, можно сделать вывод, что это ген субъединицы 1 цитохромной оксидазы, консервативный в роде Ophiopholis(принадлежащий скорее всего Змеехвостке колючей-Ophiopholis aculeata). С лучшей находкой уровень сходства составляет 97%, с Ophiopholis kennerlyi 83%. Задание 2. Сравнение списков находок нуклеотидной последовательности 3-я разными алгоритмами blast Последовательность, по которой проводился поиск Сохраненная стратегия поиска алгоритмом blastn Обсуждение области поиска По заданию требовалось ограничить область поиска подходящим таксоном так, чтобы количество находок было от 10 до 1000 и чтобы ident был от 85% до 100%. Также нужно было привести не менее двух находок для каждого алгоритма, не найденных по другими алгоритмам. Выполнить эти условия одновременно мне не удалось. Если я ограничивала область поиска родом Ophiopholis, megablast выдавал 44 находки, discontiguous megablast и blastn выдавали по 50 находок, ident от 83 - 99%. Это удовлетворяет первым двум условиям задания, однако не получится описать находки, уникальные для blastn, так как они все совпадают с поиском discontiguous megablast. Поэтому я поставила в поле Organism семейство Ophiactidae и результаты поиска с данным ограничением привожу в отчете. В этом случае находки не соответствовали условию ident от 85 - 100%, так как самый маленький ident среди находок 74% (предпоследняя в blastn), но я решила, что важнее будет выяснить, какие последовательности пропускает discontiguous megablast. Сравнение списков находок
Таблица 2. Сравнение результатов поиска тремя разными алгоритмами Примеры находок одного алгоритма, не найденных другими алгоритмами 1) Blastn. Даже с такими условиями поиска находки blastn отличались от находок discontiguous megablast на одну :( Рис 2.1 Последние находки discontiguous megablast Рис 2.2 Последние находки blastn Это последняя находка Ophiactis simplex hemoglobin (Hb_a) gene, complete cds. Она могла не найтись алгоритмом discontiguous megablast, наверное, потому что не подошла по паттерну - замены нуклеотидов были не в тех местах, либо для discontiguous megablast E-value был слишком высокий и он исключил эту находку из результатов. 2) Discontiguous megablast. Список находок по этому алгоритму на 48 последовательностей длиннее списка находок по алгоритму megablast. В качестве примера приведу одни из последних находок discontiguous megablast: Ophiactis savignyi isolate REU0313 cytochrome oxidase subunit I (COI) gene, partial cds; mitochondrial и Ophiactis simplex voucher ACAP127 cytochrome oxidase subunit 1 (COI) gene, partial cds; mitochondrial. Вероятно, они не находились megablast'ом, так как мегабласт ищет совпадающие строки длиной 28 нуклеотидов, а в их выравниваниях с заданной нами последовательностью есть длинные и частые участки несовпадения. Выводы
Задание 3.2 Standalone blast DNA replication ATP-dependent helicase/nuclease DNA2 Это ключевой белок в репликации и репарации ядерной и митохондриальной ДНК. Он участвует в процессинге фрагментов Оказаки: обеспечивате связь одноцепочечного фрагмента с репликативным белком А и позволяет ему стать субстратом для белка FEN1. Участвует в восстановлении двухцепочечных разрывов в ДНК, также у него есть АТФазная, хеликазная и эндонуклеазная активность. Telomerase reverse transcriptase Это белок, необходимый для удлинения теломерных концов у большинства эукариот. Он активно синтезируется в стволовых и раковых клетках. Являясь обратной транскриптазой, TERT копирует матричную последовательность РНК-фрагмента энзима и добавляет полученные короткие нуклеотидные повторы к концам хромосом. Histone H3.3 Это вариант белка-гистона H3, который заменяет обычный H3 во многих нуклеосомах активных генов. Составляет доминирующую форму H3 в неделящихся клетках и связывается с хроматином независимо от синтеза ДНК. Размещается по всей длине транскрибирующихся генов, и тем самым может служить возможным показателем транскрипционно-активного хроматина. Calcium-binding mitochondrial carrier protein SCaMC-1 Этот белок служит связующим звеном в обратимой электронейтральной реакции обмена Mg-АТФ или Mg-АДФ с фосфат-ионами, катализуя связывание или "утечку" аденина через внутреннюю мембрану митохондрий. Может играть роль в защите клеток от окислительного стресса. Serine/threonine-protein kinase Nek6 Протеинкиназа, которая играет важную роль в митотическом цикле клетки. Необходима для сегрегации хромосом в метафазе и анафазе митоза, формировании веретена деления и цитокинеза. Ингибирование его активности приводит к апоптозу.
Проанализируем данные таблицы. Скрипт, которым я получала файлы: tblastn -query DNA2.fasta -db X5.fasta -out res1_3.out -outfmt "7 sseqid pident qcovs evalue bitscore" -evalue 0.001(С заменой названий файла с последовательностью бедка и выходного файла). Я поставила ограничение по e-value чтобы получить только более-менее достоверные находки. Допустим, что для гомологии необходим ident не менее 30, а query cover больше 50. Число таких находок я и назвала "лучшие из хороших". Такие ограничения я ввела, потому что в выдаче по последним двум белкам было слишком много находок. Белки очень короткие, и такое количество повтором могло быть вызвано тем, что они гомологичны часто встречающимся доменам в белках. Другим объяснением(но менее вероятным, на мой взгляд) может быть наличие повторов в геноме. Для TERT нашлись последовательности с достаточно низким E-value, но не подходящие по моим критериям. В принципе, и ident, и покрытие лучшей находки относительно высокие, поэтому с уверенностью говорить об отсутствии гомологии нельзя. |