1. Определите таксономию и функцию прочтенной вами нуклеотидной последовательности
Во время выполнения практикума 6 нам предлагалось расшифровать и проверить правильность хроматограммы, полученной с помощью капиллярного секвенатора. Результаты доступны по ссылке. Чтобы определить таксономию данного белка я загрузила полученную последовательность в Blast с использованием алгоритма Megablast. Поиск велся по базе данных Nucleotide collection (nt), так как в RefSeq (база данных с редактированными и достоверно известными последовательностями) может не оказаться нужного организма (для проверки я попробовала сделать один запрос в refseq и действительно, нужного организма не оказалось и BLAST выдал максимальное сходство (77% ) с дрозофилой). Длина слова составляла 28 букв.
Определенная последовательность на 99% совпала с указанной базой данных и кодирует 1 субъединицу цитохромоксидазы (закодирован в геноме митохондрий) (так как у 100 лучших находов эта последовательность кодирует то же самое). Данная последовательность принадлежит брюхоногому моллюску Lacuna vincta . Все 100 находок blast принадлежали организмов, входящих в состав инфраотряда Littorinimorpha (идентичность внутри выше 85%). Ссылка на выравнивание (pdf). Поэтому для того, чтобы понять, насколько достоверно можно судить о таксономии похожих последовательностей я открыла таксономическое дерево, построенное на основе результатов. Оно представлено на рисунке 1. Основываясь на поулченных результах, можно судить о том, что похожая последовательность цитохром с оксидазы характерна для всех брюхоногих моллюсков.
Рисунок 1. Полученное таксономическое дерево
Lacuna vincta, брюхоногий моллюск. Полная классификация согласно Arctos Specimen Database: Animalia (kingdom) Mollusca (phylum) Gastropoda (class) Mesogastropoda (order) Littorinidae (family) Lacuna (genus). Размеры не превышают 6мм, обитает в северных морях, в прибереговой зоне на глубине до 60м [1]. Подробнее о его взаимоотношениях с другими организмами в цепях питания: в базе Global Biotic Interactions.
Как уже говорилось выше, полученная последовательность кодирует I субъединицу цитохром С оксидазы. Этот ген кодирется в митохондриальном геноме, локализован на внутренней мембране митохондрии, является компонентом дыхательной цепи (См. рисунок 2).
Рисунок 2. Схема дыхательной цепи [2]
Цитохром С оксидаза - это большой комплекс, содержащий 14 субъединиц, 3 из которых кодируются митохондриальным геномом. Кроме того он содержит 3 гема, цитохром а, цитохром а3, два центра, содержащих медь [3]. Ленточная модель данного комплекса прдставлена на рисунке 3.
Рисунок 3. Слева: Lacuna vincta [4], Справа: Цитохром С оксидаза [3]
Сравните списки находок нуклеотидной последовательности 3-я разными алгоритмами blast
Основные параметры поиска: E-value =1e-10. Подробнее-гугл форма.
Полученные результаты:
Таблица 1. Сравнение результатов выдачи алгоритмов
Критерий | Megablast | Discontiguous blast | Blastn |
Длина слова | 28 | 11 | 11 |
Число находок | 119 | >1000 | >1000 |
Ссылка на таблицу результатов. Программа megablast выдала на порядок меньше результатов из-за того, что поиск в ней ведется по слову длины 28, поэтому выдает только близкие гомологи. Для заданных параметров blastn и Discontiguous blast выдали одинаковые результаты. Это говорит о высокой консервативности этого белка внутри этого семейства.
После получения таких результатов я продолжила поиск, поочередно отсекая таксоны более высокого уровня, однако успехова достичь не удалось. Разницу между blastn и discontiguous blast удалось обнаружить только проводя поиск, исключая Eukaryota (taxid:2759), критическое значение E-value:1e-30, длина слова 11. Blastn нашел 17 вариантов, а
discontiguous blast - 35. Это связано с тем, что discontiguous blast допускает большие несоответствия и проводит широкий поиск среди всех возможных гомологов, а у blastn - более "строгие" требования, поэтому и работает он медленнее, зато позволяет искать по коротким словам (длиной от 7 символов). Результат работы приведен на рисунке 4.
Рисунок 4. Сверху: результат работы алгоритма discontiguous blast, снизу: результат работы алгоритма blastn. Поиск велся исключая Eukaryota (taxid:2759), критическое значение E-value:1e-30, длина слова 11
3. Проверьте наличие гомологов трех белков в геноме одного организмов
Задание выполнено в гугл форме. Выравнивание для двух лучших находок ETF3 на рисунке 5. Ссылка на таблицу.
Рисунок 5. Выравнивание EGF3 и двух лучших находок из генома Amoeboaphelidium protococcarum
4.Найдите один ген белка, закодированный в одном скэффолде ''Amoeboaphelidium protococcarum''
5. Список литературы
[1] https://en.wikipedia.org/wiki/Lacuna_vincta
[2] http://www.zeronasantarosa.com/zerona-fat.html
[3] https://en.wikipedia.org/wiki/Cytochrome_c_oxidase_subunit_I
[4] http://picssr.com/tags/chinkshell/page3