Главная | Первый семестр | Второй семестр | Ссылки | Обо мне | Заметки | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Семейства белковых доменовДля выполнения заданий данного практикума была взята аминокислотная последовательность белка аспартатаминотрансферазы из организма бактерии Aquifex aeolicus VF5 (идентификатор в базе данных RefSeq NP_214350). Данная последовательность доступна в формате fasta. Задание 1. Поиск доменов Pfam в последовательности моего белка. Pfam - база данных, содержащая информацию о выравниваниях белковых доменов. Для выполнения данного задания было необходимо осуществить поиск доменов по последовательности белка на сайте Pfam в разделе Sequence search. По умолчанию отбор производится по порогу E-value = 1.0 (Условия поиска). Была найдена всего одна Pfam A находка, поиск по Pfam B не производился (Pfam A содержит курируемые данные, а Pfam B - некурируемые). Было найдено семейство Aminotran_1_2 (Aminotransferase class I and II), входящее в клан PLP_aminotran (CL0061), содержащий пиридоксальфосфат-зависящие ферменты. О самом семействе нет никаких данных, кроме того, что с другими последовательностями клана его объединяет такая черта, как связывание пиридоксальфосфатной группы с остатком лизина, помимо этого, на основе особенностей последовательностей данное семейство подразделяется на 2: класс I и II. Молекулярная функция заключается в трансферазной активности и связывании пиридоксальфосфатной группы. С данным семейством было найден один матч входной последовательности длиной 363 остатка, другие характеристики находки: Bit Score 276.2, E-value 3.4e-82. Был сохранен Seed данного семейства (ссылка Alignments), содержащий 48 последовательностей (всего же последовательностей 52439), в формате fasta. Также было получено изображение Seed в JalView (окно Seed), которое можно увидеть и на Рис. 1. Задание 2. Также я выбрала в данном выравнивании несколько колонок (237-242) в качестве блока (колонки отмечены символом В на Рис. 2 и в окнах JalView block и block_closer). Блок в формате fasta. По последовательностям на участке данного блока на сервере Weblogo был получен logo данного мотива, показывающий распространенность различных остатков в каждой из позиций (Рис. 3). Также из загруженного в JalView выравнивания Seed была сохранена консенсусная последовательность блока (в формате fasta). Задание 3. В данном задании я нашла последовательность из Seed, наиболее схожую с консенсусной последовательностью белка. Для это я построила парные глобальные выравнивания каждой последовательности из Seed c консенсусной (в формате fasta). С результатами можно ознакомиться в Таблице 1. Таблица 1. Сравнение Score парных глобальных выравниваний последовательностей из Seed c консенсусной.
По данным таблицы видно, что наиболее похожа на консенсусную последовательность с идентификатором 1A12_SOLLC. Задание 4. В данном задании, основываясь на полученном в прошлом задании logo, я составила сильный и слабый паттерны для поиска последовательностей, содержащих мотив с данным паттерном, по базе данных Swiss-Prot на сервере http://prosite.expasy.org/scanprosite/. Сильный паттерн призван находить только гомологичные находки, что может достигаться усилением позиций и жертвой некоторых находок. Составить сильный паттерн по logo длиной всего 6 остатков является непростой задачей, так как крайне высока вероятность, что такой короткий мотив будет найден в огромном количестве негомологичных последовательностей. Задачу усугубляет то, что позиции данного участка малоконсервативные, то есть имеется много вариантов даже среди последовательностей семейства, что не позволяет найти только гомологов (сервис даже не выдает результат, так как находок слишком много). Что интересно, даже при учитывании всех вариантов остатков в паттерне, не находится исходная последовательность аспартатаминотрансферазы (последовательности аспартатаминотрансфераз не находятся вообще, самый близкий результат при "прогоне" паттерна=консенсуса - гистидинолфосфатаминотрансферазы), а при сравнении данного участка в консенсусной последовательности и в исходном белке можно предположить, что в данном участке могли произойти индели: FCUERG (участок исходной последовательности) FVDEAY (тот же участок в консенсусной последовательности) Попытка учесть индели приводит программу в нерабочее состояние. Если попробовать добавить в паттерн по несколько остатков по бокам от паттерна, то можно получить немного более приятные результаты. В итоге было принято решение добавить в паттерн 3 остатка справа от блока и 1 слева. Окончательный вариант паттерна: [IAV]-[VIM]-[ILVFACST]-D-E-[AVSTI]-Y-[GYIVSMD]-[GDHKVLE]-[FILGMV] (186 хитов в 186 последовательностях). Изначально я составила паттерн, просто перечислив в каждой из позиций все имеющиеся в последовательностях Seed варианты остатков. Разумеется, это привело к выдаче огромного количества негомологичных последовательностей. Тогда были произведены следующие изменения:
В результате все полученные последовательности относятся к семейству аминотрансфераз. Большую часть составляют гистидинолфосфатаминотрансферазы, также находятся тирозинаминотрансферазы и предполагаемые аспартатаминотрансферазы. Аспартатаминотрансферазы данный паттерн не находит, потому что, как уже было сказано выше, их паттерн в данном блоке сильно различается, что позволяет предположить наличие инделей в данном блоке (или просто высокую вариативность). Слабый паттерн призван находить все находки, содержащие данный мотив (в том числе значительное количество негомологичных находок). Для слабого мотива я ослабила первые две колонки до всех гидрофобных остатков, встречающихся в позициях, в 4 колонку добавила D и гидрофобные остатки, а также вернула остатки A и Q в 8 и 9 колонки соответственно, так как это позволило найти гораздо больше находок из моего семейства. Слабый паттерн: [IAVFLM](2)-[ILVFACST]-D-[DEIAVFLM]-[AVSTI]-[HFY]-[AGYIVSMD]-[QGDHKVLE]-[FILGMV] (1221 находка в 1221 последовательности). К сожалению, количество включений из других семейств колоссальное, что происходит за счет того, что выбранный блок содержит много малоконсервативных позиций, различающихся даже внутри семейства. В частности, помимо аминотрансфераз были получены находки: из семейства карбоксилтрансфераз, лиаз, дегидрогеназ, рецепторы брадикинина, сигнальные белки сети убиквитинизации, субъединицы АТФ-синтазы. Из "нужного" к находкам добавились несколько аспартатаминотрансфераз и глутаматпируватаминотрансфераз. Думаю, что если "разумно" расширять паттерны, то это все возможные находки. К сожалению, индели учесть не удается, находок получается больше, чем может выдать программа. Задание 5. Также я осуществила поиск последовательностей мотивов в последовательностях Seed с помощью сервиса MEME. Поиск производился до трех мотивов в каждой последовательности, а также использовалась опция Any number of repetitions (возможны находки нескольких повторяющихся мотивов в одной последовательности). Cсылка на последовательности Seed. Ссылка на результаты работы программы МЕМЕ. Программа обнаружила три мотива (logo мотивов можно наблюдать на Рис.4 (a - c)). Из 48 последовательностей Seed все три мотива были найдены в 8 последовательностях, в одной - только второй, в двух - только первый, во всех остальных - первый и второй. Ни в одной последовательности не было найдено повторяющихся мотивов. |
© 2014 Дарья Николаева