Мотивы в белках

Поиск консервативных мотивов в выравнивании

В рамках данного практикума из БД Pfam мною был выбран белковый домен Cytochrome С с идентификатором PF00034. Цитохромы C обладают широким спектром свойств и функционируют как белки переноса электронов или катализируют химические реакции, включающие окислительно-восстановительные процессы. Видным представителем этого семейства является митохондриальный цитохром C. В seed'e данного домена содержится 47 последовательности, и при удалении из выравнивания последовательностей, идентичных минимум на 90%, количество последовательностей не изменилось. Далее в программе JalView был получен следующий проект, в котором был найден самый консервативный мотив C..CH, наблюдаемый во всех последовательностях(вот доказательство). Затем при помощи сервиса ScanProsite был осуществлен поиск по данному паттерну(уже в виде СXXCH) в базе данных SwissProt. Результатом поиска стали 1172 находки среди 1000 последовательностей. Выравнивание получилось, мягко говоря, так себе, и мотив в последовательностях находилтся не друг под другом, так как в тысяче последовательностей мотив встречается 1172 раза. Поэтому нельзя говорить о его консервативности и вероятно находки имеют случайное отношение к искомому паттерну и мативу в целом.

Поиск специфичного мотива

Методом UPGMA в Jalview было построено филогенетическое дерево на основании полученного выравнивания, затем были выделены клады, одна из которых будет рассмотрена далее. В полученной кладе достаточно много консервативных мотивов, я выбрала M[AV]SLF. Этот паттерн в получившемся выравнивании занимает позиции 1-5. Из всех последовательностей данный паттерн был обнаружен только в этой кладе, следовательно, его можно назвать специфичным именно для нее.

Update: Вернемся к описанию белкового домена.

"Цитохромы С, или гемсодержащие белки, которые имеют гем C, ковалентно присоединенный к пептидному остову через одну или две тиоэфирные связи. Эти связи в большинстве случаев являются частью специфического связывающего мотива Cys-X-X-Cys-His (CXXCH), где X обозначает произвольную аминокислоту"

Я увидела эту аннотацию уже после выполнения всех заданий данного практикума. Данный мотив совпал с найденным мной консервативным мотивом CXXCH, несмотря на то, что изначально наличие всего трех неподряд идущих консервативных колонок при Above identity threshold 100% меня смутило.

PSI-BLAST

В этом разделе будет рассмотрен белок с АС P19954 (Ribosome-binding factor) - Фактор связывания рибосом, участвующий в свето- и температурно-зависимом контроле синтеза белка. Взаимодействует с нуклеотидами 16S мРНК в A-сайте и P-сайте, где он защищает декодирующий центр и ингибирует трансляцию, предотвращая связывание тРНК. Стабилизирует рибосомы 70S от диссоциации. Может быть рециркулирован совместным действием фактора рециркуляции рибосом (RRF) и EF-G. В результате запуска PSI-BLAST в несколько итераций по базе Swiss-Prot были получены следующие данные:

Таблица 1.Результат 4 итераций PSI-BLAST

photo
С третьей итерации PSI-BLAST нет находок с e-value ниже установленного порога. Также после 3 итераций количество находок не изменилось. Четвертая итерация подтвердила эту тенденцию. Это говорит об обособленности найденного белкового семейства.

Поиск мотивов de novo с помощью MEME

Из Pfam были скачены последователньости белков из ранее упомянутого домена. С помощью команды

meme seqpr10.fasta -o meme_out -minw 4 -maxw 10 -nmotifs 4

был произведен поиск мотивов среди данных последовательностей. Результат можно увидеть по ссылке. Было найдено 4 мотива, один из которых (с меньшим E-value) соответствует ранее найденному мотиву СХХСН. 3 остальных также имеют маленькое значение E-value. Дополненный мотив СХХСН (и остальные) можно посмотреть здесь.
photo

Изображение 1.Logo1 - мотив. E-value 3.0e-542

photo

Изображение 2.Logo2 - мотив. E-value 2.9e-213

photo

Изображение 3.Logo3 - мотив. E-value 9.7e-168

photo

Изображение 4.Logo4 - мотив. E-value 6.4e-133

Оценка представленности сайта GATC

Данная оценка была выполнена по геному бактерии Enterococcus lactis при помощи комманды:

cbcalc -s sites.txt -M -o respr10.tsv seq.fasta

В результате был получен файл, на основании которого была получена гистограмма:
photo

Изображение 5. Гистограмма представленности сайтов

По данной гистограмме видно, что все 24 сайта представлены с небольшим разбросом в районе единицы, однако привычный сайт метилирования GATC представлен меньше, чем, например, GTCA, ATCG CGAT и другие. Возможно это связано с видовой особенностью организма, и данный сайт не является ключевым в метилировании.