Зачетное задание по блоку 2

Из переписки со студентами

Имена всех файлов для проверки должны начинаться так: XXXXXXX…. , где XXXXXXX – фамилия автора работы, написанная латинскими буквами.

Все файлы для проверки должны лежать в директории H:\Term2\Cr_2. Лишних файлов в этой директории быть не должно.

Можно (но не обязательно!) выложить файлы на свой сайт и поместить на них ссылки со страницы второго семестра.

Данные:

  1. Последовательности шести гомологичных белков – поринов (порины образуют поры во внешней мембране грамотрицательных бактерий) – файл P:\y07\Term2\Block2\Data\Porins_6.fasta
  2. Совмещенные пространственные структуры тех же шести поринов – файл P:\y07\Term2\Block2\Data\Porins_6.ent
  3. Указание фрагментов двух последовательностей – здесь (а также файл P:\y07\Term2\Block2\Regions.doc)

Примечание. Нумерация остатков в PDB файле соответствует порядковым номерам букв в последовательностях (такое, увы, бывает не всегда :)

1 (обязательное).

(a) Построить выравнивание двух данных фрагментов последовательностей какой-либо из программ полного парного выравнивания. Результат сохранить в файле XXXXXXX_auto.msf

(b) Построить биологически обоснованное выравнивание тех же двух фрагментов последовательностей (такое выравнивание включает разметку!). Обоснованием выравнивания должно служить совмещение полипептидных цепей, приведённе в файле Porins_6.ent. Результат сохранить в файле XXXXXXX_bio.msf

(с) В отчете XXXXXXX_cr2.doc (или XXXXXXX_cr2.html):

(i) указать суммарную длину биологически обоснованных участков выравнивания и процент от общего числа позиций выравнивания;
(ii) указать число и процент совпадающих остатков и функционально сходных остатков на биологически обоснованных участках выравнивания;
(iii) прокомментировать расхождения между выравниваниями auto и bio (или указать, что они полностью совпадают) + краткое описание основных этапов работы

Указания.

Как добыть фрагменты последовательностей

В файле Porins_6.fasta последовательности имеют имена A, B, …, F, соответствующие именам цепочек в PDB-файле. Пусть, например, ваши фрагменты такие: 1-37:A, 11-52:F. Тогда команда пакета EMBOSS

seqret porins_6.fasta:A[1:37] region_1.fasta
вырежет и положит в файл region_1.fasta нужный фрагмент.

Как построить выравнивание двух последовательностей автоматически

Как умеете :)

Как визуализировать совмещение двух указанных фрагментов совмещенных структур

Я сочинил простенький скрипт ini.spt для Rasmol, который поможет это сделать (минус 1 балл от всех в мою пользу :) ААл). Прежде чем его запускать, вы должны определить командой define четыре подмножества, а именно:
chain_1   (первая указанная вам цепочка)
chain_2   (вторая)
region_1   (указанный участок от–до в первой цепочке)
region_2   (во второй)

Например,

 define chain_1 *:A
 define chain_2 *:F
 define region_1 1-37
 define region_2 11-52
Дополнительно скрипт изобразит шариками Cα-атомы двух фрагментов, сближенные менее чем на 2 ангстрема.

Как отредактировать выравнивание, чтобы получить биологически обоснованное

Близкие друг другу Cα-атомы из разных цепей должны соответствовать буквам, стоящим друг под другом в биологически обоснованном участке выравнивания. Гэпы могут находиться только против тех остатков, чьи Cα-атомы не имеют близкого Cα-атома из другой цепи. Если в выравнивании «auto» это не так, то редактором GeneDoc отредактируйте выравнивание (см. инструкции по GeneDoc).

Порог близости Cα-атомов в совмещенных структурах, равный 2 ангстрема, не является мировой константой, но б.м. приемлем.

Совмещение данных участков может не быть самым лучшим совмещением. Если глазами видите, что немножко переместив один фрагмент, вы получите лучшее совмещение Cα-атомов, то можете это обстоятельство учитывать при редактировании выравнивания последовательностей. Другой вариант — можно попробовать немножко увеличить порог в ангстремах в скрипте. В любом случае, здравый смысл не помешает :).

“Случайные” совпадения Cα-атомов в пространстве можно игнорировать.

Как разметить выравнивание.

Добавьте в выравнивание фиктивную последовательность с именем Aligned.

В строчке Aligned поставьте букву A (от “aligned”) в тех колонках, где Cα-атомы сопоставлены на основании совмещения структур.

Отметьте буквой A также колонки, слева и справа от которых уже стоят буквы A — скорее всего, расстояние между соответствующими Cα-атомами немножко превысило порог 2 ангстрема.

Уберите букву A из колонок, по соседству с которыми и справа, и слева буква A не стоит — скорее всего, это “случайное” совпадение Cα-атомов в пространстве.
 


Дополнительные задания можно делать только после выполнения обязательного задания.


Дополнительные задания 2 и 3 можно выполнять в любом порядке.


2* (дополнительное).

Для одного, двух или трех функционально консервативных или консервативных остатков в последовательности вашего белка (из первого семестра) выскажите предположение о том, почему они консервативны, в чем их функциональная роль. Основания для предположения можно найти, анализируя пространственную структуру того же белка.

Результат: (i) в файле XXXXXXX_cr.doc — по картинке из RasMol на каждый консервативный остаток и одна-две фразы подписи к каждой картинке;
(ii) выравнивание XXXXXXX_cons.msf.

Указания

Найдите в последовательности участок, структура которого имеется в данном вам файле PDB.
Дело в том, что структура из PDB может включать лишь часть белка. Поэтому для анализа вам может понадобиться из данной последовательности вырезать фрагмент, соответствующий структуре (плюс-минус несколько остатков не в счет).

Как найти консервативные позиции в последовательности белка?

Найдите несколько сходных последовательностей, постройте множественное выравнивание XXXXXXX_cons.msf и в нем найдите консервативные позиции.

Подробнее:

Как найти сходные последовательности?

Используйте BLASTP чтобы найти несколько (3-5) белков со сходной последовательностью. Не берите находки с почти такой же последовательностью, как на входе; очень далекие находки, особенно с коротким выравниванием, тоже не берите. Рекомендуемое сходство: Identities ≈ 30–60% при e-value не более 10– 4.

Получите последовательности найденных белков в fasta формате (как сумеете :). Не забудьте добавить исходную последовательность в тот же файл!

Как построить выравнивание сразу нескольких последовательностей?

Выполните команду emma пакета EMBOSS. Пример:

emma my_sequnces_4.fasta msf::ivanov_cons.msf ivanov_cons.dnd
(где my_sequnces_4.fasta – файл с вашими последовательностями). Формат msf выходного файла определяется приставкой «msf::». Смысл второго выходного файла (*.dnd) будет объяснен в следующем блоке.

Как найти участки предполагаемого биологически обоснованного выравнивания?

Это участки, почти не включающие колонки с разрывами (колонки, содержащие хотя бы одну черточку) и с относительно большим числом функционально консервативных позиций. “Почти” — это ≤ одна-две колонки на 10 позиций.

Как можно объяснить консервативность или функциональную консервативность остатка?

   – Входит в активный центр, контактирует с лигандом или ионом.
   – Участвует в белок-белковом взаимодействии, во взаимодействии с ДНК или РНК и т.п.
   – Боковая цепь участвует в поддержании конформации глобулы. Например, образует водородную связь между двумя элементами вторичной структуры; способствует резкому повороту полипептидной цепи (глицин) или ее особой жесткости (пролин); входит в гидрофобное ядро белка (большие гидрофобные остатки – триптофан, фенилаланин, тирозин, лейцин, изолейцин,… — не выходящие на поверхность белка).

Можно ли использовать другую информацию для нахождения консервативных остатков в последовательности и объяснения их роли?

Да.
 

3* (дополнительное).

Найдите последовательность белка, сходную с одним из данных вам фрагментов поринов, но не совпадающую с последовательностями из файла Porins_6.fasta. Постройте выравниваний соответствующего фрагмента найденной последовательности и двух данных вам фрагментов так, чтобы предположительно, выравнивание всех трех фрагментов соответствовало биологически обоснованному.

Результат – файл XXXXXXX_bio_3.msf и одна-две фразы в отчете XXXXXXX_cr2.doc

Как это делать

Используйте BLAST чтобы найти третью последовательность. На вход – один из фрагментов. Выберите одну из находок. Критерии выбора могут быть такими, как в задании 2, но строгих ограничений нет.

Проверьте, как сумеете, что находка не совпадает ни с одной из последовательностей Porins_6.fasta

Сохраните выравнивание из выдачи BLAST в любом формате.

Вырежьте фрагмент находки и сохраните в fasta формате.

Скопируйте XXXXXXX_bio.msf в XXXXXXX_bio_3.msf. Откройте XXXXXXX_bio_3.msf с помощью GenDoc. Импортируйте в это выравнивание полученный фрагмент. Подравняйте его вручную, ориентируясь на выравнивание из выдачи BLAST и на здравый смысл. Сохраните файл.

Можно ли это (и другие) задания выполнять как-нибудь иначе?

Да. Важен результат.