Дополнительные задания для любопытных.
Тема "Элементарные эволюционные события"

 
     

 

Предлагается выбрать задание на Ваш вкус. Для каждого задания указаны формат отчета и число баллов за минимально приемлемое выполнение + число бонусных баллов за высокое качество работы.

  1. Задание 1. Сравнить разные способы оценки эволюционных расстояний между нуклеотидными последовательностями.
    Форма отчета — HTML-страничка + файл *.xls
    Баллы: 2+2.
  2. Задание 2. Описать элементарные эволюционные события для случая 3-х замен в одном кодоне.
    Форма отчета — любая, от рукописного листа (с читаемым текстом!) до HTML-странички.
    Баллы: 2+1.
  3. Задание 3.Сравнить давление отбора на разные гены (работа с веб-сервером PAL2NAL)
    Форма отчета — HTML-странички.
    Баллы: 1+2.

Задание 1. Сравнение разных способов оценки эволюционных расстояний между 2-мя генами

  • Cоздайте модель последовательной эволюции гена Вашего белка:

    ген ХХ →mutant1→mutant2→mutant3→mutant4→mutant5→mutant6

    На каждом этапе происходят только замены, число замен на последовательных этапах ("истинные" расстояния) положите, например, равным: 10, 10, 30, 25, 50, 50 на каждые 100 нуклеотидов .
    Получите мутантные последовательности с помощью программы msbar пакета EMBOSS, синтаксис:
    msbar <infile> <outfile>  -point 4 -count <общее количество замен>  -auto
    Не забудьте пересчитать число замен на полную длину гена!! Напоминаем также, что команда msbar -help выдает подсказку на экран, и Вы можете узнать, что значит "-point 4".

    Здесь хорошо написать скрипт для получения сразу всех мутантов в одном файле. Сделайте скрипт исполняемым, выполнив команду

    chmod +x имя_скрипта
    В результате нужно получить один файл со всеми последовательностями, включая ген Вашего белка. Следите, чтобы последовательности имели разные имена, не используйте имена, не содержащие букв.

  • Определите попарные эволюционные расстояния между всеми последовательностями (включая исходную) c помощью программы distmat пакета EMBOSS. Синтаксис:
    distmat -sequence <file name > -outfile <outfile name> -nucmethod <метод оценки> <номер метода, см. help> 

    На вход программе подается множественное выравнивание, но т.к. в Вашей модели были только замены, то просто файл с последовательностями и будет соответствовать биологически значимому выравниванию.

    Выбирая соответствующие пункты меню программы, получите 2 матрицы попарных расстояний:

    1. матрицу попарных различий (D) (uncorrected distances);
    2. матрицу попарных расстояний, вычисленных по формуле Джукса – Кантора (JC)

  • Cоздайте новую рабочую книгу Excel "Dist.xls", содержащую 2 листа c названиями "All_data" и "Comparison".

    На стр. "All_data" создайте таблицу с "истинными" попарными расстояниями (число замен на 100 нуклеотидов:

      Gene... Mutant1 Mutant2 …..
    Gene... 0 85 40  
    Mutant1   0 15  
    Mutant2     0  
    ……        

    На эту же стр. "All_data" импортируйте данные из выходных файлов distmat. Т.е. на странице должны быть 3 матрицы попарных расстояний: "истинных", неоткорректированных расстояний или несовпадений (D) и расстояний по Джуксу – Кантору (JC)

    Ваша следующая задача — на стр. "Comparison" собрать все данные в единую таблицу вида:
    Имя пары "Истинное" расстояние (T) Несовпадения (D) Jukes–Cantor (JC)
    Gene....Gene.... 0 0 0
    Gene_Mutant1 35 33 34
    Gene_Mutant2 78 ... ...

    Один из возможных способов преобразовать матрицы расстояний в таблицу нужного вида можно найти в прошлогоднем задании №12, пп.4-7 и подсказках к нему.

    Отсортируйте всю таблицу по убыванию "истинных расстояний". По полученным данным постройте график зависимости 2-х оценок расстояния (D, JC) от величины "истинного" расстояния (T).

  • В отчете (HTML-страничка) кратко опишите, что и зачем делали. Приведите ссылку на книгу Excel. Приведите картинку с полученным графиком.
  • Опишите диапазон, в котором полученные оценки эволюционных расстояний близки к "истинным". Укажите, начиная с каких эволюционных расстояний полученные оценки сильно отклоняются от реального числа эволюционных событий. Сделайте выводы.



Задание 2. Описать элементарные эволюционные события для случая 3-х замен в одном кодоне.

Заданные исходный и конечный кодоны см. здесь.

Изобразите в виде схемы все возможные минимальные пути превращения первого кодона во второй, не проходящие через стоп-кодоны.

Для вдохновения посмотрите слайд №20 презентации к данному занятию. Что должно быть на схеме?

  1. Исходный, все промежуточные и конечный кодон, пути отмечены стрелками.
  2. Под каждым кодоном —соответствующая аминокислота.
  3. Под исходным и под каждым промежуточным кодоном —число синонимичных и несинонимичных сайтов.
  4. Для каждой замены укажите, синонимичная ли она или несинонимичная.

Определите среднее значение Ka (числа несинонимичных замен на 1 несинонимичный сайт) по всем возможным путям.

Определите среднее значение Ks(числа синонимичных замен на 1 несинонимичный сайт) по всем возможным путям.

Обращаем внимание, что задание состоит не только в выполнении предлагаемых действий, но и в изобретении схемы, иллюстрирующий результат. Будет принята любая четкая и читаемая схема "от руки", а бонусные баллы за оформление предназначены за схемы в формате *.doc или *.html. При этом не надо создавать чересчур сложных документов, чем проще и яснее схема, тем лучше!


Задание 3.Сравнить давление отбора на разные гены (работа с веб-сервером PAL2NAL)

  • Откройте страничку PAL2NAL, разберитесь, что делает эта программа.
  • Создание выборок белков и их генов.

    С помощью программы blastP найдите в UniProt потенциального гомолога Вашего белка с ID около 70-80%, обратите внимание на то, чтобы последовательности выравнивались по всей длине, желательно также, чтобы новая последовательность была аннотирована (названа) так же, как и Ваш белок (возможно, что Вы уже такой белок находили во втором семестре). Получите новую а.к. последовательность и последовательность соответствующего гена.

    Постройте попарное выравнивание Вашего белка и его гомолога, сохраните его в формате FASTA или CLUSTAL. Файл назовите Р1.aln. Соответствующие гены (без выравнивания!!) сохраните в файле G1.fasta

    В таблице указаны АС 2-х генов, получите их последовательности, а также последовательности соответствующих белков. Последовательности генов сохраните в файле G2.fasta, а попарное выравнивание соответствующих белков в файле P2.aln

  • С помощью PAL2NAL получите выравнивание генов с разбивкой на кодоны сначала для генов из файла G1.fasta, а затем из файла G2.fasta. Странички с выравниваниями сохраните в рабочей директории .

  • С помощью PAL2NAL получите значения Ka/Ks для генов из G1.fasta и для генов из файла G2.fasta. Странички с результатами сохраните в рабочей директории public_html.
    Какие опции в меню "Option settings" пришлось выбрать,чтобы программа посчитала Ka/Ks?

  • В протоколе, оформленном как HTML-страничка, кратко опишите, что делали. Прикрепите странички с результатами. Сравните результаты для генов из файла G1.fasta с результатами для генов из файла G2.fasta. Сделайте выводы.