Учебная страница курса биоинформатики,
год поступления 2018
Практикум 11. Алгоритмы выравнивания. Подсказки
По заданию 1. Сравните выравнивания последовательностей гомологичных белков и негомологичных белков
Выбор белков
- Скачайте из Swissprot два списка идентификаторов (ID) записей: всех аннотированных записей, чей идентификатор кончается на _ECOLI и всех аннотированных записей, чей идентификатор кончается на _BACSU.
Путь 1й. Используйте программу infoseq пакета EMBOSS. Пример. Чтобы получить в файле human.txt список идентификаторов человеческих белков, и их длины в числе а/к остатков, можно выполнить команду:
- Скачайте из Swissprot два списка идентификаторов (ID) записей: всех аннотированных записей, чей идентификатор кончается на _ECOLI и всех аннотированных записей, чей идентификатор кончается на _BACSU.
infoseq 'sw:*_human' -only -name -length -out human.txt
Файл human.txt выглядит так
Name Length AMPL_HUMAN 519 ARP5L_HUMAN 153 CT55_HUMAN 264 ..................
Путь 2й. На сайте Uniprot, используя Advaced Search, поиск по Protein name. Таблицу с результатами ограничьте Reviewed (так на сайте Uniprot обозначается Swiss-Prot). Перед сохранением можно указать какие колонки оставить в таблице. [Если будет время, опишу подробнее. ААл]
- Как определить пары белков с совпадающими мнемониками функции?
- В идентификаторе ENO_ECOLI мнемоникой функции является ENO
- Средствами Excel (поможет разбиение столбца на два по символу подчёркивания и фукция VLOOKUP/ВПР) или Python. Или объединить списки и отсортировать: ID с одинаковым началом окажутся рядом...
- Выберите необходимое число (по пять) пар гомологичных (одинаковая мнемоника функции) и негомологичных белков (разная мнемоника). Пары гомологичных белков выбирайте сравнимой длины.
Не выбирайте мнемоники функций, начинающиеся на букву Y — это как правило белки с неизвестной функцией и скорее всего даже при совпадении мнемоник белки из разных организмов не будут гомологичны.
Не выбирайте мнемонику ENO – она использована в образце в таблице.
- Если один белок длины 231 а/к остатка, а другой 117 а/к остатков, то, вероятно, от второго белка в записи только фрагмент последовательности.
- Если 231 и 210 то можно брать; наверное, делеции или вставки
- Как определить рекомендуемое полное имя белка
- В полной записи Swiss-Prot ищите поле DE. Можно использовать конвейер из entret в grep:
entret sw:eno_bacsu stdout -auto | grep ^DE
Там ищите слова "RecName: Full=", название белка — после знака равенства. Например, если вы видите в поле DE строку:
DE RecName: Full=GSX1 {ECO:0000303|PubMed:7768864};
то пишите в качестве названия белка "GSX1".
- Как запустить needle и water с параметрами по умолчанию
В программах EMBOSS опция -auto задаёт значения по умолчанию для всех параметров, для которых это возможно.
Имейте в виду, что у выходного файла тоже есть имя по умолчанию, но как раз его лучше задать явно. Например, если ваша пара — ENO_ECOLI и ENO_BACSU, то можно использовать строку вида
needle sw:eno_ecoli sw:eno_bacsu eno.needle -auto
выравнивание появится в файле с именем eno.needle.
- Как определить характеристики выравнивания
- В выдаче needle и water (если не задавать другой формат) имеются следующие характеристики: число и процент колонок с идентичными буквами, число и процент колонок с близкими буквами (т.е. теми, для которых значение матрицы замен положительно), число и процент гэпов, вес выравнивания. Число инделей придётся посчитать "глазами" по выравниванию.
- Как посчитать процент покрытия локальным выравниванием для каждой последовательнсти
- Определить длину участка, попавшего в выравнивание (по координатам начала и конца) и разделить эту длину на полную длину последовательности.
- Как заставить программу needle выдать выравнивание в fasta-формате
Добавить параметр -aformat fasta.
По заданию 2.1. Построить множественное выравнивание 5 - 7 гомологичных белков
- Выберите мнемонику функций из таблиц, полученных при выполнении задания 1.
- Можно взять мнемонику из использованных в задании 1. Можно другую.
- Выбор 5 - 7 последовательностей
- Получите из Swissprot список идентификаторов белков c выбранной мнемоникой, и их длин в числе а/к остатков. Например, так:
infoseq 'sw:eno_*' -only -name -length -out eno.txt
Выберите из списка 5 - 7 последовательностей примерно одинаковой длины. Предпочитайте белки из разных, и не близких, видов — чтобы не выбрать случайно все белки из разных штаммов E.coli
- Как сохранить последовательности выбранных белков в формате fasta
- Пример. Пусть у вас есть идентификаторы записей в Swiss-Prot ENO_BACSU, ENO_ECOLI, ENO_MYCTU, ENO_HAEIN.
Создайте списочный файл (скажем, eno.txt) со строками:
sw:eno_bacsu sw:eno_ecoli sw:eno_myctu sw:eno_haein
Создайте файл в fasta-формате:
seqret @eno.txt eno.fasta
- Как построить множественное выравнивание выбранных белков.
Путь 1. Откройте Jalview.
Меню File > Input Alignment > From File и выберите файл с последовательностями (eno.fasta в примере). Откроется окошко с (не выровненными!) последовательностями.
Меню окошка Web Services > Alignment и выберите одну из программ выравнивания с параметрами по умолчанию - with default. Результат - выравнивание - появится в новом окне.
- Раскрасьте ClustalX и сохраните в как проект (в меню главного окна) в директории block3/credits
Путь 2й. Программой muscle на kodomo.
- Запустите muscle:
muscle -in eno.fasta -out eno_alignment.fasta
Предупреждение. muscle не из ENBOSS. В EMBOSS'е для множественного выравнивания есть программа emma, основанная на старом алгоритме ClustalW
Поученное выравнивание откройте в Jalview и далее как в Путь 1й
Путь 3й. На сайте Uniprot внесите в окно поиска идентификаторы, разделённые словом "or", например:
ENO_BACSU or ENO_ECOLI or ENO_MYCTU or ENO_HAEIN
и запустите поиск. Отметьте галочками все правильные находки и нажмите кнопку Align. Когда появится выравнивание, нажмите кнопку Download (сразу над словом "Alignment"). Выберите формат FASTA, отметьте Uncompressed и сохраните файл.
По заданию 2.2. Сравнение выравниваний
- Выравнивание двух последовательностей, полученное из множественного
Скопируйте файл с проектом в файл с именем (в примере Ivanov-compare-alns.jvp). Откройте в jalview: File > LoadProject.
- Из выровненных последовательностей выберите две. Те, которые гомологичны, но самые удаленные друг от друга.
- В множественном выравнивании судить о гомологичности последовательностей можно по наличию консервативных или функционально консервативных остатков на участках без или с малым числом гэпов.
Удалите все последовательности, кроме выбранных – курсор на имя последовательности, delete
- Сохраните проект
- Выравнивание оставленных последовательностей с помощью needle и water
- Сохраните последовательности в отдельные файлы
курсор на имя последовательности > правая кнопка мыши > selection > Output to text box > fasta и копируете
- Сохраните последовательности в отдельные файлы
последовательности из окна в нужный файл
- Получите выравнивания с помощью neddle и water в формате fasta
- Итак, вам нужно найти отличия в трех парных выравнивания одних и тех же последовательностей:
- из множественного
- needle
- water
Путь 1й. В том же проекте Jalview (в примере Ivanov-compare-alns.jvp) откройте два других выравнивания в отдельных окнах (в главном окне File > input/Alignment).
- Подравнивайте окна и ищите отличия
Путь 1й. Выровнять выравнивания друг относительно друга можно программой muscle
muscle -profile -in1 eno1-aln.fasta -in2 eno2-aln.fasta -out eno1-2.fasta
и далее
muscle -profile -in1 eno1-2.fasta -in2 eno3-aln.fasta -out eno1-2-3.fasta
Далее файл eno1-2-3.fasta открыть в Jalview. Но как с ним обходиться в Jalview, сделать три группы (selection > make group) а потом раскрасить отдельные группы, а не все выравнивание ... Сегодня уже не напишу... ААл
Under construction