Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2022

Практикум 4

Отчёт по этому заданию необходимо выложить на свой сайт со ссылкой со страницы семестра. Срок без потери баллов — утро 22 марта 2024. Срок со штрафом 0,5 балла — 29 марта 2024.

1. Составление списка гомологичных белков, включающих паралоги

Найдите в своих бактериях достоверные гомологи белка CLPX_ECOLI.

Чтобы найти гомологов в заданных организмах, воспользуйтесь файлами, лежащими на kodomo в директории /P/y22/term4/Proteomes (они содержат скачанные из Uniprot полные протеомы бактерий, перечисленных в таблице первого практикума). Необходимо провести поиск программой blastp гомологов (с разумным порогом на E-value, скажем, 0,001) по протеомам отобранных вами бактерий.

Приведите в отчёте список находок из выдачи BLAST (без заголовка выдачи и выравниваний).

2. Реконструкция и визуализация

(0) Поместите последовательности находок в fasta-файл и отредактируйте их названия, оставив только ID (например, название sp|A0LU48|DOP_ACIC1 замените на DOP_ACIC1)

(1) Реконструируйте дерево найденных гомологов программой FastME c параметрами: "Gamma distributed rates across sites" — No, "Starting tree" — BIONJ, "No refinement", 100 бутстреп реплик. Сохраните формулу (Newick) в виде файла и поставьте на неё ссылку со страницы отчёта.

(2) Считая дерево реконструированным верно, укажите три пары паралогов и три пары ортологов.

Указание. Два гомологичных белка будем называть ортологами, если они: а) из разных организмов; б) разделение их общего предка на линии, ведущие к ним, произошло в результате видообразования. Два гомологичных белка из одного организма будем называть паралогами.

(3) Создайте несколько изображений дерева. Прежде всего, не забудьте укоренить дерево в среднюю точку. На первом изображении разные ортологические группы (то есть наборы попарно ортологичных белков) должны быть покрашены в разные цвета (группы, содержащие три и менее последовательностей, можно оставить чёрными, а остальные должны быть других и разных цветов). На втором изображении все ортологические группы, содержащие более трёх последовательностей, должны быть "схлопнуты". В подписи ко второму изображению для каждой такой группы должно быть описание её состава (какие белки, изо всех ли бактерий, соответствует ли реконструированная филогения белков филогении бактерий).

Будет оцениваться прежде всего ясность и информативность изображений и подписей. Но эстетическая сторона тоже будет учитываться.

Замечание о сравнении реконструированной филогении ортологической группы с филогенией бактерий. Если вы рассматриваете некоторую кладу большого дерева (в вашем случае — кладу, включающую одну ортологическую группу), то это клада уже некоторым образом укоренена (можно считать, что всё, что оказалось вне этой клады, служит внешней группой). Поэтому когда вы сравниваете филогению такой клады с филогенией бактерий, удобнее трактовать ветвь не как пару множеств листьев, а как одно множество — тех листьев, что оказались ниже этой ветви. Тем самым ваша задача: для каждой ветви внутри каждой ортологической группы определить, отвечает ли выделяемое ею подмножество видов какой-либо кладе на правильном дереве бактерий. При этом надо иметь в виду состав ортологической группы в целом: если какая-то бактерия в ней не представлена, то и любая ветвь, разумеется, не будет включать представителей этой бактерии, и при этом она вполне может быть правильной.

2022/4/task4 (последним исправлял пользователь sas 2024-03-14 09:41:30)