Отчет по практикуму 5. Ферменты и метаболические пути. База данных KEGG.

Отчет по практикуму 5. Ферменты и метаболические пути. База данных KEGG.

Выбор пары ортологических рядов для дальнейшей работы.


В баз данных KEGG я выбрал для дальнейшей работы метаболический путь Purine metabolism(метаболизм пурина). В нем я выбрал реакцию 6.3.3.1, которую катализируют ряды белков K01933, K11787, K11788. Я выбрал 2 из них: K11788 и   K11787, так как в КОГе K01933 более 1000 белков и Jalview не может построить выравнивания такого большого количества последовательностей(более 1000).
Идентификатор рядаK11788K11787
Число генов110 128
Число белковых последовательностей119162
Таблица 1. Информация о выбранных рядах.

Подсчет числа белковых последовательностей был осуществлен с помощью программы Excel. Подсчет числа генов осуществлялся с помощью программы Excel.
Рисунок 1. Метаболизм пурина. Выбранная реакция окрашена красным.

Получение совместного множественного выравнивания.


Из базы данных KEGG были получены идентификаторы последовательностей из ортологических рядов K11787 и K11788. Далее из базы данных Uniprot были получены последовательности, соответстущие этим идентификаторам. Затем для файла с последовательностями из ортологического ряда K11787 с помощью программы были модифицированы идентификаторы(к ним было добавлено название ортологического ряда).
Полученный в результате файл:1.fasta .
Затем для файла с последовательностями из ортологического ряда K11788 с помощью программы были модифицированы идентификаторы(к ним было добавлено название ортологического ряда).
Полученный в результате файл:2.fasta .
Затем было построено выравнивания всех поледовательностей из этих 2 файлов. Выравнивание было построено программой Jalview с помощью программы Muscle. Полученное выравнивание приведено ниже.
Выравнивание в формате Clustal
Выравнивание в формате mfa
Выравнивание в формате msf
Весь проект

Проверка выравнивания


Как можно увидеть на выравнивании на нем приcутствуют участки, где гэпы почти во всех последовательностях. Для некоторых таких участков гэпы во всех последовательностях, кроме одной. Причем такая одна последовательность может относится, как к ортологическому ряду K11787, так и к ортологическому ряду K11788. Есть значительное число очень коротких последовательностей, которые относятся к обоим ортологическим рядам. Гэпы составляют значительную часть выравнивания(142340 2577). На блоках, где большая часть последовательностей не содержит гэпов, наблюдается гомология, есть даже абсолютно консервативные колонки, однако доля коротких последовательностей и последовательностей, плохо выровненных к остальными все равно очень велика. Можно сделать вывод, что последовательности не выровены, множественного выравнивания как такового не существует и дерево строить нельзя.