1. Для выполнения задания из Uniprot было скачано два списка идентификаторов записей: всех аннотированных записей, чей идентификатор заканчивается на _ECOLI и всех аннотированных записей, чей идентификатор заканчивается на _BACSU.
2. Средствами электронных таблиц были отобраны три пары записей с совпадающими мнемониками функции: IXTPA_ECOLI и IXTPA_BACSU, KAD_ECOLI и KAD_BACSU, RELA_ECOLI и RELA_BACSU.
3. Произведено выравнивание последовательностей каждой пары программой needle при параметрах по умолчанию, результаты которого представлены ниже в таблице 1.
Таблица 1. Характеристики глобального парного выравнивания трех пар белков.
| |
|
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
Те же пары белков (IXTPA_ECOLI и IXTPA_BACSU, KAD_ECOLI и KAD_BACSU, RELA_ECOLI и RELA_BACSU) были выровнены программой water при параметрах по умолчанию. Результаты выравнивания представлены в таблице 2.
Таблица 2. Характеристики локального парного выравнивания трех пар белков.
| |
|
|
|
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
|
|
1. Пара белков IXTPA_ECOLI и IXTPA_BACSU. Данные белки гомологичны по всей длине, поскольку при глобальном парном выравнивании этих белков процент идентичности оказался равным 45,6% (>20-25%). При локальном парном выравнивании этих же белков процент идентичности составил 47,6%. Покрытие для IXTPA_ECOLI составило 96,4% , а для IXTPA_BACSU - 95,5% , что говорит о том, что в локальное парное выравнивание вошла практически вся последовательность для каждого из белков.
Результаты глобального и локального выравниваний практически сопоставимы, и в данном случае из локального парного выравнивания не было получено дополнительной информации. При глобальном парном выравнивании количество гэпов - 13 штук, а инделей - 5 штук. При локальном парном выравнивании количество гэпов - 3 штуки, а инделей - 2 штуки. Это говорит о том, что какие-то пары букв, сопоставленных в локальном выравнивании оказались не сопоставлены в глобальном. Возможно, это произошло потому, что при глобальном выравнивании белки выравнивались по всей длине и , чтобы сопоставить концы данных последовательностей, которые имеют низкую гомологию друг к другу, были использованы дополнительные гэпы. При локальном парном выравнивании программа не брала концы последовательностей с низкой гомологией, поэтому количество гэпов уменьшилось, а процент идентичности стал выше.
2. Пара белков KAD_ECOLI и KAD_BACSU. Аналогичные выводы можно сделать и для данных белков. Белки гомологичны по всей длине, поскольку при глобальном парном выравнивании этих белков процент идентичности оказался равным 46,4% (>20-25%). При локальном парном выравнивании этих же белков процент идентичности составил 47,2%. Покрытие для KAD_ECOLI составило 100% , а для KAD_BACSU - 98,2% , что говорит о том, что в локальное парное выравнивание вошла абсолютно вся последовательность белка KAD_ECOLI и практически вся последовательность белка KAD_BACSU.
Результаты глобального и локального выравниваний практически сопоставимы, и в данном случае из локального парного выравнивания не было получено дополнительной информации. При глобальном парном выравнивании количество гэпов - 13 штук, а инделей - 3 штук. При локальном парном выравнивании количество гэпов - 9 штуки, а инделей - 2 штуки. Это говорит о том, что какие-то пары букв, сопоставленных в локальном выравнивании оказались не сопоставлены в глобальном. Возможно, это произошло потому, что при глобальном выравнивании белки выравнивались по всей длине и , чтобы сопоставить концы данных последовательностей, которые имеют низкую гомологию друг к другу, были использованы дополнительные гэпы. При локальном парном выравнивании программа не брала концы последовательностей с низкой гомологией, поэтому количество гэпов уменьшилось, а процент идентичности стал выше.
3. Пара белков RELA_ECOLI и RELA_BACSU. Данные белки гомологичны по всей длине, поскольку при глобальном парном выравнивании этих белков процент идентичности оказался равным 36,9% (>20-25%). При локальном парном выравнивании этих же белков процент идентичности составил 38,6%. Покрытие для RELA_ECOLI составило 93,1% , а для RELA_BACSU - 92,6% , что говорит о том, что в локальное парное выравнивание вошла практически вся последовательность для каждого из белков.
Результаты глобального и локального выравниваний практически сопоставимы, и в данном случае из локального парного выравнивания не было получено дополнительной информации. При глобальном парном выравнивании количество гэпов - 50 штук, а инделей - 17 штук. При локальном парном выравнивании количество гэпов - 45 штуки, а инделей - 14 штуки. Это говорит о том, что какие-то пары букв, сопоставленных в локальном выравнивании оказались не сопоставлены в глобальном. Возможно, это произошло потому, что при глобальном выравнивании белки выравнивались по всей длине и , чтобы сопоставить концы данных последовательностей, которые имеют низкую гомологию друг к другу, были использованы дополнительные гэпы. При локальном парном выравнивании программа не брала концы последовательностей с низкой гомологией, поэтому количество гэпов уменьшилось, а процент идентичности стал выше. При выравнивании данных белков наблюдается достаточно большое количество гэпов, однако стоит учитывать длину выравнивания, которая является намного больше, чем длины предыдущих.
Для выполнения этого задания была выбрана случайная пара белков с разными мнемониками функций: RL20_ECOLI и THIS_BACSU. Произведено выравнивание последовательностей программой needle при параметрах по умолчанию, результаты которого представлены в таблице 3 и программой water при параметрах по умолчанию, результаты которого представлены в таблице 4.
Таблица 3. Характеристики глобального парного выравнивания неродственных белков.
| |
|
|
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
|
Таблица 4. Характеристики локального парного выравнивания неродственных белков.
| |
|
|
|
|
|
|
|
|
|
|
| |
|
|
|
|
|
|
|
|
|
|
Белки не являются гомологичными, поскольку при глобальном парном выравнивании этих белков процент идентичности оказался равным 6,8% , что значительно меньше порогового значения 20-25%. При локальном парном выравнивании эта цифра составляет 40%. Однако такой высокий процент достигается тем, что были выбраны очень маленькие сходные участки последовательностей, что подтверждается процентом перекрытия 8,5% и 15,2% для RL20_ECOLI и THIS_BACSU соответственно. Также в глобальном парном выравнивании наблюдается большое количество гэпов (108 шт.) при достаточно малой длине последовательности.
а) Для одной из мнемоник функций (IXTPA_) в Swiss-Prot было найдено 256 белков, чьи идентификаторы начинаются с этой мнемоники.
Полное имя белка IXTPA_ECOLI: dITP/XTP pyrophosphatase.
Для множественного выравнивания были выбраны следующие белки: IXTPA_ARCFU, IXTPA_METJA, IXTPA_VEREI, IXTPA_LEPCP, IXTPA_PICTO, IXTPA_ECOLI, IXTPA_BACSU.
б) Множественное выравнивание проводилось на kodomo при помощи программы выравнивания muscle. Для этого был создан списочный файл ixtpa.txt с выбранными белками, который затем был переведен в fasta формат. После этого, используя команду, приведенную ниже, было произведено выравнивание.
muscle -align ixtpa.fasta -output ixtpa_alignment.fasta
в) Результат выравнивания представлен в файле с проектом Jalview.
г) Белки выровнялись достаточно хорошо, однако в начале выравнивания и в его середине присутствует много гэпов. Все 7 белков являются гомологичными, так как имеют много сходных участков в последовательностях, несмотря на гэпы. У данного выравнивания имеются более консервативные и менее консервативные участки. Наиболее ярко выраженные консервативные участки: 73-90, 132-140, 157-169, 173-180, 187-206.