Частоты остатков в протеомах
В данном практикуме необходимо было сравнить частоту встречаемости остатков в протеомах:
- Escherichia coli (strain K12)
- Proteome ID: up000000625[1];
- число поледовательностей: 4 306;
- число остатков: 1 356 195;
и археи
- Methanocaldococcus jannaschii
- Proteome ID: UP000000805[2];
- число поледовательностей: 1 787;
- число остатков: 505 141;
(Протеом — совокупность белков организма, производимых клеткой, тканью или организмом в определённый период времени. [3]).
Данное задание выполнялось с помощью функции wordount пакета EMBOSS, далее полученные данные были обработаны средствами Excel. Результаты работы приведены в таблице ниже
(содержание селеноцистеина слишком мало, поэтому в результатах он не учитывается и еще потому, что селеноцистеин не относится к 20 стандартным аминокислотам).
Таблица 1. Частоты остатков в протеомах. |
Остаток | Содержание остатка в протеоме Methanocaldococcus jannaschii | Содержание остатка в протеоме Escherichia coli (strain K12) | Разность |
I | 10,5 | 6,01 | 4,49 |
K | 10,39 | 4,41 | 5,98 |
L | 9,44 | 10,67 | -1,23 |
E | 8,66 | 7,07 | 1,59 |
V | 6,8 | 7,07 | -0,27 |
G | 6,33 | 7,37 | -1,04 |
D | 5,52 | 5,15 | 0,37 |
A | 5,47 | 9,51 | -4,04 |
N | 5,29 | 3,95 | 1,34 |
S | 4,5 | 5,8 | -1,3 |
Y | 4,38 | 2,85 | 1,53 |
F | 4,25 | 3,89 | 0,36 |
T | 4,06 | 5,4 | -1,34 |
R | 3,84 | 5,51 | -1,67 |
P | 3,36 | 4,43 | -1,07 |
M | 2,29 | 2,82 | -0,53 |
Q | 1,45 | 4,44 | -2,99 |
H | 1,43 | 2,27 | -0,84 |
C | 1,29 | 1,16 | 0,13 |
W | 0,73 | 1,53 | -0,8 |
На основе данных, полученных в ходе исследования можно сделать следующие выводы:
- Наиболее распротраненными аминокислотными остатками в протеоме археи Methanocaldococcus jannaschii являются изолейцин, лизин и лейцин;
- Наиболее распротраненными аминокислотными остатками в протеоме Escherichia coli (strain K12) являются лейцин, аланин и глицин. Видно, что
наиболее распространенные остатки исходных протеомов практически совпадают;
- Наименее распротраненными аминокислотными остатками в протеоме археи Methanocaldococcus jannaschii являются гистидин, цистеин и триптофан;
- Наименее распротраненными аминокислотными остатками в протеоме Escherichia coli (strain K12) также являются цистеин, триптофан и гистидин. Как видно,
наименее распространенные остатки в данных протеомах совпадают;
- Наибольшая разница в пользу археи Methanocaldococcus jannaschii составляет 5,98 (разница в содержании лизина);
- Наибольшая разница в пользу Escherichia coli (strain K12) составляет 4,04 (разница в содержании аланина).
Функция COMPSEQ
Данная функция похожа на WORDCOUNT: она подсчитывает частоту встречаемости букв или всех возможных сочетаний букв
(определенного количества, задаваемого пользователем). Однако результат ее действия несколько отличается от WORDCOUNT: файл, получаемый пользователем
на выходе уже содержит частоту втречаемости: "Obs Frequency" (отношение количества аминокислоты к общему числу всех аминокислот) + еще два дополнительных
столбца ("Exp Frequency" и "Obs/Exp Frequency"), а также и общее количество аминокислот, что несколько уменьшает количество проделываемой работы. Также данная функция сортирует выдачу в алфавитном
порядке, в отличие от WORDCOUNT, которая сортирует выдачу по убыванию (это иногда даже полезнее). Также COMPSEQ справляется с поставленной задачей
несколько быстрее, нежели WORDCOUNT. Для того, чтобы воспользоваться данной функцией
необходимо набрать : compseq <файл с последовательностью > <файл, в который запишется результат > , нажать enter, после написать длину слова.
Скорее всего, я бы выбрала функцию COMPSEQ из-за большей скорости выполнения и информативности.
Источники:
[1]: Proteomes - Escherichia coli (strain K12);
[2]: Proteomes - Methanocaldococcus jannaschii;
[3]: Википедия. Протеом.
|