Учебный сайт Титовой Анастасии
ГЛАВНАЯ СТРАНИЦА
СЕМЕСТРЫ
ОБО МНЕ
КОНТАКТЫ
САЙТ ФББ
Протеомы и EMBOSS

Частоты остатков в протеомах

В данном практикуме необходимо было сравнить частоту встречаемости остатков в протеомах:

  • Escherichia coli (strain K12)
      - Proteome ID: up000000625[1];
      - число поледовательностей: 4 306;
      - число остатков: 1 356 195;
и археи
  • Methanocaldococcus jannaschii
      - Proteome ID: UP000000805[2];
      - число поледовательностей: 1 787;
      - число остатков: 505 141;
(Протеом — совокупность белков организма, производимых клеткой, тканью или организмом в определённый период времени.[3]). Данное задание выполнялось с помощью функции wordount пакета EMBOSS, далее полученные данные были обработаны средствами Excel. Результаты работы приведены в таблице ниже (содержание селеноцистеина слишком мало, поэтому в результатах он не учитывается и еще потому, что селеноцистеин не относится к 20 стандартным аминокислотам).
Таблица 1. Частоты остатков в протеомах.
Остаток Содержание остатка в протеоме Methanocaldococcus jannaschii Содержание остатка в протеоме Escherichia coli (strain K12) Разность
I 10,5 6,01 4,49
K 10,39 4,41 5,98
L 9,44 10,67 -1,23
E 8,66 7,07 1,59
V 6,8 7,07 -0,27
G 6,33 7,37 -1,04
D 5,52 5,15 0,37
A 5,47 9,51 -4,04
N 5,29 3,95 1,34
S 4,5 5,8 -1,3
Y 4,38 2,85 1,53
F 4,25 3,89 0,36
T 4,06 5,4 -1,34
R 3,84 5,51 -1,67
P 3,36 4,43 -1,07
M 2,29 2,82 -0,53
Q 1,45 4,44 -2,99
H 1,43 2,27 -0,84
C 1,29 1,16 0,13
W 0,73 1,53 -0,8
На основе данных, полученных в ходе исследования можно сделать следующие выводы:
  • Наиболее распротраненными аминокислотными остатками в протеоме археи Methanocaldococcus jannaschii являются изолейцин, лизин и лейцин;
  • Наиболее распротраненными аминокислотными остатками в протеоме Escherichia coli (strain K12) являются лейцин, аланин и глицин. Видно, что наиболее распространенные остатки исходных протеомов практически совпадают;
  • Наименее распротраненными аминокислотными остатками в протеоме археи Methanocaldococcus jannaschii являются гистидин, цистеин и триптофан;
  • Наименее распротраненными аминокислотными остатками в протеоме Escherichia coli (strain K12) также являются цистеин, триптофан и гистидин. Как видно, наименее распространенные остатки в данных протеомах совпадают;
  • Наибольшая разница в пользу археи Methanocaldococcus jannaschii составляет 5,98 (разница в содержании лизина);
  • Наибольшая разница в пользу Escherichia coli (strain K12) составляет 4,04 (разница в содержании аланина).

Функция COMPSEQ

Данная функция похожа на WORDCOUNT: она подсчитывает частоту встречаемости букв или всех возможных сочетаний букв (определенного количества, задаваемого пользователем). Однако результат ее действия несколько отличается от WORDCOUNT: файл, получаемый пользователем на выходе уже содержит частоту втречаемости: "Obs Frequency" (отношение количества аминокислоты к общему числу всех аминокислот) + еще два дополнительных столбца ("Exp Frequency" и "Obs/Exp Frequency"), а также и общее количество аминокислот, что несколько уменьшает количество проделываемой работы. Также данная функция сортирует выдачу в алфавитном порядке, в отличие от WORDCOUNT, которая сортирует выдачу по убыванию (это иногда даже полезнее). Также COMPSEQ справляется с поставленной задачей несколько быстрее, нежели WORDCOUNT. Для того, чтобы воспользоваться данной функцией необходимо набрать :
compseq <файл с последовательностью > <файл, в который запишется результат >
, нажать enter, после написать длину слова.
Скорее всего, я бы выбрала функцию COMPSEQ из-за большей скорости выполнения и информативности.

Источники:

[1]: Proteomes - Escherichia coli (strain K12);
[2]: Proteomes - Methanocaldococcus jannaschii;
[3]: Википедия. Протеом.

Titova Anastasiya, 2017 ©