Практикум 6. EMBOSS и протеомы.


1. Общая информация о протеомах.

Methanosarcina barkeri (strain Fusaro / DSM 804) Escherichia coli K12
Идентификаторы протеомов UP000008156 UP000000625
Число последовательностей 3616 4313
Число аминокислот 1126274 1351622


2. Сравнение аминокислотного состава протеомов E. coli K12 и M. barkeri (strain Fusaro / DSM 804)


Название остатка % встречаемости в M. barkeri % встречаемости в E. coli Разность %
L 9.38 10.68 -1.3
I 7.75 6.01 1.74
E 7.63 5.77 1.86
G 7.07 7.37 -0.3
K 7.01 4.41 2.6
S 6.99 5.8 1.19
A 6.83 9.51 -2.68
V 6.81 7.07 -0.26
T 5.49 5.39 0.1
D 5.21 5.15 0.06
N 4.82 3.94 0.88
F 4.29 3.89 0.4
R 4.22 5.52 -1.3
P 3.94 4.43 -0.49
Y 3.65 2.84 0.81
Q 2.58 4.44 -1.86
M 2.39 2.82 -0.43
H 1.65 2.27 -0.62
C 1.24 1.16 0.08
W 1.04 1.53 -0,49


Три самых частых остатка в протеоме Methanosarcina barkeri – это лейцин (9,38%), изолейцин (7,75%), глутаминовая кислота (7,63%); а для Escherichia coli – это лейцин (10,68%), аланин (9,51%), глицин (7,37%), то есть, совпала только самая частая аминокислота – лейцин. Три самых редких остатка для M.barkeri – это гистидин (1,65%), цистеин (1,24%), триптофан (1,04); а для E. coli – гистидин (2,27%), триптофан (1,53%), цистеин (1,16%), то есть те же, что и для M. barkeri. Также в протеоме M. barkeri 6 раз встречается пирролизин, что характерно для метаногенов, а в протеоме E. coli 3 раза встречается селеноцистеин. Самая большая разница по встречаемости остатка в пользу E. coli наблюдается для аланина (–2,68%); а в пользу M. barkeri – для лизина (2,6%).

Ссылка на таблицу в Excel


3. Сравнение программ wordcount и compseq.

wordcountcompseq
Подсчитывает и показывает число уникальных молекулярных последовательностей – слов. Не только подсчитывает число уникальных слов, но и вычисляет для них предполагаемую частоту (по умолчанию равную для всех слов), наблюдаемую частоту, и частное наблюдаемой и предполагаемой частот.
1. Стандартные опции
[-sequence] - ссылка на последовательность, в которой ищем слова. Одинаково для обеих команд.
-wordsize – количество символов в считаемых словах (на вход принимаются целые числа). -word - количество символов во всех возможных словах, которые составляются из аминокислот, если это последовательность белка, или для нуклеотидов, если это последовательность ДНК (на вход принимаются целые числа).
[-outfile] – выводной файл с расширением .wordcount по умолчанию. [-outfile] – выводной файл с расширением .compseq по умолчанию.
2. Дополнительные опции
-mincount – минимальное количество раз, которое должно встретиться слово, чтобы программа вывела это слово в отчет (на вход принимаются целые числа). -frame – можно поставить границу рамки считывания (на вход принимаются целые числа), в которой хочется посчитать слова. Если –frame 0, то рамка начинается с первого символа, -frame 1, со второго и так далее. Если значение –frame превосходит –word, то программа предупреждает, что аргумент неправильный и выводит результат для значения –frame 0. Можно использовать и для нуклеотидов, и для аминокислот.
-ignorebz – если нужно посчитать слова, содержащие нестандартные обозначения B (для аспарагина и аспартата) и Z (для глутамина и глутамата), то –ignorebz Y; если не нужно считать эти слова, то –ignore N (слова с B и Z будут отнесены в категорию Others, как и по умолчанию).
-reverse – (для нуклеотидных последовательностей) посчитает слова той же длины еще и в последовательности, комплементарной данной. Для аминокислотной последовательности ничего не произойдет.
-calcfreq – устанавливает предполагаемую частоту не равную для всех слов (то есть перемноженные равные для всех символов частоты), а перемножает реальные частоты встречаемости символов данного слова. То есть для слов длины 1 предполагаемая и наблюдаемая частоты совпадут.
-zerocount N – не будет выводить слова, которые ни разу не встретились. (По умолчанию стоит –zerocount Y, выводит)
-infile – на вход принимается имя файла-результата работы compseq, в котором содержатся предполагаемые частоты встречаемости слов, которые мы хотим использовать в этот раз. Количество символов в слове, а также код (аминокислотный/нуклеотидный) должны совпадать.
3. Опция для бОльшей информации
-help – показывает все возможные опции, а также команды для еще бОльшей информации –help -verbose


Для выполнения предыдущего задания wordcount был, в принципе, удобен, но, возможно compseq был бы удобнее, потому что он уже посчитал бы процент остатков в геноме. Но из-за того, что нужно было считать еще разность процентов для двух геномов, без Excel все равно было не обойтись, так что, в целом, не важно, которую из этих команд лучше использовать.


© Belousova Evgenia, 2017