EMBOSS.

Практикум 6. EMBOSS и протеомы.

1. Общая информация о протеомах.

	Methanosarcina barkeri (strain Fusaro / DSM 804)	Escherichia coli K12
Идентификаторы протеомов	UP000008156	UP000000625
Число последовательностей	3616	4313
Число аминокислот	1126274	1351622

2. Сравнение аминокислотного состава протеомов E. coli K12 и M. barkeri (strain Fusaro / DSM 804)

Название остатка	% встречаемости в M. barkeri	% встречаемости в E. coli	Разность %
L	9.38	10.68	-1.3
I	7.75	6.01	1.74
E	7.63	5.77	1.86
G	7.07	7.37	-0.3
K	7.01	4.41	2.6
S	6.99	5.8	1.19
A	6.83	9.51	-2.68
V	6.81	7.07	-0.26
T	5.49	5.39	0.1
D	5.21	5.15	0.06
N	4.82	3.94	0.88
F	4.29	3.89	0.4
R	4.22	5.52	-1.3
P	3.94	4.43	-0.49
Y	3.65	2.84	0.81
Q	2.58	4.44	-1.86
M	2.39	2.82	-0.43
H	1.65	2.27	-0.62
C	1.24	1.16	0.08
W	1.04	1.53	-0,49

Три самых частых остатка в протеоме Methanosarcina barkeri – это лейцин (9,38%), изолейцин (7,75%), глутаминовая кислота (7,63%); а для Escherichia coli – это лейцин (10,68%), аланин (9,51%), глицин (7,37%), то есть, совпала только самая частая аминокислота – лейцин. Три самых редких остатка для M.barkeri – это гистидин (1,65%), цистеин (1,24%), триптофан (1,04); а для E. coli – гистидин (2,27%), триптофан (1,53%), цистеин (1,16%), то есть те же, что и для M. barkeri. Также в протеоме M. barkeri 6 раз встречается пирролизин, что характерно для метаногенов, а в протеоме E. coli 3 раза встречается селеноцистеин. Самая большая разница по встречаемости остатка в пользу E. coli наблюдается для аланина (–2,68%); а в пользу M. barkeri – для лизина (2,6%).

Ссылка на таблицу в Excel

3. Сравнение программ wordcount и compseq.

wordcount	compseq
Подсчитывает и показывает число уникальных молекулярных последовательностей – слов.	Не только подсчитывает число уникальных слов, но и вычисляет для них предполагаемую частоту (по умолчанию равную для всех слов), наблюдаемую частоту, и частное наблюдаемой и предполагаемой частот.
1. Стандартные опции
[-sequence] - ссылка на последовательность, в которой ищем слова. Одинаково для обеих команд.
-wordsize – количество символов в считаемых словах (на вход принимаются целые числа).	-word - количество символов во всех возможных словах, которые составляются из аминокислот, если это последовательность белка, или для нуклеотидов, если это последовательность ДНК (на вход принимаются целые числа).
[-outfile] – выводной файл с расширением .wordcount по умолчанию.	[-outfile] – выводной файл с расширением .compseq по умолчанию.
2. Дополнительные опции
-mincount – минимальное количество раз, которое должно встретиться слово, чтобы программа вывела это слово в отчет (на вход принимаются целые числа).	-frame – можно поставить границу рамки считывания (на вход принимаются целые числа), в которой хочется посчитать слова. Если –frame 0, то рамка начинается с первого символа, -frame 1, со второго и так далее. Если значение –frame превосходит –word, то программа предупреждает, что аргумент неправильный и выводит результат для значения –frame 0. Можно использовать и для нуклеотидов, и для аминокислот.
	-ignorebz – если нужно посчитать слова, содержащие нестандартные обозначения B (для аспарагина и аспартата) и Z (для глутамина и глутамата), то –ignorebz Y; если не нужно считать эти слова, то –ignore N (слова с B и Z будут отнесены в категорию Others, как и по умолчанию).
	-reverse – (для нуклеотидных последовательностей) посчитает слова той же длины еще и в последовательности, комплементарной данной. Для аминокислотной последовательности ничего не произойдет.
	-calcfreq – устанавливает предполагаемую частоту не равную для всех слов (то есть перемноженные равные для всех символов частоты), а перемножает реальные частоты встречаемости символов данного слова. То есть для слов длины 1 предполагаемая и наблюдаемая частоты совпадут.
	-zerocount N – не будет выводить слова, которые ни разу не встретились. (По умолчанию стоит –zerocount Y, выводит)
	-infile – на вход принимается имя файла-результата работы compseq, в котором содержатся предполагаемые частоты встречаемости слов, которые мы хотим использовать в этот раз. Количество символов в слове, а также код (аминокислотный/нуклеотидный) должны совпадать.
3. Опция для бОльшей информации
-help – показывает все возможные опции, а также команды для еще бОльшей информации –help -verbose

Для выполнения предыдущего задания wordcount был, в принципе, удобен, но, возможно compseq был бы удобнее, потому что он уже посчитал бы процент остатков в геноме. Но из-за того, что нужно было считать еще разность процентов для двух геномов, без Excel все равно было не обойтись, так что, в целом, не важно, которую из этих команд лучше использовать.