Протеомы

Протеомы и EMBOSS

Таблица 1. Общая информация о протеомах E.coli K12 и L.citreum KM20
Название организма	ID протеома	Количество белков	Количество а/о
E.coli K12	UP000000625	4.306	1.356.086
L.citreum KM20	UP000002166	1.812	556.668

Таблица 2. Различие в аминокислотном составе протеомов E.coli K12 и L.citreum KM20
Аминокислотный остаток	Процентное содержание а/о в протеоме L.citreum KM20, %	Процентное содержание а/о в протеоме E.coli K12, %	Разность процентного содержания а/о, %
L	9,7608	10,6726	0,9118
A	8,6924	9,5154	0,8230
I	7,3582	6,0103	1,3479
V	7,3124	7,0734	0,2390
G	6,5901	7,3746	0,7845
T	6,4744	5,3991	1,0753
S	5,8785	5,8023	0,0762
K	5,8106	4,4061	1,4045
D	5,7966	5,1510	0,6456
E	5,0535	5,7628	0,7093
Q	4,9412	4,4401	0,5011
N	4,8983	3,9454	0,9529
F	4,3505	3,8905	0,4600
R	4,0189	5,5110	1,4921
P	3,4744	4,4254	0,9510
Y	3,4435	2,8453	0,5982
M	2,7102	2,8193	0,1091
H	2,1665	2,2664	0,0999
W	1,0723	1,5312	0,4589
C	0,1965	1,1576	0,9611
U	0,0000	0,0002	0,0002

'''
Метод, с помощью которого я смог быстро сделать html-таблицу, Вы можете увидеть вот в этом файле. Там также есть все подробные этапы, необходимые для конечной таблицы.

Почему я не делал в порядке убывания процентного состава а/о?

В задании сказано, что нужно составить итоговую таблицу в порядке убывания процентного состава а/о в протеомах. Ниже я показываю, что далеко не каждая аминокислота одного протеома стоит на таком же месте по процентному содержанию, что и аминокислота другого протеома. Иными словами, нельзя корректно составлять таблицу для обоих протеомов одновременно, поэтому решил составить в алфавитном порядке.
'''
Обсуждение данных Таблицы 2 (см. табл. 2).

Для начала посмотрим на самые распространённые аминокислотные остатки в протеомах. Самой распространённой аминокислотой в протеомах оказалась лейцин, она составляет 9.7608% и 10.6726% в протеомах L.citreum KM20 и E.coli K12 соответственно. Следующее место по распространённости занимает аланин, причём примечательно, что это касается обоих протеомов. Изолейцин в протеоме L.citreum KM20 составляет 7.3582% от общего количества аминокислотных остатков, тогда как у E.coli K12 в протеоме на третьем месте оказывется глицин, 7.3746%.
Что касается наименее распространённых аминокислотных остатков, то ситуация в протеомах схожа. У L.citreum KM20 в протеоме меньше всего селеноцистеина (привожу просто для сравнения), цистеина и триптофана (если не брать в расчёт селеноцистеин, то вместо него стоит написать гистидин). У E.coli K12 наименьшую долю составляют селеноцистеин, цистеин и триптофан. Как можете видеть, набор идентичен: селеноцистеин, цистеин и триптофан.
Наибольей абсолютной разницы достигают аригинин и лизин (заряженные аминокислоты).

Краткий обзор compseq и его различия с wordcount.

Синтаксис схож у compseq и wordcount. Compseq: {compseq [имя входного файла] -word [длина последовательности] [имя выходного файла]} и wordcount: {wordcount [имя входного файла] -wordsize=[длина последовательности] [имя выходного файла]}. Конечно же это только основные методы этих программ. Например есть метод [-frame] у compseq, который позволяет считать количество неперекрывающихся последовательностей заданной длины (она задаётся пользователем).

Таблица 3. Различия в работе compseq и wordcount
Признаки	compseq	wordcount
Скорость работы с последовательностью длиной 4	≈0.5 сек	≈5 сек
Вывод программы	Несколько столбиков с посчитанными значениями встречаемости	Две колонки с количеством а/о
Упорядочение полученных значений	По алфавиту	По убыванию
Прочее	Указана дополнительная информация в выводном файле	-

Исходя из данных таблицы 3, можно заключить, что обрабатывать информацию легче и быстрее (!) с помощью compseq. Кроме этого немаловажен вывод программы; в этой рубрике предпочтительнее работать с compseq.
Вывод: я бы использовал compseq, нежели wordcount.

⌘