Протеомы и EMBOSS

Таблица 1. Общая информация о протеомах E.coli K12 и L.citreum KM20
Название организмаID протеомаКоличество белковКоличество а/о
E.coli K12UP0000006254.3061.356.086
L.citreum KM20UP0000021661.812556.668

Таблица 2. Различие в аминокислотном составе протеомов E.coli K12 и L.citreum KM20
Аминокислотный остатокПроцентное содержание а/о в протеоме L.citreum KM20, %Процентное содержание а/о в протеоме E.coli K12, %Разность процентного содержания а/о, %
L9,760810,67260,9118
A8,69249,51540,8230
I7,35826,01031,3479
V7,31247,07340,2390
G6,59017,37460,7845
T6,47445,39911,0753
S5,87855,80230,0762
K5,81064,40611,4045
D5,79665,15100,6456
E5,05355,76280,7093
Q4,94124,44010,5011
N4,89833,94540,9529
F4,35053,89050,4600
R4,01895,51101,4921
P3,47444,42540,9510
Y3,44352,84530,5982
M2,71022,81930,1091
H2,16652,26640,0999
W1,07231,53120,4589
C0,19651,15760,9611
U0,00000,00020,0002

'''
Метод, с помощью которого я смог быстро сделать html-таблицу, Вы можете увидеть вот в этом файле. Там также есть все подробные этапы, необходимые для конечной таблицы.

Почему я не делал в порядке убывания процентного состава а/о?

В задании сказано, что нужно составить итоговую таблицу в порядке убывания процентного состава а/о в протеомах. Ниже я показываю, что далеко не каждая аминокислота одного протеома стоит на таком же месте по процентному содержанию, что и аминокислота другого протеома. Иными словами, нельзя корректно составлять таблицу для обоих протеомов одновременно, поэтому решил составить в алфавитном порядке.
'''
Обсуждение данных Таблицы 2 (см. табл. 2).

Для начала посмотрим на самые распространённые аминокислотные остатки в протеомах. Самой распространённой аминокислотой в протеомах оказалась лейцин, она составляет 9.7608% и 10.6726% в протеомах L.citreum KM20 и E.coli K12 соответственно. Следующее место по распространённости занимает аланин, причём примечательно, что это касается обоих протеомов. Изолейцин в протеоме L.citreum KM20 составляет 7.3582% от общего количества аминокислотных остатков, тогда как у E.coli K12 в протеоме на третьем месте оказывется глицин, 7.3746%.
Что касается наименее распространённых аминокислотных остатков, то ситуация в протеомах схожа. У L.citreum KM20 в протеоме меньше всего селеноцистеина (привожу просто для сравнения), цистеина и триптофана (если не брать в расчёт селеноцистеин, то вместо него стоит написать гистидин). У E.coli K12 наименьшую долю составляют селеноцистеин, цистеин и триптофан. Как можете видеть, набор идентичен: селеноцистеин, цистеин и триптофан.
Наибольей абсолютной разницы достигают аригинин и лизин (заряженные аминокислоты).

Краткий обзор compseq и его различия с wordcount.

Синтаксис схож у compseq и wordcount. Compseq: {compseq [имя входного файла] -word [длина последовательности] [имя выходного файла]} и wordcount: {wordcount [имя входного файла] -wordsize=[длина последовательности] [имя выходного файла]}. Конечно же это только основные методы этих программ. Например есть метод [-frame] у compseq, который позволяет считать количество неперекрывающихся последовательностей заданной длины (она задаётся пользователем).

Таблица 3. Различия в работе compseq и wordcount
Признакиcompseqwordcount
Скорость работы с последовательностью длиной 4≈0.5 сек≈5 сек
Вывод программыНесколько столбиков с посчитанными значениями встречаемостиДве колонки с количеством а/о
Упорядочение полученных значенийПо алфавитуПо убыванию
ПрочееУказана дополнительная информация в выводном файле-

Исходя из данных таблицы 3, можно заключить, что обрабатывать информацию легче и быстрее (!) с помощью compseq. Кроме этого немаловажен вывод программы; в этой рубрике предпочтительнее работать с compseq.
Вывод: я бы использовал compseq, нежели wordcount.