Практикум 7. EMBOSS и протеомы

В рамках данного практикума мы познакомились с пакетом EMBOSS, провели работу с протеомами указанных в задании бактерий.

Organism Proteome ID Proteins number Amino acids number
Escherichia coli (strain K12)UP00000062543521353365*
Acidithiobacillus ferrooxidans (strain ATCC 23270)UP0000013623120882239

*Включая 8 нераспознанных (X); выявлены с помощью wordcount и вспомогательного скрипта.

Задание 1

С помощью wordcount и специально созданного python-скрипта было обработано два полных протеома: Escherichia coli K12 и Acidithiobacillus ferrooxidans ATCC 23270. Результат работы представлен в таблице 1. В первом столбце указан однобуквенный код аминокислотного остатка (рассматривались 20 основных аминокислот; в протеоме E.coli также содержится 3 остатка селеноцистеина), во втором и третьем - процентное содержание остатка в указанном протеоме, в четвертом - разница в содержании между рассматриваемыми организмами.

Amino acidA_ferrooxidans_ATCC23270 (%)E_coli_K12 (%)Difference
A11.2269.5071.719
L10.94410.6760.268
G8.2767.3660.91
R7.0355.521.515
V7.0337.070.037
S5.3925.7990.407
P5.3584.4290.929
E5.3545.7620.408
I5.2376.0110.774
D5.065.1470.087
T4.965.3940.434
Q4.2114.4430.232
F3.563.8940.334
K3.044.4071.367
N2.8053.9381.133
H2.7082.2690.439
Y2.6262.8450.219
M2.5572.8250.268
W1.6041.5320.072
C1.0141.1620.148

Самыми распространенными аминокислотными остатками в протеоме A. ferrooxidans являются аланин, лейцин и глицин; лидирующие позиции в протеоме E. coli также занимают лейцин, аланин и глицин, но доля Leu на процент больше доли Ala. Самыми малочисленными в протеоме A. ferrooxidans оказались метионин, триптофан и цистеин. В протеоме E. coli доля метионина немного больше, чем гистидина, поэтому 3 самыми малочисленными аминокислотными остатками оказываются гистидин, триптофан и цистеин. Самой большой разницей в содержании остатка в пользу A. ferrooxidans является разница в содержании аланина (1.719%), в пользу E. coli - содержание лизина (1.367%).

Используемый скрипт

(синтаксис: python html_table.py prot1.fasta prot2.fasta; сортировка происходит по первому из указанных протеомов)

Acidithiobacillus ferrooxidansATCC 23270 (fasta-файл)

Escherichia coli K12 (fasta-файл)

Задание 2

Программы сompseq и wordcount предназначены для обнаружения и подсчета слов определенной длины в данной последовательности. Синтаксис этих программ выглядит так: сначала в командную строку вводится название программы, затем имя файла с последовательностью. Далее вводится длина слова и название файла, в который будет записан ответ. Wordcount предоставляет только самую основную информацию, представленную в виде двух колонок: первая содержит все найденные слова, вторая - их колличество. Compseq выводит информацию о запросе, общее число найденных сочетаний; в виде таблицы представлены найденные сочетания, ожидаемая и наблюдаемая частота, их отношение. Для выполнения задания, аналогичного заданию 1, я бы выбрала wordcount, потому что результат, выдаваемый compseq сложнее обрабатывать из-за избытка информации.