Borovikova (grib.irina), report paige

Практикум 7. EMBOSS и протеомы

В рамках данного практикума мы познакомились с пакетом EMBOSS, провели работу с протеомами указанных в задании бактерий.

Organism	Proteome ID	Proteins number	Amino acids number
Escherichia coli (strain K12)	UP000000625	4352	1353365*
Acidithiobacillus ferrooxidans (strain ATCC 23270)	UP000001362	3120	882239

*Включая 8 нераспознанных (X); выявлены с помощью wordcount и вспомогательного скрипта.

Задание 1

С помощью wordcount и специально созданного python-скрипта было обработано два полных протеома: Escherichia coli K12 и Acidithiobacillus ferrooxidans ATCC 23270. Результат работы представлен в таблице 1. В первом столбце указан однобуквенный код аминокислотного остатка (рассматривались 20 основных аминокислот; в протеоме E.coli также содержится 3 остатка селеноцистеина), во втором и третьем - процентное содержание остатка в указанном протеоме, в четвертом - разница в содержании между рассматриваемыми организмами.

Amino acid	A_ferrooxidans_ATCC23270 (%)	E_coli_K12 (%)	Difference
A	11.226	9.507	1.719
L	10.944	10.676	0.268
G	8.276	7.366	0.91
R	7.035	5.52	1.515
V	7.033	7.07	0.037
S	5.392	5.799	0.407
P	5.358	4.429	0.929
E	5.354	5.762	0.408
I	5.237	6.011	0.774
D	5.06	5.147	0.087
T	4.96	5.394	0.434
Q	4.211	4.443	0.232
F	3.56	3.894	0.334
K	3.04	4.407	1.367
N	2.805	3.938	1.133
H	2.708	2.269	0.439
Y	2.626	2.845	0.219
M	2.557	2.825	0.268
W	1.604	1.532	0.072
C	1.014	1.162	0.148

Самыми распространенными аминокислотными остатками в протеоме A. ferrooxidans являются аланин, лейцин и глицин; лидирующие позиции в протеоме E. coli также занимают лейцин, аланин и глицин, но доля Leu на процент больше доли Ala. Самыми малочисленными в протеоме A. ferrooxidans оказались метионин, триптофан и цистеин. В протеоме E. coli доля метионина немного больше, чем гистидина, поэтому 3 самыми малочисленными аминокислотными остатками оказываются гистидин, триптофан и цистеин. Самой большой разницей в содержании остатка в пользу A. ferrooxidans является разница в содержании аланина (1.719%), в пользу E. coli - содержание лизина (1.367%).

Используемый скрипт

(синтаксис: python html_table.py prot1.fasta prot2.fasta; сортировка происходит по первому из указанных протеомов)

Acidithiobacillus ferrooxidansATCC 23270 (fasta-файл)

Escherichia coli K12 (fasta-файл)

Задание 2

Программы сompseq и wordcount предназначены для обнаружения и подсчета слов определенной длины в данной последовательности. Синтаксис этих программ выглядит так: сначала в командную строку вводится название программы, затем имя файла с последовательностью. Далее вводится длина слова и название файла, в который будет записан ответ. Wordcount предоставляет только самую основную информацию, представленную в виде двух колонок: первая содержит все найденные слова, вторая - их колличество. Compseq выводит информацию о запросе, общее число найденных сочетаний; в виде таблицы представлены найденные сочетания, ожидаемая и наблюдаемая частота, их отношение. Для выполнения задания, аналогичного заданию 1, я бы выбрала wordcount, потому что результат, выдаваемый compseq сложнее обрабатывать из-за избытка информации.