Протеом — термин для обозначения всей совокупности белков организма, производимых клеткой, тканью или организмом в определённый период времени. Или, более строго, это совокупность экспрессированных белков в данном типе клеток или в организме, в данный период времени при данных условиях. Термин является производным слова «протеин» (белок), аналогичным по происхождению слову «геном» (совокупность всех генов организма).
Термин применялся к нескольким разным типам биологических систем. Протеом клетки — совокупность белков, найденных в определённой клетке при определённых внешних условиях, как например под действием определенных гормонов. Полный протеом организма — совокупный набор протеомов всех клеток. Термином «протеом» также обозначают набор белков субклеточного организма, например вируса (вирусный протеом).
Протеом, особенно у эукариот, больше, чем геном, то есть количество белков превышает количество генов. Это связано с альтернативным сплайсингом, а также с посттрансляционной модификацией белков, например, их гликозилированием и фосфорилированием.
В то время как геном определяется последовательностью нуклеотидов, протеом не сводится к сумме последовательностей аминокислот. Протеом включает в себя также пространственные структуры всех содержащихся в нём белков (см. вторичная структура белка, третичная структура белков) и функционального взаимодействия между ними.
Протеомика — наука о протеомах, развивалась в значительной степени путём разделения белков методом двумерного электрофореза. Первое измерение — разделение белков на основе их электрического заряда методом изоэлектрического фокусирования. Второе измерение — разделение белков на основе их молекулярного веса методом en:SDS-PAGE.
Содержание
Сначала был проанализирован протеом E.coli K12 (идентификатор протеома Proteom ID UP000000625), в геноме которой закодировано 4306 белков (колонка Protein count). Число букв в протеоме - 1356086 (посчитано с помощью awk 'BEGIN{sum=0}{sum+=$1}END{print sum}' TEST.txt в Bash)
Затем был проанализирован протеом L.plantarum ZJ316 (идентификатор протеома Proteom ID UP000011825), в геноме которой закодировано 3249 белков (колонка Protein count). Число букв в протеоме - 921389 (посчитано с помощью awk 'BEGIN{sum=0}{sum+=$1}END{print sum}' TEST1.txt в Bash)
The name of residue | The percentage in E.coli | The percentage in L.plantarum | The difference | |
L | 10,68 | 10,03 | 0,65 | |
A | 9,52 | 9,27 | 0,25 | |
V | 7,38 | 7,38 | 0 | |
T | 7,08 | 7,16 | 0,08 | |
G | 6,02 | 6,69 | 0,67 | |
I | 5,81 | 6,56 | 0,75 | |
S | 5,77 | 5,77 | 0 | |
D | 5,52 | 5,6 | 0,08 | |
Q | 5,4 | 5,25 | 0,15 | |
K | 5,16 | 5,18 | 0,02 | |
E | 4,45 | 4,48 | 0,03 | |
N | 4,43 | 4,41 | 0,02 | |
R | 4,41 | 4,31 | 0,1 | |
F | 3,95 | 3,96 | 0,01 | |
P | 3,9 | 3,79 | 0,11 | |
Y | 2,85 | 3,53 | 0,68 | |
M | 2,82 | 2,7 | 0,12 | |
H | 2,27 | 2,37 | 0,1 | |
V | 1,54 | 1,17 | 0,37 | |
C | 1,16 | 0,5 | 0,66 | |
U | 0,01 | 0 | 0,01 |
Три самых часто встречающихся остатка в E.coli K12 - лейцин (L), аланин (А), валин (V). Три самых редких - валин (V), цистеин (C), селеноцистеин (U).
Три самых часто встречающихся остатка в L.plantarum ZJ316 - лейцин (L), аланин (А), валин (V). Три самых редких - гистидин (H), валин (V), цистеин (C).
По содержанию тирозина наблюдается самое большое различие относительно других остатков E.coli K12
и L.plantarum ZJ316 - оно достигает 0,68%Таким образом, в протеоме E.coli K12 присутствует селеноцистеин, отсутствующий у L.plantarum ZJ316. С помощью команды grep -n "U" ecoli.fasta получаем строки с номерами из протеомаE.coli K12, содержащие селеноцистеин. Затем узнаем, какие записи содержат эти строки: белки с идентификаторами P24183, P32176, P07658. По полю "DE" узнаем, что данные белки - формиатдегидрогеназы, причем во всех 3 случаях дана одинаковая субъединица (альфа) и даже в качестве альтернативного названия последнего белка указывается "селен-содержащий полипептид"). Формиат дегидрогеназы - ключевые ферменты при использовании углеводородов в качестве органического субстрата, видимо, входит в состав дыхательной цепи E.coli, имеющей формиатное брожение. Отсутствие у L.plantarum селеноцистеина, возможно, таким образом, свидетельствует об отсутствии у них данного типа брожения, что согласуется с их меньшей устойчивостью к пребыванию на воздухе [1],[2]. Серин и валин встречаются одинаково часто в обоих протеомах. Наиболее часто встречающиеся 3 остатка совпадают, видимо, в виду того, что входят в состав гидрофобных ядер многих белков [3],[4]
Для того, чтобы выполнить данное задание, в программе compseq потребовалась бы команда word -<длина слова>
С другой стороны в compseq есть удобный аттрибут -nozero, исключающий вывод нулевых строк. Wordcount же, как видно из предыдущего задания, показывает напротив буквы и то, что буква не встречается в последовательности.
В wordcount можно задать аттрибут -mincount, чтобы посмотреть минимум встреч
В compseq аттрибут -calcfreq позволяет рассчитать частоту встречаемости определенных оснований или остатков. Если задать длину слова=1, тогда рассчитываемая ожидаемая частота будет равна наблюдаемой, что не имеет смысла
В compseq аттрибут -reverse позволяет подсчитать число слов в нуклеотидной последовательности, комплементарной данной
С помощью аттрибута сompseq -noignorebz можно не считать слова, содержащие коды аминокислот (например, глютамин или глутаминовая кислота - код Z)
В compseq -frame можно пропускать промежуточные слова между заданными. Мы можем подсчитать только те слова, которые появляются в единственной рамке слова, устанавливая значение, отличное от 0. Если 1- считаем только в рамке 1 и т.д.
Таким образом, программа compseq выигрывает во многом именно за счет разнообразных дополнительных функций, в то время как у wordcount их значительно меньше
В compseq значения output файла: выдаются по алфавиту, в wordcount - в порядке убывания; указана наблюдаемая частота (obs frequency) и ожидаемая частота (exp frequency) слов в последовательности; отношение наблюдаемых частот к ожидаемым
Однако, я считаю, что для выполнения данного практикума было бы удобнее использовать команду wordcount, так как эталона (моей бактерии) необходим список букв в порядке убывания значений, чего не сделаешь в compseq. С другой стороны вывод данной программы более полезен с точки зрения статистики (частота встречаемости, отклонение от ожидаемого результата), что гораздо более удобно при анализе множества данных (здесь перечисляются названия всех последовательностей из входного файла).
[1] - Wikipedia Enterobacteriaceae// URL: https://en.wikipedia.org/wiki/Enterobacteriaceae
[2] - Wikipedia Lactobacillus// URL: https://en.wikipedia.org/wiki/Lactobacillus
[3] - Uniprot Proteome E.coli // URL: http://www.uniprot.org/proteomes/?query=organism%3A%22Escherichia+coli+%28strain+K12%29+%5B83333%5D%22&sort=score
[4] - Uniprot Proteome L.plantarum // URL: http://www.uniprot.org/proteomes/?query=organism%3A%22Lactobacillus+plantarum+ZJ316+%5B1284663%5D%22&sort=score
© Yuliia Preobrazhenskaya, 2015-2016