Нажмите чтобы
              перейти в ад

1. Сравнение протеомов

     Я сравнил доли, которые составляют белки некоторой  "функциональной группы" в протеоме Pseudomonas putida   и референсном протеоме бактерии Escherichia coli strain K-12. *приведены ссылки на википедию ( )    
     Несколько фактов о Pseudomonas putida:
     Это первый запатентованный организм (информация из   википедии). Она была обнаружена в почве и использовалась для   очистки почв от сложнорастворимых органических соединений. Также она способна жить на кофеине. Обладает   интересным ферментом- NicA2. NicA2 способен расщеплять никотин, что рассматривается как основа для разработки   препарата, помогающего отказаться от курения.
     По каким полям проходит поиск. Для того чтобы найти число белков определённой группы у организма,   необходимо перейти в раздел UniProtKB ("число белков") и далее с помощью Advanced добавить необходимую нам   характеристику (например Function > Enzyme classification [EC]) и выполнить поиск
     Результаты представлены в таблице:
Таблица 1. Сравнение Pseudomonas putida и Escherichia coli strain K-12
Organism Pseudomonas putida Escherichia coli strain K-12
Proteome ID
UP000000556 UP000000625
Статус Reference proteome Reference proteome
Количество белков 5527 4391
Количество белков
в базе Swiss-Prot
725 4389
Доля белков
в базе Swiss-Prot
13,12% 99,95%
Количество
трансмембранных белков
1083
(61 Swiss-Prot)
946
(All Swiss-Prot)
Ферменты 1329
(475 Swiss-Prot)
1676
(All Swiss-Prot)
Трансмембранные ферменты
(это не третья
функциональная группа)
118
(23 Swiss-Prot)
168
(All Swiss-Prot)
Сравним бактерии в разделе Protein Existence [PE](существование белка)
Дозакательства
на уровне белка
99
(56 Swiss-Prot)
3032
(All Swiss-Prot)
Дозакательства
на уровне транскрипции
7
(5 Swiss-Prot)
161
(All Swiss-Prot)
Выводится из гомологии 1750
(661 Swiss-Prot)
660
(All Swiss-Prot)
Предсказанные 3671
(3 Swiss-Prot)
439
(437 Swiss-Prot)
Неопределённые/ изменчивые 0
(0 Swiss-Prot)
99
(All Swiss-Prot)
Сравним число белков с различными кофакторами
Fe2+ 17
(12 Swiss-Prot)
32
(All Swiss-Prot)
Zn2+ 68
(41 Swiss-Prot)
154
(All Swiss-Prot)
K+ 5
(4 Swiss-Prot)
9
(All Swiss-Prot)
Mg2+ 121
(76 Swiss-Prot)
248
(All Swiss-Prot)
Cu2+ 3
(0 Swiss-Prot)
8
(All Swiss-Prot)
Нажмите, чтобы открыть запросы в UniProt:
Запросы в UniProt:
Количество трансмембранных белков: annotation:(type:transmem) AND organism:"Pseudomonas putida (strain ATCC 47054 / DSM 6125 / NCIMB 11950 / KT2440) [160488]" AND proteome:up000000556
Ферменты: ec:* AND organism:"Pseudomonas putida (strain ATCC 47054 / DSM 6125 / NCIMB 11950 / KT2440) [160488]" AND proteome:up000000556
Трансмембранные ферменты:ec:* annotation:(type:transmem) AND organism:"Pseudomonas putida (strain ATCC 47054 / DSM 6125 / NCIMB 11950 / KT2440) [160488]" AND proteome:up000000556
Дозакательства на уровне белка:existence:"Evidence at protein level [1]" AND organism:"Pseudomonas putida (strain ATCC 47054 / DSM 6125 / NCIMB 11950 / KT2440) [160488]" AND proteome:up000000556
Дозакательства на уровне транскрипции:existence:"Evidence at transcript level [2]" AND organism:"Pseudomonas putida (strain ATCC 47054 / DSM 6125 / NCIMB 11950 / KT2440) [160488]" AND proteome:up000000556
Выводится из гомологии:existence:"Inferred from homology [3]" AND organism:"Pseudomonas putida (strain ATCC 47054 / DSM 6125 / NCIMB 11950 / KT2440) [160488]" AND proteome:up000000556
Предсказанныеexistence:"Predicted [4]" AND organism:"Pseudomonas putida (strain ATCC 47054 / DSM 6125 / NCIMB 11950 / KT2440) [160488]" AND proteome:up000000556
Неопределённые/ изменчивые:existence:"uncertain [5]" organism:"Pseudomonas putida (strain ATCC 47054 / DSM 6125 / NCIMB 11950 / KT2440) [160488]" proteome:up000000556
Кофактор - Fe2+cofactor:(chebi:"Fe cation [24875]") AND organism:"Pseudomonas putida (strain ATCC 47054 / DSM 6125 / NCIMB 11950 / KT2440) [160488]" AND proteome:up000000556
Кофактор - Zn2+cofactor:(chebi:"Zn(2+) [29105]") AND organism:"Pseudomonas putida (strain ATCC 47054 / DSM 6125 / NCIMB 11950 / KT2440) [160488]" AND proteome:up000000556
Кофактор - K+cofactor:(chebi:"K(+) [29103]") AND organism:"Pseudomonas putida (strain ATCC 47054 / DSM 6125 / NCIMB 11950 / KT2440) [160488]" AND proteome:up000000556
Кофактор - Mg2+cofactor:(chebi:"Mg(2+) [18420]") AND organism:"Pseudomonas putida (strain ATCC 47054 / DSM 6125 / NCIMB 11950 / KT2440) [160488]" AND proteome:up000000556
Кофактор - Cu2+cofactor:(chebi:"Cu cation [23378]") AND organism:"Pseudomonas putida (strain ATCC 47054 / DSM 6125 / NCIMB 11950 / KT2440) [160488]" AND proteome:up000000556


Выводы:

  • Необходимо было сравнить протеом своей бактерии и референсный протеом бактерии Escherichia coli strain K-12.
Протеом моей бактерии (Pseudomonas putida) также имел статус Reference proteome.
  • Проведено сравнение числа белков двух бактерий и выяснил, что у Pseudomonas putida число белков в протеоме равно 5537, что больше чем у Escherichia coli strain K-12 (4389).
  • Почти 100% Escherichia coli strain K-12 находятся в базе Swiss-Prot, тогда как для белков Pseudomonas putida это значение равно 13%.
  • Я сравнил количество трансмембранных белков у обеих бактерий(результат в таблице 1). У Escherichia coli strain K-12 их немного больше, чем у Escherichia coli strain K-12. Сложно сказать, связано ли это с тем, что бактерия живёт в почве. Ферментов больше у Escherichia coli strain K-12.   • Так как Pseudomonas putida почвенный организм, а Escherichia coli strain K-12 обитает в кишечнике, я предположил, что у них могут быть различные кофакторы и решил сравнить их. У Escherichia coli strain K-12 приблизительно в два раза больше белков с самыми различными ионами металлов. Важно заметить, что этими металлами богаты большинство почв, и Pseudomonas putida не должна испытывать их недостаток.
  • После этого я решил сравнить белки в разделе Protein Existence [PE] (таблица 1). И интересно, что большая часть белков Pseudomonas putida являются Predicted (Предсказанные). При просмотрел этих белков я обнаружил следующее:
Изображение 1.Фрагмент из раздела Predicted
  •Был произведен поиск всех белков с именем Uncharacterized protein в группе Predicted и среди всех:
Текст запроса: name:"uncharacterized protein" existence:"Predicted [4]" AND organism:                                               "Pseudomonas putida (strain ATCC 47054 / DSM 6125 / NCIMB 11950 / KT2440)                          [160488]" AND proteome:up000000556
Текст запроса: name:"uncharacterized protein" AND organism:"Pseudomonas putida (strain                          ATCC 47054 / DSM 6125 / NCIMB 11950 / KT2440) [160488]" AND                          proteome:up000000556
  • Всего лишь 10 из 1231 белка оказались не из раздела Predicted. После я провёл несколько проверок на возможные функции данных белков (их положение в мембране из описания определяется из последовательности)
Полные запросы в UniProt я не стану предоставлять, но вот сcылки на все проверки
( Catalytic activity ) ( Activity regulation ) ( Caution ) ( Calcium binding ) ( DNA binding )
  • Функция ни одного из этих белков не определена, а наличие кофактора определёно только для 3 (Ссылка)
При нахождении белков с таким названием у Escherichia coli strain K-12 стало видно, что все они не просто Swiss-Prot , но и имеют хорошее описание своей функции(я просмотрел 3 функции и зашёл в случайные 8 белков).
  • Исходя из проведенного исследования, можно сказать, что не все белки Pseudomonas putida изучены до конца. Сложно сделать на основании сравнения вывод, касающийся влияния среды жизни организма и коферментах в его белках. Но пока что нулевая гипотеза (Среда организма не влияет на коферменты в его белках) не может быть опровергнута или подтверждена.

2. Получение зрелых белков одного из коронавирусов

1) Скачивание записи.
Для того чтобы скачать запись, я воспользовался следующей командой:
entret 'uniprot:K9N7C7' coronavirus.fasta
Ссылка на coronavirus.fasta
2)Получение списка всех участков из таблицы локальных особенностей с "CHAIN".
Я просмотрел все линии на наличие FT и CHAIN и перенёс вывод программы в haha.txt с помощью следующего запроса в командную строку:
grep '^FT' coronavirus.fasta | grep 'CHAIN' coronavirus.fasta > haha.txt
Ссылка на haha.txt
FT   CHAIN           1..193
FT   CHAIN           194..853
FT   CHAIN           854..2740
FT   CHAIN           2741..3247
FT   CHAIN           3248..3553
FT   CHAIN           3554..3845
FT   CHAIN           3846..3928
FT   CHAIN           3929..4127
FT   CHAIN           4128..4237
FT   CHAIN           4238..4377
FT   CHAIN           4378..5310
FT   CHAIN           5311..5908
FT   CHAIN           5909..6432
FT   CHAIN           6433..6775
FT   CHAIN           6776..7078
3) Cохранение одной выбранной цепи в формате fasta c помощью seqret.
На основании пункта 2 я выбрал участок <1...193> и сохранил его в файле командой:
seqret 'coronavirus.fasta[1:193]' protein_corona.fasta
Ссылка на protein_corona.fasta
Ссылка на protein_corona_1.fasta (это protein_corona.fasta до редактирования заголовка)
4) Редактирование строки заголовка fasta.
Ссылка на protein_corona.fasta выше.

3. Описание утилиты из пакета EMBOSS

Выбранная утилита: transeq.

Функция

Перевод последовательностей нуклеиновых кислот

Описание

   transeq считывает одну или несколько нуклеотидных последовательностей и записывает соответствующие переводы последовательности белка в файл. Она способна переводить ДНК в последовательность аминокислот в 6 рамках считывания: то есть в 3 прямых и в 3 обратных, основываясь на обратной последовательности ДНК. Мы можем запросить у неё как отдельную рамку считывания (frame:номер) так и сразу все. Он может переводить с помощью стандартного ('Universal') генетического кода, а также с подборкой нестандартных кодов.

Примеры использования

   Этой команде для работы необходима последовательность ДНК. Для этого я пошёл в
European Nucleotide Archive. Ввёл AC полипротеина: K9N7C7 и скачал файл ena.fasta
Команда, запускающая перевод нуклеиновой кислоты: transeq ena.fasta
После запуска появляется запрос: protein output sequence(s) [kc164505.pep]:
Необходимо указать, в какой файл будет просходить вывод команды.
Файл с выводом: ena1.fasta
У данной команды существует множество параметров, я предлагаю рассмотреть 2 из них.
Для того, чтобы приводить примеры, я буду использовать часть гена полипротеина K9N7C7: Участок гена:
ATTTAAGTGAATAGCTTGGCTATCTCACTTCCC
Первый параметр: -frame
По умолчанию равен 1. Определяет рамку считывания. Примеры различных значений и их вывод:
-frame:3      |  L  |  S  |  E  |  *  |  L  |  G  |  Y  |  L  |  T  |  S  |  X  |
-frame:2    |  F  |  K  |  *  |  I  |  A  |  W  |  L  |  S  |  H  |  F  |  P  |
-frame:1  |  I  |  *  |  V  |  N  |  S  |  L  |  A  |  I  |  S  |  L  |  P  |
 gene:    |A|T|T|T|A|A|G|T|G|A|A|T|A|G|C|T|T|G|G|C|T|A|T|C|T|C|A|C|T|T|C|C|C|
-frame:-1 | N | L | H | I | A | Q | S | D | * | K | G | -frame:-2 | K | L | S | Y | S | P | * | R | V | E | X | -frame:-2 | * | T | F | L | K | A | I | E | S | G | X |
Можно получить результат со всех рамок считывания, с помощью -frame:6.
Результат выполнения transeq pr9.fasta -frame=6
Второй параметр: -table
По умолчанию равен 0. Выбор генетического кода, на основании которого будет построен протеин. 0 - Standard. Всего существует 24 различных таблицы. Подробнее про это можно узнать, перейдя по ссылке