На главную третьего семестра   На главную

Зачетное задание: Что кодирует фрагмент нуклеотидной последовательности?

Выполнялся вариант 1

Дан фрагмент неаннотированного генома бактерии Klebsiella pneumoniae. Границы фрагмента с 4154583 по 4159582. Дан также протеом Salmonella typhimurium

Заданный фрагмент последовательности генома бактерии Klebsiella pneumoniae kpn_genome.fasta был получен с помощью команды

seqret kpn_genome.fasta -sask

Задачей стоит определить не закодированы ли в нем белки, похожие на белки из Salmonella typhimurium.

Для того чтобы проиндексировать протеом для поиска программами пакета BLAST использовалась следующая команда

formatdb -i salty_proteome.fasta -n salt -p T
Для выполнения задачи использовалась программа BLASTX, предназначенная для анализа новых нуклеотидных последовательностей для предсказания кодирующих участков, которая часто используется на первом этапе исследования. Программа BLASTX использует белковую БД, при этом проба (последовательность нуклеотидов) транслируется в 6 рамках.

Запуск программы BLASTX производился с командой

blastall -p blastx -d salt -i kpn_genome.fasta -o result.fasta -F F
Рассматривались только очень похожие последовательности (E-value<0,001). Объекты с высоким уровнем сходства считались гомологами. Соответствующие участки исследуемого фрагмента названы по имени гомологичного белка.

Получены предполагаемые гены

(в случае перекрывания координат генов, был взят тот, который имеет больший e-value):
  1. [=>ген Q9XDN1 3638..4999]
  2. [=>ген Q9XDN5 1215..1787]
  3. [=>ген Q9XDN6 751..1212]
  4. [=>ген Q8ZNR6 103..450]
  5. [=>ген Q9XDN3 2339..2608]
  6. [=>ген Q9XDN4 1844..2332]
  7. [<=ген Q9ZFU8 732..472]

Гипотетические гены во фрагменте 1-5000 (реально в геноме это участок 4154583-4159582)


5'--[=>ген Q8ZNR6 103..450]--[=>ген Q9XDN6 751..1212]--[=>ген Q9XDN5 1215..1787]--[=>ген Q9XDN4 1844..2332]--[=>ген Q9XDN3 2339..2608]--[=>ген Q9XDN1 3638..4999]--3' 

3'----------------------------------------------------------------------[<=ген Q9ZFU8 732..472]--------------------------------------------------------------------5'

где значки => и <= обозначают прямую или комплементарную цепь ДНК соответственно,

Сравнение взаимного расположения генов в исследуемом фрагменте и в геноме организма-прототипа

Запрос к SRS для получения соотвествующих белков предполагаемых генов в UniProt:

Q9XDN1|Q9XDN5|Q9XDN6|Q8ZNR6|Q9XDN3|Q9XDN4|Q9ZFU8
Query "(((((([uniprot-AccNumber:Q9XDN1*]|[uniprot-AccNumber:Q9XDN5*])|[uniprot-AccNumber:Q9XDN6*])|
[uniprot-AccNumber:Q8ZNR6*])|[uniprot-AccNumber:Q9XDN3*])|[uniprot-AccNumber:Q9XDN4*])|[uniprot-AccNumber:Q9ZFU8*])
Полученная информация о белках:

AC находки в БД UniProt ID находки Description E-value (данные находок программы BLASTN)
Q9XDN1 Q9XDN1_SALTY Propanediol utilization CoA-dependent propionaldehyde dehydrogenase. 0.0
Q9XDN5 Q9XDN5_SALTY Propanediol utilization protein. 1e-87
Q9XDN6 Q9XDN6_SALTY Propanediol utilization protein. 3e-43
Q8ZNR6 Q8ZNR6_SALTY Propanediol utilization diol dehydratase reactivation protein. 2e-38
Q9XDN3 Q9XDN3_SALTY Propanediol utilization protein. 2e-37
Q9XDN4 Q9XDN4_SALTY Propanediol utilization protein. 2e-29
Q9ZFU8 EUTK_SALTY Ethanolamine utilization protein eutK precursor. 8e-07

Запрос на установление связи с документами EMBL, проведенный функцией "Link":

"((((((([uniprot-AccNumber:Q9XDN1*]|[uniprot-AccNumber:Q9XDN5*])|[uniprot-AccNumber:Q9XDN6*])|
[uniprot-AccNumber:Q8ZNR6*])|[uniprot-AccNumber:Q9XDN3*])|[uniprot-AccNumber:Q9XDN4*])|[uniprot-AccNumber:Q9ZFU8*]) > EMBL )"
Найдено 3 записи:

Предсказанные гены в найденных записях EMBL

AC находки в БД UniProt EMBL:AE008790 EMBL:AE008810 EMBL:AF093749
Q9XDN1 gene pduP

gene 13548..14666

- -
Q9XDN5 gene pduL

gene 9725..10364

- -
Q9XDN6 gene pduK

gene 9250..9732

- -
Q8ZNR6 gene pduH

gene 8595..8952

- -
Q9XDN3 gene pduN

gene 10848..11131

- -
Q9XDN4 gene pduM

gene 10356..10852

- -
Q9ZFU8 - gene eutK

gene complement(13605..14112)

gene eutK

gene 14785..15279

Гены Salmonella typhimurium LT2, полученные из записей EMBL


5'--[=>ген pduH 8595..8952]--[=>ген pduK 9250..9732]--[=>ген pduL 9725..10364]--[=>ген pduM 10356..10852]--[=>ген pduN 10848..11131]--[=>ген pduP 13548..14666]--[=>ген eutK 14785..15279]--3' 

3'---------------------------------------------------------------------------[<=ген eutK 13605..14112]--------------------------------------------------------------------------------------5'

Как видно из схем гипотетического и "достоверного" расположения генов, полученного из записей EMBL,

Вывод:

Все гены были предстказаны достаточно точно. Подтверждением этого является совпадение взаимоного расположения на прямой цепи (на комплементарной только один ген) гипотетических и "реальных" генов. Также в пользу правильности результатов предсказания свидетельствует небольшая разница в длине гипотетических и "раельных генов", за исключением двух пар генов гена Q9XDN1 (соответствует гену pduP (с разницей в длинне 243 н.о.) (прямая цепь)) и гена Q9ZFU8 (соответствует гену eutK (с разницей в длинне 247 н.о.) (комплиментарная цепь)). Столь большая разница в длине генов может объясняться работой использовавшейся программы, так как BLASTX строит локальные выравнивания.


©Dzhanibekova Anastasia