Аннотирование фрагмента генома (зачетное занятие)


1.Обоснование выбора программы и типа данных, по которым будет вестись поиск:

Анализируя таблицу понял, что нужно выбрать программу BLASTX, потому что ее пробной областью являются нуклеиновые кислоты, которые она ищет в банках данных белков и часто используется на первом этапе анализа новых нуклеотидных последовательностей для предсказания кодирующих участков.

Моей задачей является определить, кодирует ли заданный мне фрагмент что-либо, похожее на какой-либо белок из прототипного организма.

 

2.Cравнение взаимного расположения генов в исследуемом фрагменте и в геноме организма-прототипа:

Результат поиска программой BLASTX: result.txt

 

Мною было выбрано два потенциальных гомолога… поиск выдал все 6 находок с E-value < 0.001, поэтому я выбрал все гомоглоги:

P08622

P36659

P77746

P10151

P30979

P31463

                                                                 Score    E

Sequences producing significant alignments:                      (bits) Value

 

P08622|DNAJ_ECOLI| Chaperone protein dnaJ (Heat shock protein J)...   418   e-118

P36659 P77250|CBPA_ECOLI| Curved DNA-binding protein.                 107   4e-24

P77746|YBDO_ECOLI| Putative HTH-type transcriptional regulator y...    87   8e-18

P10151 P75640|LEUO_ECOLI| Probable HTH-type transcriptional regu...    72   3e-13

P30979 P75727 P77105|YBEF_ECOLI| Putative HTH-type transcription...    63   9e-11

P31463 Q2M827|YIDZ_ECOLI| HTH-type transcriptional regulator yidZ.     50   6e-07

 

 

 

5'----------[ =>ген P08622,     1-633]-------—--[ =>ген P77746, 942-1841    ]--------3'

5'-------------[ =>ген P36659, 91-549]------------ [ =>ген P10151, 927-1790]---------3'

5'----------------------------------------------[ =>ген P30979, 942-1685  ]----------3'

5'-----------------------------------------------[ =>ген P31463, 945-1169]-----------3'

3'-----------------------------------------------------------------------------------5'

  В результате получится так:

5'-----------[ =>ген P08622, 1-633]------------ [ =>ген P777, 942-1841]--------------3'

3'-----------------------------------------------------------------------------------5'

 

 

С помощью кнопки "Link" установил связь с документами EMBL. АС записей EMBL:

P08622  >>> EMBL:D16500, ген cbpA   987..1880

        P36659  >>> EMBL:M12544, ген dnaJ   267..1397

        P77746

Ген cbpA, расположение в геноме – 987--1880. Продукт - CbpA

Ген dnaJ, расположение в геноме – 267--1397. Продукт – DnaJ

Ген lipB, расположение в геноме – 1084--1659. Продукт – LIPB protein

Ген lipA, расположение в геноме – 3079--4044. Продукт – LIPA protein

 

 

5'----------[=>ген dnaJ, 267--1397]------ [=>ген lipA, 3079-4044]-----------3'

5'-------------[=>ген cbpA,  987—1880  ]-----------------------------------3'

5'-------------[=>ген lipB, 1084--1659]------------------------------------3'

3'-------------------------------------------------------------------------5'

 

В результате получается 2 главных гена.

 

5'----------[=>ген dnaJ, 267--1397]------ [=>ген lipA, 3079-4044]-----------3'

3'-------------------------------------------------------------------------5'

 

 

3.Полный перечень использованных команд:

 

seqret -sask sal_typhi.fasta

formatdb -i ecoli-prot.fasta -p T -n sp

blastall -p blastx -d sp -i nc_003198.fasta -e 0.001 -F F -o result.txt

 

 

 


На главную страницу третьего семестра

На главную


© Кузеванов Алексей,2005