Аннотация участка генома (зачетное задание)

      Первое, что я сделала, - это вырезала выданный мне фрагмент генома в 4000 нт, но при этом случайно поставила лишний 0, получив кусок в 40000 нт и целых 84 рамок считывания, из которых у 30 с лишним нашлись гомологи (с последним фактом мне, безусловно, очень повезло, а то пришлось бы умирать от старости, пока закончу эту работу; в общем, голова рукам и компьютеру покоя не дала).
      Выбрана программа BLASTP, т.к. я работала с белками: протеомом E.coli и белками, кодируемые определенными генами, вошедшими в состав выданного мне фрагмента генома Y.intermedia (перед поиском с помощью команды getorf -sequence yi.fasta -outseq yii.fasta -table 11 -find 3 -minsize 260 я нашла рамки считывания и оттранслировала их).
      Для того, чтобы выполнить поиск, я написала скрипт script.script для нахождения гомологов каждого 84 белков. Строка для одного белка: seqret yii.fasta:AALF01000001_2 stdout | blastall -i stdin -p blastp -d ec -o stdout -e 0.001 | grep ">" -c > file.list. Первую выдачу я перенаправила в файл с помощью оператора «>», во всех остальных строках я использовала вместо этого оператор «>>», чтобы дописать выдачу в конец файла.
      Далее я провела поиск гомологов, убрав последний конвейер из команды (скрипт script2.script) и записав результат в файл file2.list. В книге Excel есть страничка с результатами поиска и данными для этого протокола (results) и две странички с исходниками для скриптов (file и file2).

Предполагаемое расположение генов во фрагменте генома Y.intermedia.

5’---[=>ynfF, 666-3839]--------[=>yceA, 4292-5356]-[=>ydgG, 5439-6518]--[=>lsrG, 11402-11713]-------------------[=>rluC, 15781-16812]-[=>yceD, 17608-18135]-[=>plsX, 18345-19376]-[=>fabH, 19386-20336]-[=>fabG, 21314-22069]-[=>acpP, 22157-22459]--[=>fabF, 22533-23795]-[=>pabC, 24108-24911]-[=>yceG, 24992-26014]-[=>tmk, 25962-26642]-[=>holB, 26594-27643]-[=>ycfH, 27651-28556]-[=>ptsG, 28876-30306]-[=>hint, 30749-31099]-[=>ycfL, 31154-31540]-[=>ycfM, 31561-32157]-[=>ycfN, 32141-33004]-[=>nagZ, 33107-34132]-[=>ycfP, 34211-34756]-[=>dhnA, 35157-36461]-[=>tcfJ, 36820-37383]-3’

3’--[<=mfd, 37558-39972]------------------------------------------[<=yceF, 16879-17493]---[<=rraA, 11814-15512]---[<=pyrC, 10157-11200]-[<=dinI, 9798-10058]-[<=solA, 7893-9020]-[<=rcsA, 7046-7699]--------5’

Расположение генов – гомологов генов из фрагмента Y.intermedia – в геноме E.coli.

5’-[=>yceA, 1116030-1117982]-----------------[=>rluC, 1144163-1145122]-[=>yceD, 1146017-1146538]-[=>plsX, 1146844-1147914]-[=>fabH, 1147982-1148935]-[=>fabD, 1148951-1149880]-[=>fabG, 1149893-1150627]-[=>acpP, 1150838-1151074]-[=>fabF, 1151162-1152403]-[=>pabC, 1152523-1153332]-[=>yceG, 1153335-1154357]-[=>tmk, 1154347-1154988]-[=>holB, 1154985-1155989]-[=>ycfH, 1156000-1156797]-[=>ptsG, 1157092-1158525]-[=>hinT, 1161108-1161467]-[=>ycfL, 1161470-1161847]-[=>ycfM, 1161861-1162502]-[=>ycfN, 1162483-1163307]-[=>nagZ, 1163318-1164343]-[=>ycfP, 1164366-1164908]-[=>ycfJ, 1166822-1167371]-[=>lsrG, 1605023-1605313]-[=>ynfF, 1658580-1661003]-[=>ydgG, 1671937-1672971]---------------------------[=>rcsA, 2021992-2022615]-3’

3’-[<=solA, 1118691-1119809]-[<=dinI, 1120465-1120710]-[<=pyrC, 1120784-1121830]-[<=yceF, 1145234-1145818]-[<=mfd, 1169741-1173187]--------------[<=dhnA, 2175534-2176586]---------------------------------------[<=rraA, 4116868-4117353]-5’

Сравнение расположения генов в двух геномах

      Направление большей части генов из генома E.coli и его гомологов из генома Y.intermedia обоих организмов совпадает. Не совпадает только для генов rcsA (находится на прямой цепи генома E.coli, а его гомолог из генома Y.intermedia – на комплементарной цепи «своего» генома) dhnA (наоборот), причем расстояния между генами E.coli и их гомологами у Y.intermedia пропорциональны. Длинные промежутки между генами, наблюдаемые в одном геноме, часто, но, конечно, далеко не всегда, наблюдаются и в другом геноме, и также перекрывающиеся своими рамками считывания гены часто наблюдаются обоих геномах. Это может свидетельствовать об определенной и сравнительно близкой родственности организмов, о чем свидетельствуют E-value у гомологов меньше порогового значения 0,001, правда, учитывая невысокие степени идентичности, можно говорить о не очень близком родстве.



Главная страница > Проекты > Заготовка


© Александра Далина