Поиск по сходству (blast)

Сначала я взяла последовательность, полученную в практикуме 6 в результате анализа хроматограммы, и использовала blastn, чтобы найти последовательности, похожие на нее, определить, к какому гену она относится и из какого организма она взята. Ссылка на последовательность: WS3004.fasta.
Я выбрала несколько лучших достоверных находок (таблица 1) и построила выравнивание данной последовательности с этими найденными генами (рисунок 7). Ссылка на выравнивание в формате .jvp: project.jvp. Условия поиска доступны по ссылке.

Таблица 1. Результаты поиска последовательности WS3004.fasta в blastn. Показаны лучшие находки.
Организм Ген Score Query cover E-value Процент идентичных
Caprella septentrionalis histone H3 gene, partial cds 522 99% 2e-144 89%
Acanthonotozoma inflatum histone H3 gene, partial cds 522 93% 2e-144 91%
Sicyonia ingentis histone 3 (H3) gene, partial cds 491 90% 3e-135 89%
Vibilia cultripes histone 3 (H3) gene, partial cds 484 87% 5e-133 90%
Margarites groenlandicus histone H3 (H3) gene, partial cds 482 97% 2e-132 87%
Dyopedos porrectus histone H3 gene, partial cds 482 93% 2e-132 88%
Atergatis floridus histone H3 gene, partial cds 475 92% 3e-130 88%
Ophelia limacina histone H3 (H3) gene, partial cds 473 95% 9e-130 87%
Hippolyte sp. WS2316 histone H3 (H3) gene, partial cds 471 84% 3e-129 91%

Из данных таблицы видно, что данная последовательность - часть гена, кодирующего гистон 3 (H3).
На рисунках 1-5 представлены изображения некоторых организмов.

Caprella septentrionalis Acanthonotozoma inflatum

Рисунок 1 (слева). Caprella septentrionalis.
Рисунок 2 (справа). Acanthonotozoma inflatum.

Sicyonia ingentis Dyopedos porrectus Margarites groenlandicus

Рисунок 3 (сверху). Sicyonia ingentis.
Рисунок 4 (внизу слева). Dyopedos porrectus.
Рисунок 5 (внизу справа). Margarites groenlandicus.

Выравнивание

Рисунок 6. Выравнивание искомой последовательности с лучшими из найденных. Взяты последовательности из Caprella septentrionalis, Acanthonotozoma inflatum, Sicyonia ingentis, Vibilia cultripes, Margarites groenlandicus, Dyopedos porrectus, Atergatis floridus. Выравнивание построенно программой Mafft с некоторыми корректировками. Изображение получено с помощью программы Jalview, раскраска по нуклеотидам.

Ниже представлена таксономия организмов из таблицы 1. Можно заметить, что достоверные находки принадлежат организмам из разнообразных таксонов. Больше всего находок принадлежит типу Arthropoda.

	. . . Arthropoda .....................................     749 hits  509 orgs 
	. . . . Pancrustacea .................................     744 hits  508 orgs 
	. . . . . Crustacea ..................................     517 hits  420 orgs 
	. . . . . . Eumalacostraca ...........................     514 hits  418 orgs 
	. . . . . . . Amphipoda ..............................     169 hits  131 orgs 
	. . . . . . . . Senticaudata .........................     123 hits   87 orgs 
	. . . . . . . . . Corophiida .........................      10 hits    6 orgs 
	. . . . . . . . . . Caprelloidea .....................       9 hits    5 orgs 
	. . . . . . . . . . . Caprellidae ....................       3 hits    2 orgs 
	. . . . . . . . . . . . Caprella septentrionalis .....       2 hits    1 orgs 
	. . . . . . . . . . . Dyopedos .......................       5 hits    2 orgs
	. . . . . . . . . . . . Dyopedos porrectus ...........       2 hits    1 orgs 
	. . . . . . . . Gammaridea ...........................      19 hits   17 orgs 
	. . . . . . . . . Acanthonotozoma inflatum ...........       3 hits    1 orgs  
	. . . . . . . . Hyperiidea ...........................      27 hits   27 orgs 
	. . . . . . . . . Physocephalata .....................      20 hits   20 orgs 
	. . . . . . . . . . Vibilia ..........................       4 hits    4 orgs  
	. . . . . . . . . . . Vibilia cultripes ..............       1 hits    1 orgs 
	. . . . . . . Eucarida ...............................     345 hits  287 orgs 
	. . . . . . . . Decapoda .............................     342 hits  284 orgs 
	. . . . . . . . . Dendrobranchiata ...................      19 hits   18 orgs 
	. . . . . . . . . . Penaeoidea .......................      18 hits   17 orgs 
	. . . . . . . . . . . Sicyonia .......................       2 hits    2 orgs  
	. . . . . . . . . . . . Sicyonia ingentis ............       1 hits    1 orgs 
	. . . . . . . . . Pleocyemata ........................     323 hits  266 orgs 
	. . . . . . . . . . Eubrachyura ......................      84 hits   82 orgs  
	. . . . . . . . . . . Heterotremata ..................      74 hits   72 orgs 
	. . . . . . . . . . . . Xanthoidea ...................      68 hits   66 orgs 
	. . . . . . . . . . . . . Xanthidae ..................      59 hits   57 orgs 
	. . . . . . . . . . . . . . Atergatis ................       5 hits    5 orgs 
	. . . . . . . . . . . . . . . Atergatis floridus .....       1 hits    1 orgs 
	. . . . . . . . . . Caridea ..........................     134 hits  111 orgs 
	. . . . . . . . . . . Alpheoidea .....................      25 hits   22 orgs 
	. . . . . . . . . . . . Hippolytidae .................      22 hits   19 orgs 
	. . . . . . . . . . . . . Hippolyte ..................       3 hits    3 orgs 
	. . . . . . . . . . . . . . Hippolyte sp. WS2316 .....       1 hits    1 orgs 
	. . . Polychaeta .....................................      78 hits   66 orgs  
	. . . . Scolecida ....................................      37 hits   33 orgs 
	. . . . . Opheliidae .................................      28 hits   24 orgs 
	. . . . . . Ophelia ..................................       5 hits    3 orgs 
	. . . . . . . Ophelia limacina .......................       3 hits    1 orgs 
	. . Lophotrochozoa ...................................     317 hits  176 orgs 
	. . . Mollusca .......................................     238 hits  109 orgs 
	. . . . Gastropoda ...................................     231 hits  105 orgs 
	. . . . . Vetigastropoda .............................      25 hits   24 orgs 
	. . . . . . Trochoidea ...............................      11 hits   10 orgs 
	. . . . . . . Trochidae ..............................       5 hits    5 orgs 
	. . . . . . . . Margarites groenlandicus .............       1 hits    1 orgs  
						

2 лучшие находки с одинаковым score - последовательности из Caprella septentrionalis и Acanthonotozoma inflatum (идентификаторы в GenBank KJ530684.1 и KJ530650.1). Обе эти последовательности были отсеквенированы методом Сэнгера на Белом море. Однако можно предположить, что данная последовательность принадлежит геному именно Caprella septentrionalis, так как, во-первых, длина выравнивания искомой последовательности с найденными больше в первом случае (из обсуждаемых двух), во-вторых, находок из таксона, к которому принадлежит этот организм, гораздо больше, чем из подотряда Gammaridea, к которому принадлежит Acanthonotozoma inflatum. Несмотря на это, сходство найденной последовательности с геном Acanthonotozoma inflatum выше, чем с геном Caprella septentrionalis.
Таким образом, данная последовательность - участок гена гистона 3. Если говорить абсолютно точно, то последовательность принадлежит некому организму из отряда Amphipoda.
Для Acanthonotozoma inflatum число замен на 100 п.о. - 9; для Caprella septentrionalis - 11; для Sicyonia ingentis (организм из другого таксона, отряда Eucarida) - 11.

Далее я провела поиск последовательности тремя разными алгоритмами blast (blastn, megablast и discontiguous megablast). Так как по таксонам Amphipoda и более низшим все находки получались с практически одинаковым сходством и различия трех алгоритмов blast были не особо заметны, я решила провести поиск по таксону Polychaeta. В таблице 2 представлены резултьтаты.

Таблица 2. Результаты поиска гомологов последовательности WS3004.fasta в blast тремя разными алгоритмами. Поиск производился по таксону Polychaeta.
Параметр blastn megablast discontiguous megablast
Число находок 805 430 804
E-value худшей находки 0.12 9e-46 8e-04
Query cover худшей находки 8% 68% 9%
Сходство худшей находки 83% (17) 78% (21.6) 84% (16)

Из таблицы 2 видно, что megablast и discontiguous megablast отрезают находки со слишком высоким E-value, при этом порог для megablast значительно выше. Также в megablast не могут найтись последовательности с низким query cover, потому что паттерн для поиска этим алгоритмом составляет 28 букв (для остальных - 11 букв). Таким образом, короткие находки, которые не являются 100% гомологичными искомой последовательности, найти затруднительно. По общему числу находок и по значениям E-value видно, что megablast можно использовать для поиска только гомологичных последовательностей. Сходство для худшей находки в случае с megablast получилось относительно низким, так как находки, полученные другими алгоритмами, представляют небольшие участки локального сходства и не могут служить доказательством гомологии последовательностей целиком. Если взять результаты выдач discontiguous megablast и blastn с таким же query cover, их сходство будет составлять 75%.
Единственная находка, найденная только blastn, - это худшая находка с E-value = 0.12 из Platynereis dumerilii EST IB0AAA26AE01FM1. Видимо, для discontiguous megablast эта находка не подходила по паттерну, то есть, замены нуклеотидов оказались не в тех местах, а сходство этой последовательности с искомой слишком низкое. В качестве последовательности, найденной discontiguous megablast и blastn, но не megablast, можно взять любую из 374, например, часть гена гистона 3 из Osedax sp. Эта находка имеет E-value = 7e-87, query cover 91% и сходство 79%. Скорее всего, megablast не смог ее найти, так как в выравнивании искомой последовательности с этой встречаются достаточно длинные (4 нуклеотида) асболютно различающиеся участки, и это мешает при поиске совпадающих строк длиной 28 букв.

Далее я проверила наличие гомологов некоторых белков в геноме Amoboaphelidium (ссылка на сборку генома). Я выбрала следующие белки, которые должны встречаться практически у всех эукариот:

  • TERT_HUMAN (AC: O14746)
    Компонент теломеразы, субъединица, которая осуществляет обратную транскрипцию на основе РНК матрицы, что приводит к удлинению теломер (участков на концах хромосом). Теломераза в целом активна в стволовых и в раковых клетках и имеет очень низкую активность в обычных клетках тела. Удлинение теломер осуществляется путем добавления большого числа повторов к концам хромосом. Эти повторы записаны в теломеразной РНК (для человека повторяющаяся последовательность 5'-TTAGGG-3'). На теломеразную активность влияют многие факторы, например, белки, образующие с теломеразой комплексы, шапероны, полипептидные модификаторы. Этот фермент играет большую роль в процессах старения и антиапоптоза.
  • CND1_HUMAN (AC: Q15021)
    Субъединица 1 конденсина. Конденсин необходим для упаковки интерфазного хроматина в хромосомы, которые наблюдаются при митозе. Он может вносить положительные сверхвитки в ДНК в присутствии топоизомеразы I и превращать ДНК, содержащую разрывы, в положительно закрученные формы в присутствии топоизомеразы II. Возможно, именно эта регуляторная субъединица осуществляет взаимодействие с ДНК своим C-концевым участком.
  • NU107_HUMAN (AC: P57740)
    Белок Nup107, компонент ядерных пор. Играет роль в сборке и работе ядерных пор (nuclear pore complex (NPC)), через которфе осуществляется транспорт белков из цитоплазмы в ядро. Необходим для сборки белков на периферии ядерных пор. Может прикреплять белок Nup62 (также компонент ядерной поры) к комплексу.
  • SRP68_HUMAN (AC: Q9UHB9)
    Субъединица SRP68 комплеса узнавания сигнала (signal recognition particle (SRP)). Непосредственно взаимодействует с 7S РНК и с субъединицей SRP72. Рибонуклеопротеиновый комплекс SPR, в состав которого входят 6 различных белков и SRP RNA, участвует в транспорте белков, предназначенных для секреции, в шероховатый ЭПР. Этот комплекс связывается с белком, имеющим N-концевую сигнальную последовательность, во время его синтеза на рибосоме, и направляет этот белок к мембране ЭПР с расположенным в ней каналом, через который белок проходит внутрь этой органеллы. Закрепление рибосомального комплекса на мембране ЭПР происходит благодаря SRP-рецептору. В процессе транспорта белка внутрь ЭПР элонгация приостанавливается (elongation arrest), в регуляции этого процесса может принимать участие SRP68.
  • MYH10_HUMAN (AC: P35580)
    Миозин 10, белок, участвующий в цитокинезе, поддержании формы клетки и в некоторых специализированных функциях, таких как секреция. Связывается с LARP6 для стабилиации мРНК коллагена типа I. В процессе деления клетки играет важную роль в преобразовании цитоскелета, создании фокальных межклеточных контактов (в центральной части делящихся клеток) и удлинении ламеллиподий.

В геноме Amoboaphelidium были найдены все вышеперечисленные белки. Для поиска я использовала локальный blast. Результаты поиска представлены в таблице 3.

Таблица 3. Результаты поиска пяти белков (TERT, CND1, NU107, SRP68 и MYH10) в геноме Amoboaphelidium (сборка генома) с помощью локального blast.
Белок Число находок (хорошие/все) Параметры лучшей находки
Запись Процент идентичности Query cover E-value
TERT 2/3 scaffold-17 26.58 50 8e-23
CND1 4/4 (*) scaffold-444 23.04 (24.79) 49.25 (17.27) 8e-23 (3e-07)
NU107 2/4 scaffold-104 29.37 13.62 1e-06
SRP68 1/3 scaffold-687 31.97 19.46 0.005 (**)
MYH10 22 (***) scaffold-444, scaffold-17 54.09 44.53 0.0

* - находок всего 4, они принадлежат двум разным записям - scaffold-444 и scaffold-8 - по две находки каждой. Далее в скобках указаны параметры для второй находки из той же записи. Находки во второй записи, возможно, являются копиями этого гена, полученными от родителей, так как они также имеют достаточно высокое сходство.
** - конечно, такое E-value можно считать достаточно низким, особенно если учитывать высокую консервативность последовательности этого белка у всех организмов, необходимую для безошибочного осуществления его функций. Однако это может быть вызвано низким покрытием находки, связанным с тем, что найденная последовательность - это только один из участков данного гена, а остальные отсутствуют из-за неполноты сборки генома. Также это может быть связано с тем, что белок SROP68 человека отличается от этого же белка достаточно отдаленного организма - Amoboaphelidium. Еще один вариант - данный белок не был найден в геноме X5, так как сборка генома неполная, а имеющиеся находки случайны. На рисунке 7 представлено выравнивание последовательности белка SPRP68 со скаффолдом (для лучшей находки).
*** - для scaffold-444 найдено 7 совпадений участков последовательностей, для scaffold-17 их 8. E-value лучшей находки и в том, и в другом случае, составляет 0.0, что означает гомологичность последовательностей. Две группы находок, возможно, соответствуют копиями гена, полученным от родителей. Также имеются другие гомологичные участки, расположенные в различных записях (6 достаточно хороших находок, 1 плохая). Может быть, это копии последовательностей, кодирующих отдельные домены белка, или возможные изоформы.

Рисунок 7. Выравнивание последовательности белка SRP68 и его предположительного гомолога из сборки генома X5 для лучшей находки. Также указаны параметры выравнивания, такие как E-value и Score.

Далее приведены данные, выданные программой tblastn при локальном запуске.

	# TBLASTN 2.2.28+
	# Query: sp|O14746|TERT_HUMAN Telomerase reverse transcriptase 
	OS=Homo sapiens GN=TERT
	# Database: X5
	# Fields: subject id, % identity, alignment length, mismatches, gap opens, 
	q. start, q. end, s. start, s. end, evalue, bit score
	# 3 hits found
	scaffold-17   26.58  568  374  17  452  1007  610942  612552  8e-23  105.0
	unplaced-307  24.87  579  372  17  452  1007   14902   16518  5e-18   90.1
	scaffold-361  29.63   81   54   2  409   487   82346   82107    1.9   32.0
							
	# TBLASTN 2.2.28+
	# Query: sp|Q15021|CND1_HUMAN Condensin complex subunit 1 
	OS=Homo sapiens GN=NCAPD2
	# Database: X5
	# Fields: subject id, % identity, alignment length, mismatches, gap opens, 
	q. start, q. end, s. start, s. end, evalue, bit score
	# 4 hits found
	scaffold-444  23.04  690  477  16   622  1290  767041  765071  2e-33  141.0
	scaffold-444  24.79  242  149   9   215	  437  767983  767300  3e-07   54.7
	scaffold-8    27.17  254  184   1  1037  1289   72563  71802   1e-21  102.0
	scaffold-8    30.25  119   74   2   326   437   74378  74028   2e-06   52.4
							
	# TBLASTN 2.2.28+
	# Query: sp|P57740|NU107_HUMAN Nuclear pore complex protein Nup107 
	OS=Homo sapiens GN=NUP107
	# Database: X5
	# Fields: subject id, % identity, alignment length, mismatches, gap opens, 
	q. start, q. end, s. start, s. end, evalue, bit score
	# 4 hits found
	scaffold-104  29.37  126  80  3  350  468  344639  344268  1e-06  52.0
	scaffold-51   29.91  107  69  2  350  451    7114    6797  7e-06  49.7
	scaffold-157  30.86   81  44  3  255  329  687312  687536    2.7  31.2
	scaffold-22   32.58   89  46  4  657  731   16915   17181    5.1  30.4
							
	# TBLASTN 2.2.28+
	# Query: sp|Q9UHB9|SRP68_HUMAN Signal recognition particle subunit SRP68 
	OS=Homo sapiens GN=SRP68
	# Database: X5
	# Fields: subject id, % identity, alignment length, mismatches, gap opens, 
	q. start, q. end, s. start, s. end, evalue, bit score
	# 3 hits found
	scaffold-687  31.97  122  73  2   58  169    58752    58387  0.005  39.7
	scaffold-17   30.47  128  79  2   52  169  1907270  1906887  0.027  37.4
	scaffold-451  39.39   33  20  0  591  623    10084     9986  4.5    30.0
							
	# TBLASTN 2.2.28+
	# Query: sp|P35580|MYH10_HUMAN Myosin-10 
	OS=Homo sapiens GN=MYH10
	# Database: X5
	# Fields: subject id, % identity, alignment length, mismatches, gap opens, 
	q. start, q. end, s. start, s. end, evalue, bit score
	# 22 hits found
	scaffold-444  54.09  880  378  12    27   899   223879   226461     0.0  929.0
	scaffold-444  36.88  789  447  15    71   833    36804    34513  3e-124  439.0
	scaffold-444  39.53  635  348  12   177   806   302716   304527  9e-122  403.0
	scaffold-444  39.68   63   38   0   116   178   302475   302663  9e-122   48.5
	scaffold-444  48.39   31   16   0    86   116   302326   302418  9e-122   28.5
	scaffold-444  33.80  713  412  20    88   774   837662   835626   6e-92  334.0
	scaffold-444  29.93  147  103   0  1522  1668   228319   228759   1e-04   47.0
	scaffold-17   54.05  877  383  12    27   899   949004   951586     0.0  927.0
	scaffold-17   37.34  798  431  19    71   833   763565   761274  2e-126  446.0
	scaffold-17   39.16  641  342  13   177   806  1027474  1029285  1e-120  390.0
	scaffold-17   33.86  127   62   2    74   178  1027040  1027420  1e-120   64.7
	scaffold-17   33.85  901  434  26    80   856  1548469  1545881  7e-113  402.0
	scaffold-17   35.41  740  426  18    93   818  1463980  1461875  5e-103  370.0
	scaffold-17   29.25  147  104   0  1522  1668   953444   953884   8e-04   44.3
	scaffold-17   24.10  166  126   0  1769  1934   955361   955858    0.96   33.9
	scaffold-105  33.93  896  437  27    80   856   459170   461749  1e-107  385.0
	scaffold-105  35.25  732  422  17   101   818   549497   551578  6e-101  363.0
	scaffold-20   33.52  713  414  19    88   774    32893    30857   2e-89  325.0
	scaffold-693  27.07  676  435  21    98   734   662953   664923   2e-49  194.0
	scaffold-170  27.01  685  442  21    89   734    88474    90471   4e-49  194.0
	unplaced-997  24.88  406  254  10   152   506     9066     7849   5e-21  101.0
	scaffold-140  19.88  171  118   5   333   487   225026   224523   0.056   38.1
							

© Наталия Кашко, 2015