Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2012

Распространенные ошибки в практикуме 8

1. Филогенетические деревья vs. Таксономические деревья

В нескольких работах я видела вот такие вот картинки, которые, действительно, выдает BLAST, если выделить найденные хиты и выбрать "Distance tree of results":

Филогенетическое дерево хитов для белка CRP_ECOLI

Я, если честно, никогда не пользовалась этой опцией BLAST, к тому же она явно в последнее время претерпела изменения, но в целом это - филогенетическое дерево хитов. По деревьям у вас еще будут специальные блоки на втором курсе, но, не вдаваясь в детали, можно сказать следующее: дерево представляет собой в графическом виде сопоставление хитов друг с другом. Вы, наверное, при построении выравниваний замечали, что некоторые последовательности очень друг на друга похожи, иногда почти идентичны. Так часто бывает, если организмы, из которых эти последовательности взяты, очень близки - например, это штаммы одного вида E. coli, или просто белки из одного таксона. Такие хиты на этом дереве "схлопываются", и вы видите, например, подпись: "Firmicutes | 3 leaves". Слово "leaves" (единственное число - "leaf") переводится как "листья", и так называют конечные элементы дерева. Главное же тут в том, что данная картинка получена для одного белка, и поэтому в ней, например, последовательности Firmicutes могут не группироваться все вместе: было бы даже странно, если бы по случайному белку компьютерный алгоритм мог предсказать эволюцию филумов!

В отличие от такого дерева существует таксономическое дерево, или, как его называют в популярной литературе - дерево жизни (англ. Tree of Life). Оно строится исходя из данных о многих белках и РНК, а часто не только на данных о последовательностях. В курсах зоологии и ботаники вы встречались с классификацией организмов без упоминания каких-то букв вообще, классификацией по очевидным признакам (строение скелета, жилкование листьев, особенности метаболизма и т.д. и т.п.). В случае эукариот эти признаки часто позволяют делать предположения о том, каким именно образом типы организмов эволюционно связаны - например, что кольчатые черви могут быть более родственны с членистоногими чем с другими червями. Анализ последовательностей, как мне кажется, тут менее надежен: очень сложно получить дерево с действительно четким и достоверным порядком расхождения таксонов. Поскольку для классификации прокариот, собственно, последовательностями и обходятся, группирование филумов прокариот - предмет споров и дискуссий; достоверно понятно только, что есть отдельные филумы. Дерево такого типа для организмов, к которым принадлежат найденные BLAST хиты, можно посмотреть так: сперва выделить хиты и выбрать GenPept, а уже в этом окне справа (где написано "Top organisms") щелкнуть на "Tree". Тогда вы увидите что-то вроде этого:

Таксономическое дерево с отображением количества хитов для белка CRP_ECOLI

Это дерево в некотором смысле построено так же как огромная табличка из подсказок. В скобках дано число хитов в каждом таксоне. Именно это дерево и требовалось в задании, так как оно (а не верхнее) позволяет оценить, насколько репрезентативна выборка.

2. Метионин - неполярная аминокислота

Очень отрадно видеть, что почти все распознают аминокислоты по принадлежности их радикала к разным группам. Тем не менее, я несколько раз замечала, что метионин включается в группу полярных аминокислот, наряду с глутамином, аспарагином, серином, треонином и цистеином и т.п. Обратите внимание: радикал метионина - неполярный. Об этом сообщает Википедия, и так это указано в классическом учебнике по биохимии Ленинджера. Давайте разберемся в чем дело.

Полярные аминокислоты отличаются тем, что в их радикалах присутствует связь между сильно электроотрицательным и менее электроотрицательным атомами, что приводит к образованию частично отрицательного заряда на первом и частично положительного заряда на втором. Эти частичные заряды, соответственно, могут привлекать дипольные молекулы воды, которые ориентируются вокруг них. В аспарагине, глутамине более электроотрицательные азот и кислород "тянут" электронную плотность от углерода, а азот - дополнительно еще от своих водородов. В серине и треонине имеется OH-группа, где на кислороде, очевидно, частичный минус. В цистеине - то же самое, но с серой и водородом. А метионин - в нем сера связана только с углеродом, и их электроотрицательности отличаются слишком слабо, чтобы сформировать даже частичные заряды (ситуация примерно как с углеродом и водородом - да, формально углерод оттягивает электронную плотность от водорода, но при этом группы -CH3 и -CH2- неполярны.

3. "Частично гомологичны" = "немножко беременна"

Часто даже в статьях (обычно старых) вы можете встретить фразу типа: "данные последовательности частично гомологичны". Это пример неправильного употребления термина. Последовательности могут быть "на 50% идентичны", или "частично сходны", или "сходны только с 5 по 100 остаток". Но слово гомология указывает на происхождение последовательностей от общей, предковой последовательности (точно так же как говоря что крыло птицы, рука обезьяны и плавник дельфина гомологичны указывают на их происхождение от одной и той же конечности предкового организма). Гомология последовательностей, как и в примере с конечностями, не обязательно означает "совпадение over 9000%": бывают далекие гомологи, выполняющие разные функции, и бывают такие гомологи, которые утратили статистически значимое сходство последовательностей. Постарайтесь, пожалуйста, грамотно использовать слово "гомология".

4. Написание латинских названий

Напоминаю, что везде при упоминании латинские названия пишутся курсивом, например Escherichia coli. При первом упоминании организма на страничке (или в любом другом тексте) сокращать его до E. coli нельзя, а вот при последующих - сколько угодно. Названия таксонов на латинском, например "Viridiplantae", тоже пишутся курсивом, а вот "Green Plants", как английское название, обходится без курсива.