Реконструкцию структур хромосомы рассматривают на основе модели структуры хромосомы как произвольное набор путей и кругов сочинял векторов: гены обозначенный индексом i и парарегистрациями любого гена я обозначил индексом i.j. Модель включает четыре операции преобразование одной структуры в другого упомянутого как стандартное, а также дополнительное операционное удаление и вставка региона хромосомы. Подробное описание модель дана в Секции “Определение модель структуры хромосомы”. Значительные ограничения были наложены на модель в [1] и много других публикаций:постоянное генное содержание обеспечено в последовательности из преобразований от одной структуры вдругой, парарегистрации не позволены, операционные веса равный (таким образом, не используются), и т.д. Если веса рассматривают на уровне точного алгоритм, у них должно быть определенное рассмотрение формы NP-трудность продуманной проблемы. Часть, “Точная линейный алгоритм, вычисляющий расстояние между хромосомой структуры” этой работы делают предложение почти линейный алгоритм, преобразовывающий одну структуру хромосомы в другая работа в отсутствие всех этих ограничений, хотя мы должны были наложить условие на пропорцию между операционными весами. Этого нельзя избежать, будучи должен к NP-трудности продуманной проблемы в целом условия. Предложенная пропорция весов отличается от обычно принимаемые. Реконструкция структур в части “Реконструкция структур хромосомы для митохондрий sporozoans и plastids rhodophytic ветвитесь”, должен был полагаться на пропорцию между веса, для которых наш алгоритм является эвристическим хотя близко к точному. Термин почти появляется из-за проблемы парарегистраций, это решено посредством линейного программирования, который как известно, производит точное решение в почти линейное время [2–4]. Хотя алгоритм, предложенный здесь, соответствует фундаментальное понятие алгоритма в [1], это радикально более сложный; в то время как доказательство точности было по существу тривиальный для алгоритма в [1], точность здесь является видом из теории. Текущая работа вводит последовательность аннотации, составляющие это доказательство, хотя определенные детали были поданы [5, 6]. Алгоритм был осуществлен как компьютерная программа, доступная вместе с вычислением образцы, тесты на искусственных данных и руководство пользователя в http://lab6.iitp.ru/en/chromoggl/. Автоматизированное сравнение нашего алгоритма с другим эвристические проблематичны, начиная с модели хромосомы перестановка на уровне обобщения, используемого здесь был рассмотрен только в [7–10] к нашему знанию. Они публикации не предлагают внедрения программы. Это должно будьте отмечены что компьютерное внедрение в отсутствие из вставки и операций по удалению, а также операционные веса были представлены в [11]; однако, это далеко от нашего случая. Давайте вспомним, что алгоритм точен, если это было доказал, что это всегда производит минимальную передачу функциональный; в этом случае, минимальное общее количество вес для последовательности операционного преобразования одна структура хромосомы в другого. Здесь мы используем немного расслабленная версия этого: наш алгоритм производит последовательность с отличием общей массы от минимума фиксированным совокупным количеством d, для пример 0.7 (см. Секцию “Условие для точности из алгоритма и операции вес оценивает”). Еще одно беспокойство, подходящее для точности алгоритма обсужден в начале Части “Алгоритм для реконструкции структур хромосомы с кубическая сложность и достаточное отношение приближения” решение, произведенное алгоритмом, может отличаться от минимума мультипликативной стоимостью k, для пример 2. По-видимому, алгоритм с такой сложностью может исказить топологию дерева (см. Часть “Реконструкция из структур хромосомы для митохондрий из sporozoans и plastids rhodophytic ветвятся”). A у линейного алгоритма есть линейное время вычисления по входной размер и использует линейное пространство. Реконструкция структур хромосомы Как Часть “Точный линейный алгоритм, вычисляющий расстояние между хромосомой структурой с кубической сложностью и достаточным приближением отношение” рассматривает естественную проблему восстановление структур хромосомы во внутренних узлах из филогенетического дерева от структур хромосомы определенный в его листьях, используя дерево произведен алгоритмом или существующий. Отступая проблема структур хромосомы, для разновидности алгоритмы, восстанавливающие эволюционные сценарии с кубической вычислительной сложностью даны в [12]. Подобную проблему для регулятивных систем рассматривают, например, в [13, 14]. На самом деле, к нашему знанию, многим эвристическим алгоритмам но немного точных алгоритмов с низким (линейный, кубический, и т.д.), многочленная сложность были предложены для реконструкции из объектов, определенных в листьях. Это определенно относится к проблеме реконструкции структуры хромосомы использование модели определено в Секции “Определение из модели структуры хромосомы”. Расположение является функцией, которая назначает хромосому структура к каждому узлу дерева; после этого, узел и объект, назначенный на него, синонимичен. Функциональное определенный для всех мер (для данного дерева) или также для все деревья с указанными листьями составляют общее количество расстояние между краем заканчивается для всех краев. В этом случае, контрольную точку и биологические расстояния рассматривают; последний по существу также отредактировать расстояние между два структуры, и таким образом являются аналогом попарной последовательности выравнивание. Мы вспоминаем, что расстояние контрольной точки является количеством генные пары оконечности, которые смежны (или “склеенный”) в одной структуре и не соседний или недостающий в другой плюс количество генов, которые присутствуют в одном структура и отсутствующий в другом. Биологическое расстояние между структурами минимальная общая масса для последовательности из операций, преобразовывающих одну структуру в другое; всем операциям априорно дают отдельные веса. Вычисление расстояний также обсуждено в Секции “Вычисление контрольной точки и биологический расстояния для структур с парарегистрациями” и “Вычислением из биологического расстояния с существующими путями”. Давайте вспомним, что у продуманных структур может быть любой количество линейных и круглых хромосом, переменного гена содержание и парарегистрации; все операции, и стандарт и соучастнику, а также любым операционным весам разрешают. Было доказано что результат алгоритма описал в части “Алгоритм для реконструкции структуры хромосомы с кубической сложностью и достаточный отношение приближения” находится в пределах [a, ka] сегмент, где абсолютного минимума и k является маленьким приближением отношение. Алгоритмы с такой собственностью называют приблизительные алгоритмы. Часть “Точный линейный алгоритм вычисление расстояния между структурами хромосомы” и [1, 5–7, 12] устанавливает коэффициент k равный 1, в то время как в Часть “Алгоритм для реконструкции хромосомы структуры с кубической сложностью и достаточным приближением отношение” это равняется 2 или 11/6. Эти случаи существенно отличающийся от эвристических алгоритмов, чьи результаты находятся в неизвестном отношении к минимальному (“истинному”) решению. Кроме того, даже сходимость вычислительного процесс не был подтвержден для многих эвристических алгоритмов, и это закончено после не доказанный правило. На практике отношение приближения 2 может дайте начало несоответствующим деревьям. Эта трудность затронута для наших данных в части “Реконструкция хромосомы структуры для митохондрий sporozoans и plastids отделение rhodophytic”. Часть “Алгоритм для реконструкции хромосомы структуры с кубической сложностью и достаточным приближением отношение” следует за работой в [15] представление алгоритм реконструкции для 0–1 последовательности. Это с готовностью применимый к биологическим последовательностям. К нашему знанию, реконструкция структур хромосомы в структуры модели описаны в Секции “Определение из Модели Структуры Хромосомы” никогда не имеет рассмотренный как точную проблему или реализованный как a компьютерная программа. Таким образом, проблема в части “Алгоритм для реконструкции из структур хромосомы с кубической сложностью и достаточное отношение приближения” следующие. Нам дают m структуры хромосомы. Это требуется, чтобы находить набор из двух предметов дерево T с m уезжает и данные структуры назначенный на их, а также расположение структур, вообще внутренних узлы с минимальным полным расстоянием между край заканчивается для всех краев. Эту сумму называют весом дерево T или вес соответствующей договоренности. Случай недвоичного дерева подобен тому из a двоичная единица и подарки никакие новые трудности. То же самое сохраняется для случая искорененного дерева. Наконец, Часть “Реконструкция структур хромосомы для митохондрий sporozoans и plastids отделение rhodophytic” иллюстрирует описанные алгоритмы в Частях “Точный линейный алгоритм, вычисляющий расстояние между структурами хромосомы” и “Алгоритмом для реконструкция структур хромосомы с кубическим сложность и достаточное отношение приближения” и один больше алгоритма сделало предложение в [1], произведя филогенетический деревья и структуры хромосомы восстановления из митохондрий в sporozoans и plastids rhodophytic отделение. Тест на искусственных данных доступен по http://lab6.iitp.ru/en/chromoggl/. Результаты большинства соответствующих работ Давайте кратко рассмотрим фон алгоритма в Часть “Точный линейный алгоритм, вычисляющий расстояние между структуры хромосомы”. После работы Дэвид Сэнкофф [16], Павел Певзнер (рассмотренный в [17]) и многие другие исследователи решили проблему расстояния связался с моделями структур хромосомы; тысячи из бумаг, книг и курсов лекций относительно эта проблема доступна. Анализ исследования в область заслуживает отдельного обширного бухгалтерского учета обзора для тонких различий между изученными моделями. Позвольте нам считайте несколько публикаций наиболее относящимися к нашей работе. Янкопулос и др. [18] предложенный ряд операций к преобразуйте структуры хромосомы; здесь их называют стандарт и включен в наш набор операций. Это работайте представляет алгоритм, чтобы вычислить самое короткое расстояние между структурами, состоявшими из путей только (линейный хромосомы); время вычисления алгоритма склоняется к линейный, но не был явно оценен. Эти операции применимый только к путям соответствуют инверсии, перемещению, сплав и операции по расщеплению определены в [19]. Проблема расстояния для линейных хромосом только была решенный в [19]. Общий случай для того же самого генного содержания и те же самые операционные веса были решены в [20]. Случай различного генного содержания требует дополнительных операций, удаление и вставка специальных локусов, который были определены в [7]. Граф смежности используется в [7, 8]: его узлы смежны оконечности генов, которые принадлежат обеим структурам а также оконечности начальных путей. Такие узлы связанный краем, если они включают тот же самый ген. В дополнение, оконечность пути рассматривают, как связано к теломере (пустой конец). Регион с генами это принадлежите единственной структуре (“специальные” гены) может проживать между смежными оконечностями общих генов; такой гены назначены на соответствующий узел. Такой граф ясно отличается от общего графа, определенного здесь. алгоритмы вычисляя самое короткое преобразование последовательности одна структура в другое использование тех же самых операций как в у нашей работы, предложенной в [7, 8], есть линейная продолжительность. Все операционные веса равняются 1 в [7], в то время как стандарт операционные веса равняются 1 и веса удалений и вставки являются тем же самым и не превышают 1 в [8]. Это остается неясным, если алгоритмы от этих работ могут быть имел отношение к нашему алгоритму. Доказательство, что алгоритмы в [7, 8] точны, не доступно нам и сопровождению примечания не дают необходимых деталей. Ту же самую модель как в нашей работе рассматривают в [9]. Это предлагает линейный алгоритм, который полагается на добавление специальные гены к обеим начальным структурам, если это операционные веса являются тем же самым. Таким образом проблема уменьшена к случаю с тем же самым генным содержанием, и общее количество генных увеличений k+t, был k, и t числа специальных генов в начальных структурах. Используемый граф включает дополнительную пару оконечностей для каждого специального гена, который увеличивает их граф относительно используемого в нашем алгоритме. Граф и алгоритм отличается от предложенных ниже. Доказательство то, что их алгоритм точен, не доступно нам, и сопровождающие соображения не дают необходимых деталей. Compeau [10] описывает обобщение алгоритма в [9] для случая, когда все хромосомы являются круглыми, стандартные операционные веса равняются 1, и веса удаления и вставки являются тем же самым. Доказательство точность алгоритма, а также надлежащее описание потребность алгоритма, которая будет описана полностью.