Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2020

3 апреля 2022

Уменьшаю объём данных, достаточных для выполнения заданий 6.2:

  • не менее 10 генов для построения PWM и не менее 5и генов для проверки

и 6.3:

  • информационной содержание считать но всем использованным данным (как и было)

Выполнение задания на большем объёме будет учтено в оценке.

ААл

Указания

Задание 1

Или в базе данных pubmed. После введения запроса и Enter можно задавать фильтры. Есть такие фильтры: искать только обзоры (Review); или только (Free full text). И др.

Например, мой запрос signal[ti] bacterial genome с этими двумя фильтрами дал 22 находки.

[ti] значит искать предыдущее слово в заголовке статьи.

[au] - искать среди списка авторов

В задании указано что оценивается. Описание следует делать коротким - "краткость сестра таланта". И понятным. Ссылки на источники обязательны.

Задание 2

Предлагается скачанная мной табл. с генами белков человека .tsv формат, она же в формате .xlsx, отфильтрованная, но всё равно генов многовато.

В таблице координаты начала первого кодона ATG указаны как Thickstart если на прямой цепи, и ThickEnd – если на обратной.

1b python

     python -m pip install requests
     [Requests is an elegant and simple HTTP library for Python, built for human beings. https://docs.python-requests.org/en/latest/]

Чтобы найти нужный нукл. участок из базы данных необходимо ввести следующую команду:

https://rest.ensembl.org/sequence/region/human/{номер хромосомы}:{thickStart}..{thickEnd}:{ прямая или обратная цепь : 1, -1}?expand_3prime={кол-во нуклеотидов после стоп -кодона};expand_5prime={кол-во нуклеотидов перед ATG}

Например, для гена из таблицы найдем последовательность гена + 10 букв от старт-кодона:

https://rest.ensembl.org/sequence/region/human/1:450739..451678:-1?expand_3prime=0;expand_5prime=10

Внизу приведен пример кода, для автоматического скачивания фрагмента генома:

import requests, sys
server = “https://rest.ensembl.org”

ext = "/sequence/region/human/X:1000000..1000100:1?expand_3prime=60;expand_5prime=60"

r = requests.get(server+ext, headers={ "Content-Type" : "text/x-fasta"})

if not r.ok:
    r.raise_for_status()
    sys.exit()
print(r.text)

Координаты описываются в переменной ext. В примере геном человека, хромосома X, 1 = + цепочка (бывает -1) расширить координаты на 60 нукл с 3' и 5’ концов.

найдёте как тот же пример выполнить с помощью bash команд curl или wget. Проверил – тоже работает. Там же есть описание параметров для скачивания.

  1. Тестовая выборка
    • (1) такие же фрагменты для других генов человека (2) 11 генов SARS-CoV-2 + не действующие ATG

Для проверки напишите программу, которая на вход получает PWM и набор последовательностей, в данном случае, фрагментов 7+3+3, на выходе – веса каждого из фрагментов относительно PWM. В этом задании я не программирование проверяю. Поэтому можно использовать программу написанную другим студентом (или ещё кем-то), конечно с указанием автора.

Хотел найти в интернет, там полно программ и сервисов для этого, но все они делают много ещё чего. Ещё познакомитесь с ними:)

Задание 3

Нужна ссылка на файл с результатом: матрицей с информационными содержаниями отдельных букв и колонок; итоговое информационное содержание сигнала; картинка LOGO; одну фразу, характеризующую силу сигнала. Из представленных данных проверяющий должен иметь возможность проверить примененную форму!

Сервис для LOGO: Web LOGO 3

2020/4/hints6 (последним исправлял пользователь aba 2022-04-03 08:48:06)