Учебная страница курса биоинформатики,
год поступления 2024
Указания к работе в классе 18 октября 2024
Как создать таблицу CDS
Соединитесь с kodomo по ssh, зайдите в директорию ~/term1/genome
- Выполните команду, генерирующую таблицу свойств последовательностей, хранящихся в файле с CDS:
infoseq *_cds_from_genomic.fna -nocolumns -out cds.csv
Убедитесь, что файл cds.csv образовался и не пустой! Нелишне будет заглянуть внутрь (less, head, tail).
Зайдите в браузере в Google drive (нужны будут реквизиты вашего аккаунта в Google). На странице найдите кнопку "Создать" и в открывающемся меню "Google таблицы".
В окне с таблицей: Файл → Импортировать → Добавить → находите файл cds.csv (напоминаем, что ваша домашняя директория на компьютере класса отображает вашу домашнюю директорию на kodomo) → Вставка. Теперь не торопитесь! Перед вами должно появиться окошко "Импорт файла", внимательно рассмотрите его.
Выберите "Тип разделителя" — "Другой" и в окошко "Разделитель" внесите вертикальную черту (|)
Уберите галочку против слов "Преобразовывать текст в числа, даты и формулы"!
Дело в том, что практически во всех файлах,с которыми вы будете иметь дело, разделителем целой и дробной части числа служит точка, а не запятая, а Google drive при российских региональных настройках может воспринять записанное таким образом дробное число как дату (например, 14.03 не как четырнадцать целых три сотых, а как 14 марта). Поэтому импортируем всё как текст, а потом уже в таблице будем разбираться, как превратить текст в числа.- Нажмите "Импорт", должна появиться таблица
Открытие доступа к таблице CDS
- Дайте таблице имя "СDS from genome of ...", например "CDS from genome of Bacillus subtilis" (в левом верхнем углу окна, вместо "Новая таблица")
Дайте возможность преподавателям видеть и комментировать вашу таблицу. Для этого в правом верхнем углу нажмите "Настройки доступа", в верхнее окошко внесите Gmail-адреса преподавателей, справа выберите "Комментатор", нажмите "открыть доступ"
- Поместите на свою wiki-страницу ссылку на таблицу. В коде страницы ссылка должна выглядеть так:
[[https://docs.google.com/spreadsheets/d/...|CDS бактерии такой-то]]
Левее вертикальной черты (где https) нужно вставить ссылку на вашу таблицу, которая копируется в буфер кнопкой "Копировать ссылку" в том же меню "Настройки доступа".
Не забудьте сохранить изменения на wiki!
Первые действия с таблицей CDS
- Удалите неинформативные столбцы: первый столбец (USA) и все столбцы, в которых во всех ячейках пусто или одно и то же
- Переведите текст в числа:
- Выделите столбец с целыми числами (длинами, спросите, как это сделать), затем в меню "Формат" выберите "Числа" → 0
- Выделите столбец с дробными числами (процентами GC). Нажмите на клавиатуре сочетание Ctrl+H, попросите найти все точки и заменить на запятые, нажмите "Заменить все". После этого в меню "Формат" → "Числа" → "Число"
Создание столбца с длинами продуктов генов
(это уже часть домашнего задания, но кто справился с предыдущим, может делать это)
- Вставьте столбец и озаглавьте его "Protein length"
Заполните столбец формулами, вычисляющими по длине гена (столбец Length) длину продукта. Если G — длина гена, то длина продукта равна (G–3)/3. Для этого напишите формулу во второй строке, затем воспользуйтесь автозаполнением