18.07 С уже известными функциями можно творить форменную дичь. Лектор предлагает замахнуться на моделирование случайн...

пятница, 29 июля 2022

17:32

Demon KARASik

ррррр
18.07
С уже известными функциями можно творить форменную дичь. Лектор предлагает замахнуться на моделирование случайного процесса. *в консольке лектора многоуровневое if страшнаа* Приложение данного метода - физика элементарных частиц. есть у нас одномерное пространство от -10 до 10, частица свободно прыгает и с некоторой вероятностью п может поглотиться. общее количество переходов ограничим 200 шагами. внутренности функции. Берём стартовую позицию частицы в центре обозначенного нами интервала. рассчитывае вероятность поглощения. Если оно произошло, то симуляция заканчивается. Если нет, делаем один случайный переход. Выход вправо или влево - это преодоление установленного нами барьера и на этом симуляция также заканчивается. Если это переход привёл к выходу в одну сторону, то пишется одно уведомление, если в другую, то другим. Так как нас интересуют несколько показателей, то результатом будет список, в котором будет строка статус (поглощение, выход влево или вправо), позиция частицы и шаг, на котором произошло событие. Если за максимальное количество шагов поглощения не произошло, то выводим отдельное сообщение. то есть выходов из симуляции 4 штуки.

22.07
р это живой и динамичный язык, который стараниями табунов разрабов постоянно обновляется. Лектор хочет рассмотреть связку, которую он назвал самой современной tidyr dplyr.
Концепция "tidy data" (вольный перевод - опрятные данные). В статистике форма записи данных в табличном виде отражает две идеи: столбец - переменная (фактор), строка - наблюдение (значение фактора). форма удобная для стат данных потому что р разрабатывался на статистику, р может датафреймы векторизировать (использовать свои мощности на дф с учётом векторизации). не во всех областях анализа данных это удобно и применимо. tidyr отвечает за "опрятность" данных. ggvis ggplot2 dplyr пера того же человека, что создал tidyr.
Возможности tidyr.
рассматривать будем на простейшем наборе данных (можно создать самому, если скучно), под этим подразумевается простой воображаемый эксперимент. группе людей предлагается два типа лекарств в разные временные точки. так вот, такие данные не являются tidy, здесь в одной и той же переменной неявным образом спрятаны тип лекарства и время их приёма, что противоречит концепции tidy data. юзаем пакет tidyr для вычёсывания полученного датафрейма. первая связка - скомкать и разбросать (gather-spread). или из широкого формата в длинный (оба названия должны быть в кавычках) (wide to long). вторая команда используется реже, поэтому про неё лектор говорить ничего не будет. результат выполнения gather похож на таблицу с описательной статистикой в STATISTICA. Вторая связка - разделить и объединить (separate-unite). сепаратор встречается чаще. разделяет переменную, в которой содержатся два фактора, на две. в аргументах: датафрейм для надругательства, название переменной, вектор значений, которыми обзывать, разделитель (пробел, нижнее подчёркивание, или что там у тебя). Полученный датафрейм и есть tidy data и с ними будет работать следующий пакет.
dplyr. куча всего, которые могут преобразовывать данные как угодно (наверное). функция select - выбор данных из дф по столбцам. первый аргумент - дф, следующие - могут воспроизводиться без кавычек. вместо названия переменных можно вносить номера столбцов, можно использовать регулярные выражения (starts_with, contains), можно делать отрицательную индексацию. filter устроена похоже, разница в действии: селект действует по столбцам, фильтр по строками. в базовом р есть функция subset, которая принимает условия либо на строки либо на столбцы. функция arrange. сортирует дф по нескольким переменным. сортировку можно делать как по возрастанию, так и по убыванию (литера -), а ещё по нескольким переменным. функция mutate. создание или изменение переменных. связка функций group by и summarise. создаёт новую переменную на основе аргументов. Всё что выше можно сделать и на основе базы, прелесть данных пакетов в единообразии вывода. аналог dplyr это data.table.

25.07
Конвейерная форма записи (связано с dplyr) с использованием %>% вот такой срани. вопрос стиля, нежели чего-то ещё. поясним на примерах. есть у нас датафрейм с двумя переменными тип и значение. нам надо просуммировать значения в зависимости от типа и отсортировать по убыванию. если хотим использовать dplyr, юзаем три вложенных вызова (arrange -> summarise -> group_by). последний вызов в этой связке выполняется первым, что немного странно для восприятия. аргумент последней функции находится далеко от неё самой, что тоже странно. Второй вариант в этом случае - в котором мы будет создавать новый дф на каждом шаге (или его перезапись). но в этом случае мы плодим море сущностей или портим дф (особенно стрёмно когда бекапов не делаешь). а теперь возникает конвейер. у каждой функции свои родные аргументы, функции расположены в том порядке, в котором применяются, дф не переписывается, сущности не плодятся, дф упоминается один раз и всё. красота.
Эквивалентная запись. x %>% f = f(x). x %>% f(y) = f(x, y). x %>% f(y, param = .) = f(y, param = x) (в последнем случае точка обозначает место, куда х надо подсунуть, в остальных х стоит первым)
и снова птички! всё, что мы делали средствами базового р переделаем под dplyr. (использовать или нет все эти пакеты - дело вкуса) это можно делать многими разными путями, не плодя ненужных сущностей.

Ключевые объекты и понятия. Переменные, окружения, операторы, справка. Управляющие конструкции и пакеты. Векторы, типы векторов, правила переписывания, векторизация. Матрицы, списки, дата фреймы. Семейсвто apply. Типичные этапы предобработки данных. Факторы, строки, регулярные выражения. Функции, разбор аргументов, эллипс (...), generic функции. Концепция tidy data (причёсанные?).
А что дальше? оттачивать навыки. Можно визуализировать (базовый р, гыгыплот2, латекс), методы и алгоритмы в разных областях, разработка и поддержка пакетов, параллельные алгоритмы и визуализация кода (не для твоего скудного умишки). Ну и плюс книга Advanced r.

ВСЁ

ррррр_стат

@темы: мысли вслух, жизненное, ужасные мерзости