Математика. Вероятность и статистика. 7-9 класс



Статистика — это наука, занимающаяся вопросами сбора, измерения, обработки, сравнения и представления данных.
Одна из задач статистики:  
поиск оптимального описания имеющихся данных
Описательная статистика (дескриптивная статистика) занимается обработкой эмпирических данных, их систематизацией, наглядным представлением в форме графиков и таблиц, а также их количественным описанием посредством основных статистических показателей.

Таблица
Таблица - это сведения о чём-нибудь, расположенные по графам.
Таблицы полезны для упорядочивания информации.
Удобно использовать таблицы, упорядоченные (сортированые) по столбцу.
Смета - это расчёт (план) предстоящих расходов на осуществление какой-либо деятельности. (в виде таблицы, потому что удобно считать)
Пример сметы:



Диаграмма
Диаграмма - чертёж, показывающий соотношение каких-нибудь величин.
Диаграммы - для удобства зрительного восприятия информации человеком.



Легенда - это подпись к диаграмме

Типы популярных диаграмм:
  • Столбчатая диаграмма
  • Линейный график
  • Круговая диаграмма
  • Возрастно-половая диаграмма (половозрастная пирамида)
  • Гистограмма
  • Географическая диаграмма
и это не все...


Столбиковая диаграмма
Столбиковая диаграмма - это способ представления данных в виде столбцов, «растущих» в заданном направлении от базовой линии.
Размеры столбцов пропорциональны значениям соответствующих элементов данных. Если значения будут отрицательными, то столбцы будут «расти» в противоположную сторону.

Столбиковая диаграмма удобна для:
  1. отображения изменения величины за период
  2. сравнение разных, но сопоставимых  данных (например по региону)
Правила столбиковой диаграммы:
  • столбики одной ширины
  • расстояние между столбиками одинаковое

Примеры столбиковой диаграммы:





Круговая диаграмма
Круговая диаграмма — это способ представления данных в виде круга, разделенного на сектора.
Каждый сектор - это категория данных, которая составляет долю от общей суммы.
Круговая диаграмма иллюстрирует как единое целое делится на части (какие пропорции у частей).

Круговые диаграммы НЕ подходят для:
  • точного представления
  • анализа данных
Как построить круговую диаграмму:
Вариант а)
Диаграмма: в классе 10 детей: 3 девочки и 7 мальчиков
круг делим на 10 равных секторов, 3 сектора займут девочки, 7 мальчики

Вариант б)
Диаграмма: на стадионе 573 человека, из них 385 болеют за Динамо, 188 за Спартак
Когда частей оч много

Круг - это 360 градусов

573 чел - 360грд
385 чел - X грд

находим X по пропорции:
X = 385*360/573 ~ 241 грд

и проводим где-то между 180 и 270 грд, точность в этой диаграмме не нужна




Возрастно-половая диаграмма
Возрастно-половая диаграмма - графическое распределение населения по возрасту и полу.
Представляет собой двухстороннюю направленную диаграмму, на которой число людей каждого возраста и пола или доля их в населении изображены горизонтальной полосой определенного масштаба.
Полосы располагаются одна над другой в порядке увеличения возраста, слева – для мужчин, справа – для женщин.
Строится обычно по годичным или 5-летним возрастным группам.

Типы возрастных структур населения:

Прогрессивный тип
В основе: расширенный тип воспроизводства (происходит при высоких показателях рождаемости и низкой смертности, в результате численность населения возобновляется в возрастающем масштабе)
Характеризуется: высокой долей детей и низкой долей старшего поколения во всём населении.  
Возрастная пирамида имеет форму: треугольника, основание которого зависит от величины рождаемости.

Стационарный тип
В основе: простой тип воспроизводства (стабильная динамика численности населения, достигается при приближенных значениях показателей рождаемости и смертности)
Характеризуется: почти уравновешенной долей детских и старческих возрастных групп
возрастная пирамида имеет форму: колокола

Регрессивный тип
В основе: суженный тип воспроизводства (рождаемость находится на таком уровне, который не обеспечивает возмещения родительского поколения. То есть сокращение численности населения из-за превышения смертности над рождаемостью.)
Характеризуется: сравнительно высокая доля пожилых и старых людей и низкая — детей
возрастная пирамида имеет форму: урны




В России проживало постоянных жителей (по оценке Росстата):
  • 146 447 424 человек - 1 января 2023 года
  • 146 203 613 человек - 1 января 2024 года (по предварительным данным)
т.е. убыло 243 811 чел., 0,16%


Половозрастная пирамида России 2023:




Основные статистические показатели
Экстремальные значения:
Наименьшее значение - минимум в наборе данных
Наибольшее значение - максимум в наборе данных
мин и макс часто попадают в набор (массив) данных по ошибке

Размах - разность между наибольшим и наименьшим значениями в наборе данных
Размах = max - min
Чем больше выборка, тем больше размах, потому что более вероятно встретить непопулярное или ошибочное экстремальное значение

Среднее арифметическое - число, равное сумме всех чисел множества, делённой на их количество
Ср. арифм. = сумма чисел/кол-во

Свойства среднего арифметического
  • Если каждое число умножить (поделить) на число A, то и ср. арифм. будет умножено (поделено) на A
  • Если к каждому прибавить (вычесть) чиcло A, то и ср арифм будет увеличено (уменьшено) на A
Медиана ряда (упорядоченного)
  • если нечетное число членов, то число посередине,
  • если четное, то нужно найти среднее арифметическое двух средних членов ряда
Важно! Сначала упорядочить ряд
Медиана - середина
Мода - наиболее часто встречающееся значение в наборе данных
бывает несколько

Мода - самое популярное значение

Случайная изменчивость
Неизменные величины встречаются очень редко.
Изменчивость в явлениях  - это обычно совокупность временных факторов и долгосрочных.
Тенденция (тренд) - характерное устойчивое изменение, как правило, обусловленное долгосрочными факторами
Примеры:
  • Напряжение 220В, но есть колебания напряжения в электросети, поэтому приборы рассчитаны на  190-250 В
  • Урожай по годам с определенного гектара. Он различен от года к году (погода, насекомые, подкормка, оборудование, персонал - временная изменчивость), но есть тенденции (улучшение подкормки, новое оборудование, более квалифицированный персонал - долгосрочные факторы)
  • Вес батончика номинальный 50гр, но если купить 20шт и замерить, то будут данные от 48-52гр, в среднем будет близко к 50гр
  • Прибыль компании зависит от множества факторов, будет меняться от года к году (новый крупный клиент, потеря старого клиента, увольнение ключевых сотрудников и тд - временные факторы), но видно тренд (переход на более современные технологии, автоматизация, развитие персонала - долгосрочные факторы)
  • Если замерять массу одного ребенка, то прибавка к в весе будет сильно скакать от месяца к месяцу. Но если измерять 1000 мальчиков и строить график на средних значениях, то мы увидим тренд.
Погрешность - случайное отклонение от истинного значения
Точность – это качество измерений, отражающее близость их результатов к истинному значению измеряемой величины.
Рассеивание выборки - стандартное отклонение в распределении выборки.
Изделие считается годным, если его параметры с допустимой погрешностью.
Стол, шкаф, дом, телефон и тд.
Для каждого изделия свои допустимые отклонения, в т.ч. и у измерительных приборов есть свои допустимые погрешности.

Источники погрешности:
  • измерительный инструмент
  • изменчивость самой величины
Часто хватает не очень точной оценки, например:
  • число жителей города измеряется в тысячах, нам не нужна точность до единиц при планировании ресурсов.
  • рост человека мы мерим в сантиметрах, нам не требуются миллиметры. Более того рост одного человека днем и вечером может отличаться
  • расстояние между городами измеряют неточно (нам ничего не скажет длина прямой линии между центрами городов), измеряют или по железной дороге, или автомобильной, или по пути самолета (измерят то, что нужно для планирования, оценки ресурсов)
Выбирать точность оценки надо так, чтобы оно не мешало дальнейшим выводам.
Чем точнее нужна оценка, тем больше ресурсов надо на оценку.

Пределы погрешности можно задать абсолютно и относительно:
абсолютная погрешность - величина в единицах измерения
250кг +- 10кг, что значит от 240кг (250-10) до 260кг (250-10)
относительная погрешность - обычно в процентах
250кг +-10%, что значит  от 225кг (250 - 250*0,1) до 275кг (250 + 250*0,1)

Частота
Частота – число повторений определенного значения параметра в выборке, на количество элементов.
Частота = кол-во повторов/кол-во элементов
0 <= Частота <= 1
  • 0 - совсем не встречается
  • 1 - если ряд только из 1 числа и других нет
Сумма частот всех значений = 1

Частоту удобно использовать, когда разных значений немного.
Например:
[1,2,3,2,2,3,1,3,2,1,3,2,3,1,4,3,2,1,2,4]  - 20 чисел
1 - встречается 5 раз => частота  5/20 (0,25)
2 - встречается 7 раз => частота  7/20 (0,35)
3 - встречается 6 раз => частота  6/20 (0,3)
4 - встречается 2 раз => частота  2/20 (0,1)
можно себя перепроверить
5+7+6+2 = 20 чисел
0,25 + 0,35 + 0,3 + 0,1 = 1

Ср.африфметическое посчитать

вариант 1.
(1+2+3+2+2+3+1+3+2+1+3+2+3+1+4+3+2+1+2+4)/20 = 
вариант 2
если точность задана в десятичных дробях (например 0,05), то удобнее так
1*0,25 + 2*0,35 +3*0,3 + 4*0,1 = 2,25
вариант 3:
если точность задана в простых дробях, удобно так (до этого привести все частоты к одному знаменателю)
(1*5 + 2*7 +3*6 + 4*2)/20 = 2,25

если много различных значений, то удобно их группировать и смотреть сколько значений входит в каждый интервал
Шаг группировки выбирают так. чтобы с одной стороны было наглядно понятно, а с другой стороны видно тенденцию и показывала характер общей изменчивости

Например:
Триальная лицензия выдается на 30 дней, после нее часть приобретает платную лицензию.
кто-то приобретает на 1 день, а кто-то на 50й
нам бы понимать в какие периоды чаще покупают, чтобы, например, простимулировать покупку рассылкой, или предложить скидку в окончательный период, когда уже точно НЕ покупают.


делать разбивку на 50 дней => неудобно будет воспринимать (а если значений 500. то тем более)
для комфортного восприятия удобнее разбить хотя бы на 10 групп по 5 дней
и посчитать частоту вхождения значения в каждую группу
всего покупок 175:
1-5 день - 10 купили (10/175)
6-10 день - 15 купили (15/175)
..итд
45-50 день - 4 купили (4/175)
и построить диаграмму (гистограму).
  • по оси Х будут интервалы
  • по оси Y будет частота
Гистограмма - диаграмма частот

Отличие гистограмм и столбчатых диаграмм в использовании разных видов шкал в переменных:
  • Гистограммы используются для переменных с непрерывными шкалами (например, год)
  • Столбчатые диаграммы — для дискретных (например, «Франция», «Россия», Великобритания)

Определения по ГОСТ Р 50779.10-2000:

2.17 гистограмма
Графическое представление распределения частот для количественного признака, образуемое соприкасающимися прямоугольниками, основаниями которых служат интервалы классов, а площади пропорциональны частотам этих классов

2.18 столбиковая диаграмма
Графическое представление распределения частот для дискретной случайной величины, образуемое набором столбцов равной ширины, высоты которых пропорциональны частотам

Выборка
Для того чтобы сделать оценку множества мы выбираем несколько элементов из этого множества.

Например:
замеры чего-то (тока например) с определенным интервалом
несколько штук изделий из партии
Выборка - часть генеральной совокупности элементов, которая охватывается экспериментом (наблюдением, опросом).
Репрезентативная выборка - это та выборка, чьи параметры соответствуют показателям всей целевой аудитории.
Чем больше выборка, тем лучше случайные отклонения компенсируют друг друга и проявляется общая тенденция. Но не обязательно ВСЕ элементы изменять, достаточно части.

Выборка также должна быть случайной. Идеальная выборка — это когда каждый элемент имеет равную вероятность попасть в число опрошенных.

Графы
Для отображения связей элементов используют графы.
Граф как математический объект есть совокупность двух множеств — множества самих объектов, называемого множеством вершин, и множества их парных связей, называемого множеством рёбер.
Граф - это изображение объектов и связей между ними. Объекты (точки) - вершины. Связи (линии) - ребра.


Изолированная вершина - вершина, из которой ни исходит ни одно ребро (нет связей).
одна одинокая точка
Например: E - изолированная вершин



Два графа называются одинаковыми, если один граф можно получить из другого, передвигая вершины.
например, вот 2 одинаковых графа. (передвигая вершины мы получим идентичные картинки)


Степень вершины (валентность вершины) - это количество исходящих из этой вершины ребер
в примере  выше:
у 3х вершин валентность = 1
у 1й вершины валентность = 3

Теорема:
В любом графе сумма степеней всех вершин - четное число.

Сумма степеней всех вершин равна = количество ребер * 2
(одно ребро заходит либо в 2 вершины, либо в 1 дважды), что есть всегда четное число
Путь (маршрут) в графе — последовательность вершин, в которой каждая вершина соединена со следующей ребром.
Путь из вершины А в вершину Б по ребрам
Цепь (простой путь) — это путь в графе, в котором каждая вершина встречается не более одного раза
Если граф состоит из одной цепи, его тоже называют цепь
Цикл в графе - замкнутый путь (крайние вершины пути совпадают), а ребра не повторяются
Если граф состоит из одного цикла, его тоже называют циклом
Связный граф - это граф, у которого любые 2 вершины связаны путем

путь (мартшрут) из 1 в 4 (из может быть несколько):
  • cbacd
  • abd
  • cd
цепи (простой путь)  в графе
  • abd
  • cd
  • dc
  • dca
  • ab
  • ba
итд


цикл в графе
  • abc

Старинная задача о 7 мостах:
как можно пройти по всем семи мостам центра старого Кёнигсберга, не проходя ни по одному из них дважды.



Впервые была решена в статье, датированной 1736 годом, математиком Леонардом Эйлером, который доказал, что это невозможно, и по ходу доказательства изобрёл эйлеровы циклы.
Эйлеров граф - это граф. в котором существует Эйлеров путь, то есть путь. проходящий ровно 1 раз по каждому ребру.
(Вершины могут повторяться)

пример эйлерова графа (существует эйлеров путь)
Теорема
Если в графе существует Эйлеров путь, то в графе не более 2 вершин с нечетной степенью


Теория вероятности

Теория вероятности - это раздел математики, который изучает случайные явления