Основи статистичного аналізу даних. Ряди даних

Про матеріал
Основи статистичного аналізу даних. Ряди даних. Інструктаж з БЖД Вам уже відомо з курсу алгебри 9-го класу, що в багатьох дослідженнях для аналізу даних, установлення певних закономірностей, формулювання висновку, надання рекомендацій, прогнозування тощо потрібно використати багато даних. Ви знаєте, що методи отримання, опрацювання й аналізу даних, які характеризують масові явища, вивчає наука статистика (лат. status — стан).
Перегляд файлу

 

_____________________

І група

 

_____________________

ІІ група

 

Тема. Основи статистичного аналізу даних. Ряди даних.  Інструктаж з БЖД

Вам уже відомо з курсу алгебри 9-го класу, що в багатьох дослідженнях для аналізу даних, установлення певних закономірностей, формулювання висновку, надання рекомендацій, прогнозування тощо потрібно використати багато даних. Ви знаєте, що методи отримання, опрацювання й аналізу даних, які характеризують масові явища, вивчає наука статистика (лат. status — стан).

Так, наприклад, для аналізу тенденцій змінення маси учнів 10-х класів України за останні роки, ризику серцевих захворювань людей певного віку на планеті, популярності продуктів харчування серед населення певного регіону потрібно проаналізувати сотні тисяч або навіть мільйони даних.

Зрозуміло, що провести зважування, вивчити історії хвороб, провести анкетування сотень тисяч або навіть мільйонів людей практично неможливо. Тому для аналізу створюють певну вибірку об’єктів дослідження, тобто з усієї множини об’єктів дослідження відбирають певну кількість і на ній проводять дослідження. Чим більше така вибірка, тим точніше буде проведено аналіз і зроблено відповідні висновки. Тобто вибірка повинна бути масовою.

Але не тільки кількість даних у вибірці визначає рівень точності аналізу і висновків. Так, у першому і другому з наведених вище прикладів доцільно вибирати людей різних регіонів і різної статі, а у третьому — людей різного віку. Кажуть, що вибірка даних має бути репрезентативною (франц. representatif — показовий, характерний, типовий).

Дані, отримані з дослідженої вибірки, найчастіше заносять у таблицю. Така форма подання даних з вибірки зручна для їх аналізу та прогнозів. Дані з кожного рядка і стовпця такої таблиці утворюють ряди даних.

Тенденція — це напрям розвитку, схильність, спрямованість.

Розглянемо кілька прикладів вибірок і рядів даних.

У таблиці подано результати виступів команди учнів України на міжнародних олімпіадах з інформатики з 2005 по 2017 рік. Тут вибіркою є вказані в таблиці роки, а рядами даних — загальна кількість медалей у ці роки, а також кількість золотих, срібних і бронзових медалей у вказані роки.

Зауважимо, що Україна бере участь у таких олімпіадах, починаючи з 1992 року. Команда кожної країни складається із чотирьох учнів. У 2016 році команда України не брала участі у такій олімпіаді.

За цими рядами даних або за деякими з них можна побудувати графіки або діаграми і візуалізувати їх, використовуючи, наприклад, табличний процесор.

Результати виступу команди учнів України на міжнародних олімпіадах з інформатики за 2005–2017 роки

https://lh5.googleusercontent.com/-0V7AESHDnIk_VE_pm0NJ0nOBu91gaqVh2Z-irahj-oPQfo4causl7gDgWTM0mJGPIYfnw0ixC-rQbzbn6IieItr2mxsMniNfq2Ucmf3AXyX5nICNA=w874

На малюнку подано діаграму динаміки посівних площ соняшнику в Україні в 1998–2015 роках і графік врожайності соняшнику в Україні за ці роки. Тут вибіркою є 2005–2017 роки, а рядами даних — посівні площі та врожайність соняшнику в ці роки.

Як приклад розглянемо роботу синоптичної служби. Синоптична служба збирає і зберігає дані про температуру, опади, атмосферний тиск та інші показники вже понад 160 років.

Для прогнозування температури та ймовірності опадів у Львові в першій декаді червня наступного року для проведення екскурсії потрібно вибрати відповідні дані, наприклад, за останні 10–15 років саме про Львів і саме про першу декаду червня, проаналізувати отримані два ряди даних (про температуру і кількість опадів) і зробити відповідний прогноз погоди.

https://lh4.googleusercontent.com/4H6Awa8bW3Oh4jLLgu4VzxxuRiM828w5Gm9J0RGYn4ImlbCUu3gtlRWntGfthvwRPW-s3DQX526kXxyokp0jR1__b81k1hahIH7gmGCBVhTn8fqWBB93=w572

ДЕЯКІ СТАТИСТИЧНІ ХАРАКТЕРИСТИКИ РЯДУ ДАНИХ|

Розглянемо деякі статистичні характеристики ряду даних: середнє арифметичне. стандартне відхилення, мода і медіана.

Ви знаєте, що середнім арифметичним n чисел називається сума цих чисел, поділена на число n.

Так можна знайти середнє арифметичне врожайності соняшнику в Україні за 2006-2015 роки, використовуючи, наприклад, табличний процесор. Для обчислення середнього арифметичного в табличному процесорі можна використати відому вам функцію AVERAGE (англ. avеragе — середній), Нагадаємо, що аргументами цієї функції може бути діапазон клітинок, список клітинок, а також їх комбінації,наприклад AVERAGE(B2:D5; F4; E7). На малюнку 2,8 наведено приклад обчислення середньої врод-кайності соняшнику за 2006-2015 роки і формулу для її обчислення =AVERAGE(C3:C12).

Обчислене в наведеному прикладі середнє арифметичне визначає,яка б була врожайність кожного року (1.67 T/ra), якшо вона щороку була б однаковою. Аналогічно середнє арифметичне будь-якого ряду даних визначає, які б були значення в цьому ряді, якщо б вони всі були однакові. Зазначимо, що не для всіх рядів даних середнє арифметичне є показовою характеристикою самого цього ряду.

https://lh5.googleusercontent.com/PrX3e79292qNtF2hylN1EVcnNuNE4ngoJsk4qU7ydSG6Gx_tnCiJECw3V4XOYYjfxSiblUyr0yF5xsou2wL_bKInelJk7YIx0CYkih5MdhMmAC5QY5c=w371

Обчислення середньої врожайності соняшнику за 2006-2015 роки

Наприклад, для ряду даних 2.5; 2.8; 2.3; 2.55; 2.47, у якому дані незначно відрізняються одне від одного, середнє арифметичне дорівнює 2.524, що незначно відрізняється від усіх членів цього ряду, а значить, достатньо показово характеризує весь цей ряд даних. А для ряду 4.7; 6.2; 5.1; 12.4; 14.1, у якому дані значно відрізняються одне від одного, середнє арифметичне дорівнює 8,5, що значно відрізняється від усіх членів цього ряду, а значить, недостатньо показово характеризує весь цей ряд даних.

Для визначення, наскільки показово середнє арифметичне ряду даних характеризує весь ряд даних, можна використати таку характеристику ряду даних, як стандартне відхилення. Стандартно відхилення характеризує, наскільки широко розташовані значення ряду даних відносно їх середнього арифметичного.

Стандартне відхилення обчислюється за формулою:

Обчислення основних статистичних характеристик вибірки засобами електронного процесора

Пригадайте можливості електронного процесора. Наведіть приклади використання автоматизованого опрацювання табличних даних.

Розглянемо, як можна використовувати програмний засіб MS Excel для обчислення статистичних даних на прикладі.

https://lh5.googleusercontent.com/odMbReEjofQmCrFOZRDPIzv5-c0ilWo4CqxEmpTmoFJCigRjEkwp_6E0xfezHlqR4RZJh-XUDsbYA5cN8zn8H7zlkoR0ilEQc8ppLyTo6_Cj21OBGfw=w773

https://lh6.googleusercontent.com/uVzFc4qg1WmZRTNcCAWAk0M6AFmIJOARH3-iKXC3zzDor7nPU0Fqi0ATGSRFj4jV4-Mh52OeVARgwrg4g0dMaYrRQyqoXyEb7fDZhFN-hy7Edzd-GiI=w371

Очевидно, що середнє арифметичне першого ряду даних менше відрізняється від усіх членів ряду даних, а значить, більш показово характеризує весь цей ряд даних.

А середнє арифметичне другого ряду даних більше відрізняється від усіх членів ряду даних, а значить, менш показово характеризує весь цей ряд даних.

Автоматизувати обчислення стандартного відхилення в табличному процесорі можна, використавши функцію STDEV.P (англ. standard deviarion — стандартне відхилення) (для версії нижче 2010 — STDEVP).

Ще однією характеристикою ряду даних є мода.

Мода — це значення в ряді даних, яке повторюється найчастіше. Таке значення є показовим, наприклад, під час дослідження цін на ринку (ціна, яка трапляється найчастіше), під час дослідження попиту взуття, одягу (розміри, які купують найбільше) та ін.

У розглянутому вище прикладі мода кількостей медалей, які вибороло учнівство України на міжнародних олімпіадах з інформатики за 2005-2017 роки, дорівнює 4 (тому, що найчастіше в ці роки команда нашої країни завойовувала 4 медалі), мода кількостей золотих медалей – 0, мода кількостей срібних медалей – l, мода кількостей бронзових медалей - 2.

Якщо в ряді даних два або більше значень повторюються найбільшу кількість разів, то кожне з них вважається модою ряду даних. Так, наприклад, у ряді даних 2, 3, З, 2, 1 модою є і число 2, і число 3.

У табличному процесорі є спеціальна функція для обчислення моди ряду даних. Обчислення стандартного відхилення в табличному процесорі якщо вона одна – MODE.SNGL (англ. mode single — мода одинарна). Аргументами цієї функцції може бути діапазон клітинок, список клітинок. а також їх комбінації, наприклад AIODE.SNGL(B2:D5; F4; E7).

На малюнку наведено приклад обчислення моди для кількостей завойованих медалей і формула для її обчислення: =MODE.SNGL(E6:E17).

https://lh4.googleusercontent.com/P_eAf_xuNs8uiEkdlJojtZqDn3zKoxxwX9MOClRXdnQDS6BTElFyCHYtxTnC0kuV1l_AYLzjk8akbKP9EthqJ3DkHPVpAvHfWR5zjSi-RtvArZCfyaOc=w472

Обчислення моди в Excel, якщо вона єдина

https://lh6.googleusercontent.com/TwIBdOQ3zqiBQHbYjUiOmwkKmsP8_nVZLy15cn4Y-byH_2vDfHoJpwpoPsCCkzzFp5ZfGN3uem4nsA4jAz6axpzf_37b7Q9_3WdHy0dmf3qFpCRK2g=w572

Розглянемо ще одну характеристику ряду даних - медіану.

Медіаною впорядкованого ряду даних називається значення, яке поділяє ряд даних на дві рівні частини, тобто зліва і справа від цього значення знаходиться однакова кількість членів упорядкованого ряду даних.

Якщо у впорядкованому ряді даних непарна кількість членів, то медіана такого ряду даних дорівнює значенню його середнього члена, а якщо в такому ряді даних парна кількість членів, то його медіана обчислюється як середнє арифметичне значень двох середніх членів.

Наприклад. для ряду даних 2; З; 5; б; 7 медіана дорівнює 5, для ряду даних 2; З; 5; б: 7; 9 медіана дорівнює (5 + 6) :2 = 5,5. а для ряду даних 2; 2; 4: 4: 4; 5; 6 медіана дорівнює 4.

Медіана використовується. наприклад. для визначення місця побудови шкіл, дитячих садочків, магазинів. підприємств побуту тощо. Потрібно визначити ряд відстаней, які мають подолати мешканці певної місцевості до цього закладу, і побудувати його в точці. яка визначається медіаною цього ряду.

У табличному процесорі є спеціальна функція для обчислення медіани ряду даних - MEDIAN (англ. median— середній). Аргументами цієї функції може бути діапазон клітинок, список клітинок, а також їх комбінації, наприклад MEDIAN(В2:D5; F4: E7).

На малюнку наведено приклад обчислення медіани ряду даних урожайності соняшнику з використанням табличного процесора за формулою =MEDIAN(С3:С12).

Звертаємо вашу увагу, що в електронній таблиці для знаходження медіани ряд даних не обов'язково має бути впорядкований. Табличний процесор спочатку впорядковує ряд даних, а потім визначає його медіану.

Зазначимо, що коли члени ряду даних незначно відрізняються одне від одного, то і середнє арифметичне, і медіана більш показово характеризують весь цей ряд.

А якщо члени ряду даних значно відрізняються одне від одного, то медіана більш показово характеризує весь цей ряд даних, ніж середнє арифметичне.

Оскільки найбільш поширені функції винесено окремо на стрічці Формули та на стрічці Основне, скористаємося останньою для обчислення значень функцій Середнє арифметичне, Максимум та Мінімум.

Розглянемо детально, як використовувати функції статистичного аналізу в MS Excel.

Група Статистичні функції знаходиться в групі Інші функції, ця сама група відображається у вікні, яке викликається командою Вставити функцію.

https://lh3.googleusercontent.com/yHSFbu0vih-Uz7x_6l6Yec2p003zGjWuN5nFXnzC0O3Pt_H3nhe235lXNmT8CwZoaCgQamHwvpeX8vPJXjMBG6LcmKK7Pp5ydHC4oWQFoTxRixbsG6E=w1175

Практична робота

Для розуміння, як використовувати функції підрахунку статистичних характеристик, виконайте практичну роботу.

https://lh4.googleusercontent.com/nDRi-Z1-yH8WoSfwRrUl0Cruj9-LhqjdtOTSD3Cg1ktIPs7mlnCnpf-pCLiy7e9NotRarFwB5mcOonHDiY9K4yF9k073J8tMYte_cv84Ztbqi28yqmI=w271

 

 _________________________________________________________________________

Практичне завдання.

Робота за комп’ютером

Вправа 1. Порівняння двох вибірок

Туристична фірма, що реалізує путівки у семи містах країни, провела рекламну кампанію. У таблиці наведено дані про кількість путівок, проданих протягом тижня до проведення рекламної кампанії та протягом тижня після неї. Потрібно, обчисливши характеристики центру та варіації розподілу, порівняти дві вибірки та зробити висновки щодо впливу рекламної кампанії на обсяги продажу путівок

Вправа 2. Порівняння двох вибірок

У таблиці подано результати змагань групи студентів з бігу на 100 м. Потрібно ранжувати студентів за цими результатами, присвоївши номер 1 студенту з найкращим резуль­татом, номер 2 — студенту з другим результатом і т. д. Також необхідно визначити, до яких результатів — високих чи низьких — тяжіє основна маса студентів

Контрольні питання

1. Які групи функцій містять функції обчислення статистичних характеристик?

2. Яким сполученням клавіш користуються для підтвердження опрацювання даних масиву?

3. Які функції містить MS Excel для обчислення моди?

4. Чому для обчислення моди резервують більше однієї клітинки?

5. Як ви розумієте «інтервал значень» як аргумент функції ЧАСТОТА? Поясніть на прикладі.

6. Яке призначення статистичної характеристики відносної частоти? У якому форматі краще аналізувати вказану характеристику: у відсотковому чи ні?

docx
До підручника
Інформатика (рівень стандарту) 10 клас (Морзе Н.В., Вембер В.П., Кузьмінська О.Г.)
Додано
3 листопада 2021
Переглядів
2783
Оцінка розробки
Відгуки відсутні
Безкоштовний сертифікат
про публікацію авторської розробки
Щоб отримати, додайте розробку

Додати розробку