Big Data: вплив на сучасне життя

Про матеріал
Саме словосполучення Big Data переводиться з англійської, як “великі дані”, але це не просто великі дані - це серія інструментів і методів обробки та аналізу структурованих і неструктурованих даних величезних обсягів і значного різноманіття для вилучення з них корисної інформації. Структуровані дані – це впорядковані дані, які є легкими для сприймання комп’ютером, такими є таблиці. Неструктуровані – це дані, які існують в вигляді зображень, аудіо- та відеофайлів. Всі ці данні беруться з Інтернету, GPS- навігаторів, показань датчиків, приборів, транзакцій і т.д.
Перегляд файлу

1

 

МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ

ХАРКІВСЬКІЙ ЛІЦЕЙ №161 «ІМПУЛЬС»

 

 

 

 

 

Доповідь на тему:

Big Data: вплив на сучасне життя

 

 

 

 

 

 

 

 

Підготував:

                 Колесник Валерій Володимирович

 

 

 

 

 

 

 

м. Харків - 2019


Зміст

  1.                 Що взагалі таке Big Data?
  2.                 Принцип роботи Big Data.
  3.                 Для чого це потрібно?
  4.                 Проблеми Big Data
  5.                 Висновок.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Що взагалі таке Big Data

Саме словосполучення Big Data переводиться з англійської, як великі дані, але це не просто великі дані -  це серія інструментів і методів обробки  та аналізу структурованих і неструктурованих даних величезних обсягів і значного різноманіття для вилучення з них корисної інформації.

Структуровані дані – це впорядковані дані, які є легкими для сприймання комп’ютером, такими є таблиці.

Неструктуровані – це дані, які існують в вигляді зображень, аудіо- та відеофайлів.

Всі ці данні беруться з Інтернету, GPS- навігаторів, показань датчиків, приборів, транзакцій і т.д.

Основними визначальними характеристиками для великих даних є набір ознак 3V:

  • Volume - Фізичний обсяг.
  • Velocity - Швидкість приросту даних і необхідності їх швидкої обробки;
  • Variety – Варіативність. Можливість одночасно обробляти дані різних типів.

Але згодом додалися ще Veracity(Достовірність), Value(Цінність).

 

Принципи роботи з Big Data

Основними принципами роботи з Big Data є :

  •       Горизонтальна масштабованість. Це - базовий принцип обробки великих даних. Як вже говорилося, великих даних з кожним днем ​​стає все більше. Відповідно, необхідно збільшувати кількість обчислювальних вузлів, за якими розподіляються ці дані, причому обробка повинна відбуватися без погіршення продуктивності.
  •       Відмовостійкість. Цей принцип випливає з попереднього. Оскільки обчислювальних вузлів в кластері може бути багато (іноді десятки тисяч) і їх кількість, не виключено, буде збільшуватися, зростає і ймовірність виходу машин з ладу. Методи роботи з великими даними повинні враховувати можливість таких ситуацій і передбачати превентивні заходи.
  •            Локальність даних. Так як дані розподілені по великій кількості обчислювальних вузлів, то, якщо вони фізично знаходяться на одному сервері, а обробляються на іншому, витрати на передачу даних можуть стати невиправдано великими. Тому обробку даних бажано проводити на тій же машині, на якій вони зберігаються

Ці принципи відрізняються від тих, які характерні для традиційних, централізованих, вертикальних моделей зберігання добре структурованих даних. Відповідно, для роботи з великими даними розробляють нові підходи і технології.

 

Технології та тенденції роботи з Big Data

Спочатку в сукупність підходів і технологій включалися кошти масово-паралельної обробки невизначено структурованих даних, такі як СУБД NoSQL, алгоритми MapReduce і кошти проекту Hadoop. Надалі до технологій великих даних стали відносити й інші рішення, що забезпечують подібні за характеристиками можливості по обробці надвеликих масивів даних, а також деякі апаратні засоби:

  •            MapReduce - модель розподілених паралельних обчислень в комп'ютерних кластерах, представлена ​​компанією Google. Відповідно до цієї моделі додаток поділяється на велику кількість однакових елементарних завдань, що виконуються на вузлах кластера та потім природним чином приводяться в кінцевий результат.
  •            NoSQL (від англ. Not Only SQL, не тільки SQL) - загальний термін для різних нереляційних баз даних і сховищ, що не позначає якусь одну конкретну технологію або продукт. Звичайні реляційні бази даних добре підходять для досить швидких і однотипних запитів, а на складних і гнучко-побудованих запитах, характерних для великих даних, навантаження перевищує межі допустимого і використання СУБД стає неефективним.
  •            Hadoop - вільно поширюваний набір утиліт, бібліотек і фреймворк для розробки і виконання розподілених програм, що працюють на кластерах з сотень і тисяч вузлів. Вважається однією з основоположних технологій великих даних.
  •            R - мова програмування для статистичної обробки даних і роботи з графікою. Широко використовується для аналізу графіків і фактично став стандартом для статистичних програм.
  •            Апаратні рішення. Корпорації Teradata, EMC і ін. пропонують апаратно-програмні комплекси, призначені для обробки великих даних. Ці комплекси поставляються як готові до установки телекомунікаційні шафи, містять кластер серверів і керує програмним забезпеченням для масово-паралельної обробки.

 

Для чого це потрібно?

Аналіз великих даних потрібен для того, щоб отримати нову, раніше невідому інформацію. Подібні відкриття називають інсайтами, що означає проникнення в суть, раптове розуміння.

  1.                Зберігання та управління обсягом даних в сотні терабайт або петабайт, які звичайні реляційні бази даних не дозволяють ефективно використовувати.
  2.                Організація неструктурованою інформації, що складається з текстів, зображень, відео та інші файли.
  3.                Аналіз Big Data, який ставить питання про способи роботи з неструктурованою інформацією, генерацію аналітичних звітів, а також впровадження прогностичних моделей.

Взагалі, процес роботи з Big Data включає в себе: збір інформації, її структурування, утворення інсайтів. Ще до першого етапу важливо визначити ціль роботи: навіщо вам потрібні дані, наприклад – для магазина визначити цільову аудиторію іх продукції, інакше є ризик отримати велику кількість даних, без розуміння, що з ними робити.

Прикладом гарного використання Big Data є аптечна мережа Walgreens в США, яка успішно впровадила аналіз великих даних в свою працю, таким чином, їх аналіз допоміг покращити сервіс та знизити витрати, забезпечити клієнтів як найбільш корисною інформацією, покращити їх здоров’я, допомогти лікарям виписувати правильні рецепти та заодно збільшити свій дохід. Компанія аналізує інформацію, таку як стан здоров’я клієнтів(грунтуючись на зверненнях до лікарів та виписках рецептів), демографія, поставлені діагнози та багато іншого.

В цілому, аналіз великих даних обгрунтувався на всіх сферах діяльносіті людини, найчастіше використовують в маркетингу, торгівлі, фінансових справах, фармацевтика, інноваційних технологій, та, як не дивно, в політиці. Цікавий факт про сферу політики, це успіх передвиборчої кампанії Трампа, його команда користувалася Big Data та змогла правильно дізнатися про потреби та бажання населення і згодом розробити правильний план, щоб сподобатись населенню.

На перший погляд здається, що Big Data вже всі використовують, але перший погляд як завжди оманливий. Недавній опит Gartner показав, що 73% компаній заінтересовані в Big Data, але лише 13% з них використовують цю технологію.

 

Проблеми Big Data

  •                      Висока вартість. Для того, щоб нормально працювати з великими даними, потрібно достатньо ресурсів, для їх збереження та обробки.
  •                      Проблема вибору оброблюваних даних, тобто визначення того, які дані необхідно отримувати, зберігати і аналізувати, а які - не брати до уваги.
  •                      Проблема етичності. Зчитування даних з людей без їх дозволу, втручання в їх особисте життя.
  •                      Кількість даних. З кожним роком в світі накопичується ще більше інформації, яку все складніше вдається зберігати. За минулі два роки, ми назбирали більше даних, ніж за всю історію. На 2020 рік, кількість всіх даних виросте до 44 зеттабайт(1 зеттабайт = 10¹² гігабайт).

 

Висновок

З кожним днем Big Data заполоняє весь світ, накопичується все більше і більше даних, які потрібно грамотно зберігати та аналізувати. За Big Data  стоїть велике майбутнє, завдяки вдалому використанню цієї технології, в світі буде ставати все менше проблем, стосунки споживачів та компаній ставатимуть кращими, бізнес буде процвітати.

docx
До підручника
Інформатика (рівень стандарту) 10 клас (Морзе Н.В., Вембер В.П., Кузьмінська О.Г.)
Додано
15 жовтня 2019
Переглядів
1174
Оцінка розробки
Відгуки відсутні
Безкоштовний сертифікат
про публікацію авторської розробки
Щоб отримати, додайте розробку

Додати розробку