Tải bản đầy đủ - 0 (trang)
CHƯƠNG 2: CÁC PHƯƠNG PHÁP VÀ CÔNG CỤ KHAI PHÁ DỮ LIỆU

CHƯƠNG 2: CÁC PHƯƠNG PHÁP VÀ CÔNG CỤ KHAI PHÁ DỮ LIỆU

Tải bản đầy đủ - 0trang

đó chúng ta cần phải biến đổi chúng thành các hình thức thích hợp.

Bước 4) Khai phá dữ liệu: đây là giai đoạn chính, trong đó các phương pháp phân

tích dữ liệu phù hợp sẽ được áp dụng để trích xuất ra các mẫu dữ liệu dựa vào các tập

dữ liệu ban đầu.

Bước 5) Trình diễn: sử dụng các kỹ thuật, cơng cụ để biểu diễn trực quan hố dữ

liệu được khai phá cho người sử dụng.

2.1.2. Ưu điểm của khai phá dữ liệu với các phương pháp khác

2.1.2.1. Học máy (machine learning)

Phương pháp học máy đã có nhiều cải tiến để phù hợp hơn với khai phá dữ liệu,

tuy nhiên sự khác biệt giữa thiết kế, các đặc điểm của cơ sở dữ liệu làm cho học máy

trở nên không phù hợp, mặc dù hiện nay đa phần các phương pháp khai phá dữ liệu

vẫn dựa trên nền tảng của phương pháp học máy. Các phương pháp trong máy học cần

được phát triển để phù hợp với các yêu cầu và thách thức của khai phá dữ liệu. Đầu

tiên là tập dữ liệu có độ nhiễu cao, yêu cầu đặt ra cho một giải thuật đối với tập dữ liệu

bị nhiễu trở nên quan trọng hơn. Thứ hai là kích thước lớn của các tập dữ liệu cần xử

lý, các tập dữ liệu trong khai phá dữ liệu thường có kích thước lớn. Trong thực tế, kích

thước của các tập dữ liệu trong khai phá dữ liệu thường ở mức Tera-byte. Với kích

thước như thế, thời gian xử lý thường cực kỳ dài. Vì vậy, việc vận dụng các kỹ thuật

nhằm cải tiến các giải thuật để tạo ra các phiên bản phù hợp với những yêu cầu mới

của khai phá dữ liệu trở nên quan trọng.

Trong hệ quản trị cơ sở dữ liệu, một cơ sở dữ liệu là một tập hợp dữ liệu được liên

kết logic với nhau, lưu trữ dữ liệu trong một hay nhiều file và được tổ chức lưu trữ,

sửa đổi và truy xuất thông tin hiệu quả và dễ dàng. Trong học máy, thuật ngữ cơ sở dữ

liệu là nói tới một tập các mẫu dữ liệu được lưu trong một tệp. Một thuật tốn sẽ sử

dụng tập dữ liệu và thơng tin đi kèm tập dữ liệu đó làm đầu vào và kết quả đầu ra cho

việc học.

Với đặc điểm của cơ sở dữ liệu trong học máy được đề cập, có thể thấy học máy có

khả năng áp dụng trên tệp các bản ghi của cơ sở dữ liệu. Tuy nhiên, quá trình phát hiện

tri thức trong cơ sở dữ liệu (knowledge discovery in database – KDD) làm tăng thêm

các khó khăn vốn đã là điển hình trong học máy và vượt quá khả năng của học máy.

Trong thực tế, cơ sở dữ liệu thường động, không đầy đủ, bị nhiễu và lớn hơn nhiều so

với các tập dữ liệu học máy, điều này làm cho đa phần các thuật toán học máy hầu hết

không hiệu quả. Do vậy, trong khai phá dữ liệu cần tập trung xử lý những vấn đề này

trong cơ sở dữ liệu.

2.1.2.2. Phương pháp hệ chuyên gia

Các hệ chuyên gia sẽ nắm bắt các tri thức trong một bài toán cụ thể. Các kỹ thuật

thu thập giúp các chuyên gia trong việc khai thác tri thức, mỗi phương pháp là kỹ thuật

9



xây dựng các tập luật. Các ví dụ chun gia đưa ra có giá trị cao hơn nhiều so với dữ

liệu trong cơ sở dữ liệu. Hơn nữa, các chuyên gia sẽ xác nhận giá trị và sự hữu dụng

của các mẫu được phát hiện. Ở phương pháp này đòi hỏi có sự tham gia của con người

mà cụ thể là các chuyên gia với kinh nghiệm của mình trong việc phát hiện tri thức.

2.1.3. Những khó khăn trong khai phá dữ liệu

Khi khai phá dữ liệu gặp phải những thách thức sau đây:

- Cơ sở dữ liệu lớn: Kích thước của cơ sở dữ liệu được xác định thông qua số lượng

các mẫu tin, các thuộc tính (hay các biến) và các bảng, số lượng có thể là hàng trăm

thuộc tính và bảng, hàng triệu các mẫu tin. Như vậy, kích thước của cơ sở dữ liệu tính

bằng terabyte đã bắt đầu xuất hiện. Dữ liệu với số chiều cao (tương ứng với thuộc tính

khi biểu diễn qua khơng gian các mẫu dữ liệu) làm gia tăng kích thước khơng gian tìm

kiếm trong mơ hình quy nạp. Khi xây dựng mơ hình chỉ một tập con trong cơ sở dữ

liệu tham gia, do vậy trong các thuật toán khai phá là các mẫu dữ liệu tìm được đơi khi

khơng có giá trị đại diện chung cho toàn bộ cơ sở dữ liệu. Một giải pháp cho vấn đề

này là giảm bớt số chiều của bài toán và sử dụng tri thức trước (prior knowledge) để

nhận biết các biến ít liên quan.

- Vấn đề over-fitting: Khi thuật tốn khai phá tìm kiếm với các tham số tốt nhất cho

một mơ hình đặc biệt và một giới hạn của tập dữ liệu, mơ hình ấy có thể over-fitting

trên tập dữ liệu ấy nhưng lại thi hành khơng chính xác trên tập dữ liệu được kiểm tra.

Một giải pháp thường được sử dụng là thẩm định chéo.

- Dữ liệu và tri thức được cập nhật, thay đổi: Dữ liệu thay đổi nhanh chóng theo

thời gian dẫn đến những mẫu dữ liệu đã được khai phá trước đây khơng còn giá trị.

Thêm vào đó, các biến đã được đo trong cơ sở dữ liệu bị thay đổi, bị xóa hoặc đã tăng

lên với một độ đo mới. Điều này có thể được thực hiện bằng cách gia tăng các phương

thức cập nhật mẫu và xem xét các thay đổi cho việc khám phá bằng việc sử dụng nó để

xử lý thích hợp việc tìm kiếm các mẫu chỉ với sự thay đổi.

- Dữ liệu thiếu và nhiễu: Đây là vấn đề rất được quan tâm trong khai phá dữ liệu,

việc dữ liệu thiếu và nhiễu thường dẫn đến việc dự đốn thiếu chính xác.

- Tích hợp với hệ thống: Hệ thống khai phá dữ liệu thực sự là hữu ích khi phải

được tích hợp với cơ sở dữ liệu thông qua các giao diện như truy vấn, bảng tính và các

cơng cụ trực quan khác. Hơn nữa, phải tạo ra một môi trường thuận lợi cho việc tương

tác với người dùng.

2.2. Các kỹ thuật khai phá dữ liệu

Các nhiệm vụ của khai phá dữ liệu gồm hai phần: dự đoán (predictive) được sử

dụng để dự đoán các giá trị tương lai của cùng hoặc một tính năng khác và mơ tả

(descriptive) tìm các mơ hình thú vị và dễ diễn giải của con người [6]. Trong nội dung

luận văn, học viên sẽ đề cập đến bốn kỹ thuật khai thác dữ liệu: Hồi quy (regression);

10



kết hợp (association); phân lớp (classification); phân cụm (clustering).

2.2.1. Hồi quy (Regression)

Phân tích hồi quy được sử dụng để mơ hình hóa mối quan hệ giữa một biến độc lập

và biến phụ thuộc. Phương pháp này cho phép chúng ta thu được những kết quả tốt

nhất về mối quan hệ chân thực giữa các biến số. Từ phương trình ước lượng này, có

thể dự báo về giá trị của biến phụ thuộc (chưa biết trước giá trị) dựa vào giá trị cho

trước của biến độc lập (đã biết trước giá trị).

Dưới đây là một số ví dụ:

- Dự đốn doanh thu của một sản phẩm mới dựa trên các sản phẩm bổ sung;

- Dự đoán ung thư dựa trên số lượng thuốc lá tiêu thụ, thực phẩm bị tiêu hao, độ

tuổi;

- Dự đoán chuỗi thời gian của thị trường chứng khoán và các chỉ số.

Phương trình thể hiện các mối quan hệ trong hồi quy: 𝑦 = 𝐹 (𝑥, 𝜃) + 𝑒, cho thấy

hồi quy là q trình ước tính giá trị mục tiêu y trong một hàm F gồm một hoặc nhiều

biến dự đoán (𝑥1 , 𝑥2 , … , 𝑥𝑛 ), một tập các tham số (𝜃1 , 𝜃2 , … , 𝜃𝑛 ), và một số đo lỗi (e).

2.2.1.1. Hồi quy tuyến tính (linear regression)

Một kỹ thuật hồi quy tuyến tính có thể được sử dụng nếu mối quan hệ giữa các yếu

tố dự đốn và kết quả có thể xấp xỉ bằng một đường thẳng.



Hình 2.2. Tuyến tính hồi quy với một dự đốn duy nhất

Hồi quy tuyến tính với một dự báo đơn có thể được biểu diễn bằng phương trình:

𝑦 = 𝜃2 𝑥 + 𝜃1 + 𝑒,



(1.2)



trong đó: θ2 là độ dốc của đường thẳng, góc giữa điểm dữ liệu và đường hồi quy, θ1

là điểm đánh dấu y, điểm mà x vượt qua trục y (x = 0).

2.2.1.2. Hồi quy tuyến tính đa biến

Hồi quy tuyến tính đa biến đề cập đến hồi quy tuyến tính với hai hoặc nhiều biến

dự đoán (𝑥1 , 𝑥2 , … , 𝑥𝑛 ). Khi sử dụng nhiều dự đoán, đường hồi quy không thể được

11



hiển thị trong không gian hai chiều. Tuy nhiên, dòng này có thể được tính tốn bằng

cách mở rộng phương trình cho hồi quy tuyến tính dự đoán đơn để bao gồm các tham

số cho từng biến dự đoán.

𝑦 = 𝜃1 + 𝜃2 𝑥1 + 𝜃3 𝑥2 + … … … + 𝜃𝑛 𝑥𝑛−1 + 𝑒



(1.3)



Trong hồi quy tuyến tính đa biến, tham số hồi quy được gọi là hệ số. Khi xây dựng

một mơ hình hồi quy tuyến tính đa biến, thuật tốn tính tốn một hệ số cho từng biến

dự báo được sử dụng bởi mơ hình. Hệ số là thước đo tác động của dự báo x trên mục

tiêu y.

2.2.1.3. Hồi quy phi tuyến

Bình thường mối quan hệ giữa x và y khơng phải luôn được xấp xỉ bằng một đường

thẳng. Trong trường hợp này, một kỹ thuật hồi quy phi tuyến có thể được sử dụng.

Ngồi ra, dữ liệu có thể được xử lý trước để tạo mối quan hệ tuyến tính. Mơ hình hồi

quy phi tuyến xác định y là một hàm của x sử dụng một phương trình phức tạp hơn

phương trình hồi quy tuyến tính.



Hình 2.3. Mơ hình hồi quy phi tuyến tính

2.2.1.4. Hồi quy phi tuyến đa biến

Hồi quy phi tuyến tính đa biến đề cập đến hồi quy phi tuyến với hai hoặc nhiều yếu

tố dự đoán (𝑥1 , 𝑥2 , … , 𝑥𝑛 ). Khi sử dụng nhiều dự đốn, mối quan hệ phi tuyến khơng

thể được hình dung trong khơng gian hai chiều.

Các kỹ thuật phân tích hồi quy rất hữu ích trong khoa học dữ liệu và thuật ngữ "hồi

quy logistic" (logistic regression), xuất hiện gần như ở mọi khía cạnh trong lĩnh vực

này. Điều này, đặc biệt đúng với trường hợp do tính hữu ích và sức mạnh của mạng

nơ-ron sử dụng kỹ thuật dựa vào hồi quy để tạo ra những chức năng phức tạp mà bắt

chước chức năng của bộ não người.

2.2.2. Kết hợp (Association)

Phát hiện quy tắc kết hợp là một phương pháp mô tả quan trọng trong khai thác dữ

liệu [11]. Đó là một phương pháp rất đơn giản, nhưng được đánh cao về mức độ thông

12



minh và đưa ra kết quả dự đốn chính xác. Kỹ thuật của phương pháp là phát hiện và

tìm ra trong tập dữ liệu cần khai phá những mối liên hệ giữa các giá trị [11]. Đầu ra

của phương pháp này là tập luật kết hợp tìm được từ tập dữ liệu ban đầu [11].

Ví dụ, những khách hàng mua ngũ cốc tại cửa hàng tạp hóa thường sẽ mua kèm

sữa. Trong thực tế, phân tích kết hợp có thể tìm ra 85% các lần kiểm tra hành vi mua

sắm của khác hàng mua ngũ cốc sẽ bao gồm sữa.

2.2.3. Phân lớp (Classification)

Phân lớp là một kỹ thuật khai phá dữ liệu mà gán các mục trong một bộ dữ liệu để

nhằm mục tiêu phân loại [11]. Mục tiêu của phân lớp là dự đốn chính xác lớp mục

tiêu cho từng trường hợp dữ liệu.

Một kỹ thuật phân lớp bắt đầu với một tập dữ liệu trong đó các phép gán lớp được

biết. Ví dụ, một mơ hình phân lớp dự đốn rủi ro tín dụng có thể được phát triển dựa

trên dữ liệu quan sát của nhiều người nộp đơn vay trong một khoảng thời gian. Ngồi

xếp hạng tín dụng lịch sử, dữ liệu còn theo dõi lịch sử việc làm, quyền sở hữu nhà

hoặc cho thuê, số năm cư trú, số lượng và loại hình đầu tư, v.v… Xếp hạng tín dụng sẽ

là mục tiêu, các thuộc tính khác sẽ là các yếu tố dự báo và dữ liệu cho từng khách hàng

sẽ tạo thành một trường hợp.

2.2.4. Phân cụm (Clustering)

Phân cụm cơ sở dữ liệu là tương tự như phân lớp, nghĩa là chúng ta xác định các

yếu tố trong một tập dữ liệu có đặc điểm chung và nhóm chúng lại với nhau dựa trên

những đặc điểm chung này [11]. Sự khác biệt với phân cụm, chúng ta để các thuật tốn

xác định các nhóm dựa vào lựa chọn một hoặc thậm chí tất cả các dữ liệu có sẵn, trong

khi với phân lớp chúng ta đã có các nhóm được định nghĩa. Sự khác biệt này cũng

được xác định là có giám sát (phân lớp) so với khơng có giám sát (phân cụm).

Phân cụm là kỹ thuật tìm ra các cụm dữ liệu có đặc điểm tương tự nhau trong tập

dữ liệu cần khai phá. Các thành viên của một cụm giống nhau hơn so với các thành

viên của các cụm khác. Mục đích của phân cụm là tìm các cụm chất lượng cao sao cho

độ tương đồng giữa các cụm thấp và tương đồng của dữ liệu trong cụm cao. Phân cụm

hữu ích cho việc khám phá dữ liệu. Nếu có nhiều trường hợp dữ liệu khơng có nhóm

rõ ràng, thuật tốn phân cụm có thể được sử dụng để tìm nhóm tự nhiên. Phân cụm

cũng có thể phục vụ như là một bước tiền xử lý dữ liệu hữu ích để xác định các nhóm

thuần nhất và xây dựng các mơ hình được giám sát.

2.3. Dữ liệu chuỗi thời gian (time series data)

Dữ liệu trong khai phá dữ liệu gồm nhiều loại: dữ liệu bảng (table data), dữ liệu

chéo (cross sectional data), dữ liệu chuỗi thời gian,… Định hướng phân tích của luận

văn trên tập dữ liệu của Google Flu Trends là dạng dữ liệu chuỗi thời gian, tập dữ liệu

này ghi nhận về diễn biến dịch cúm của các nước trên thế giới từ năm 2003 – 2015,

13



nên luận văn giới thiệu kiểu dữ liệu chuỗi thời gian.

Dữ liệu chuỗi thời gian là chuỗi các giá trị đo một đại lượng nào đó và giá trị đó

được ghi nhận theo diễn biến thời gian. Chúng ta có thể hiểu chuỗi dữ liệu thời gian là

một dãy các vector hoặc một dãy các giá trị phụ thuộc vào các mốc thời gian:

{𝑥 (𝑡0 ), 𝑥 (𝑡1 ), 𝑥 (𝑡2 ), … , 𝑥 (𝑡𝑖−1 ), 𝑥(𝑡𝑖 ), 𝑥 (𝑡𝑖+1 ), … }. Việc phân tích dữ liệu chuỗi thời

gian chính là việc tìm ra mối liên hệ giữa P và tương ứng với giá trị 𝑥(𝑡), ta có cơng

thức như sau: 𝑃 → 𝑥(𝑡).

Ta thấy nhiều ví dụ về dữ liệu chuỗi thời gian như: số lượng người mắc cúm diễn

biến theo thời gian, số liệu thu nhập bình quân đầu người của Việt Nam diễn biến qua

nhiều năm,..… Có thể chia dữ liệu chuỗi thời gian thành hai dạng: rời rạc và liên tục.

Các chuỗi dữ liệu có thời gian khơng liền mạch kéo theo dữ liệu khơng liền mạch đó là

chuỗi dữ liệu rời rạc. Với dữ liệu đảm bảo tính liên tục, t là các mốc thời gian và

𝑥 (𝑡 ) là các dữ liệu tương ứng với thời gian t đó là chuỗi dữ liệu liên tục.

Với đặc điểm của tập dữ liệu dịch bệnh cúm do Google Flu Trends là các số liệu

được ghi nhận theo diễn biến thời gian, và giá trị các số liệu chỉ có một thuộc tính duy

nhất là số ca mắc cúm. Sự tương quan của các dữ liệu trong tập dữ liệu ở đây là sự

biến đổi dữ liệu theo thời gian. Chính vì vậy, qua phân tích chi tiết các phương pháp

khai phá dữ liệu ở phần trên, luận văn quyết định lựa chọn phương pháp phân tích hồi

quy trên tập dữ liệu thời gian (time series regression), với hai đặc tính của hai biến:

biến độc lập và biến phụ thuộc, được thể hiện tương quan giữa thời gian và số ca mắc

cúm tại thời điểm tương ứng.

2.4. Các công cụ, phần mềm hỗ trợ khai phá dữ liệu

Các phần mềm hỗ trợ khai phá dữ liệu rất đa dạng, trong phạm vi luận văn này chỉ

đề cập tới một số phần mềm đang thông dụng, đang sử dụng rộng rãi. Trên cơ sở đó,

nghiên cứu, lựa chọn một cơng cụ phù hợp và áp dụng trên tập dữ liệu dịch bệnh cúm

do Google Flu Trends công bố. Các công cụ đã được luận văn nghiên cứu đề cập:

- Phần mềm Weka;

- Phần mềm phân tích số liệu SPSS;

- Phần mềm phân tích thống kê R.

2.4.1. Phân tích số liệu bằng phần mềm Weka

Weka (viết tắt của Waikato Environment for Knowledge Analysis) là một công cụ

khai thác dữ liệu ban đầu được phát triển tại Đại học Waikato tại New Zealand [12].

Weka bắt đầu như là một dự án chính phủ tài trợ vào năm 1993 [12]. Mặc dù Pentaho

đã thông qua các công cụ Weka làm công cụ khai thác dữ liệu của nó, nó chỉ là một

phần của nền tảng BI. Việc tích hợp trong nền tảng Pentaho được giới hạn một plugin

đặc biệt cho Kettle để gọi một thuật toán điểm Weka. Năm 1996, phiên bản đầu tiên đã

được phát hành vào năm 1999 và phiên bản 3 (100% được viết bằng Java) đã được

14



phát hành. Phiên bản hiện tại 3.6 là một bản phát hành nâng cấp vẫn dựa trên mã 3.0,

làm Weka có lẽ là phần trưởng thành hầu hết các nền tảng Pentaho BI.



Hình 2.4. Giao diện phần mềm weka

Weka bao gồm ba công cụ khác nhau, mỗi cơng cụ trong số đó có thể được sử dụng

độc lập, nhưng khi kết hợp với nhau tạo ra một nền tảng khai thác dữ liệu rất mạnh mẽ.

Các chức năng chính như sau:

Explorer – Điểm khởi đầu cho làm quen với Weka và khai thác dữ liệu. Explorer

cho phép dễ dàng làm việc với các bộ dữ liệu. Nó cũng cung cấp một loạt các chức

năng.

Experimenter – làm việc, thiết lập và thực hiện các thí nghiệm lớn, nơi tập hợp

nhiều dữ liệu và nhiều thuật tốn có thể được thêm vào cùng một lúc. Kết quả của thí

nghiệm sau đó có thể được so sánh với nhau để xác định các kết quả đã được (thống

kê) tốt hơn so với những người khác.

KnowledgeFlow – Sự bổ sung mới nhất cho các bộ cơng cụ Weka có thể được sử

dụng để xây dựng hồn chỉnh quy trình cơng việc khai thác dữ liệu tương tự như các

quy trình bạn đã quen thuộc với trong Pentaho tích hợp dữ liệu hoặc các studio thiết

kế.

Định dạng đầu vào của Weka: Trước khi bạn có thể phân tích dữ liệu, nó phải

được chuẩn bị để sử dụng trong Weka. Weka có thể đọc dữ liệu từ nhiều nguồn khác

nhau, bao gồm cả trực tiếp từ một cơ sở dữ liệu JDBC và các tập tin CSV. Weka cũng

có riêng, định dạng file gốc của nó. Việc đầu tiên được gọi ARFF (Attribute Relation

File Format) là một định dạng tập tin dựa trên văn bản nhưng với siêu dữ liệu thêm

vào để Weka biết loại dữ liệu trong tập tin. Như bạn có thể thấy, nó có chứa các mối

quan hệ (chủ đề của sự phân tích), tất cả các thuộc tính được sử dụng bao gồm cả các

giá trị có thể hoặc các kiểu dữ liệu, và các dữ liệu chính nó.

Định dạng thứ hai được gọi là XRFF (eXtensible attribute-Relation File Format) và

là một phần mở rộng dựa trên XML của các định dạng ARFF. Cả hai tập tin ARFF và

XRFF có thể được mở trong một hình thức lưu trữ là tốt. XRFF có lợi thế hơn ARFF

15



chuẩn ở chỗ nó cho phép các thuộc tính lớp được xác định trong tập tin. Các tập tin

chuẩn ARFF không chỉ định một thuộc tính lớp và để lại nó cho người dùng lựa chọn

một thông qua giao diện người dùng đồ họa hoặc thông qua một lựa chọn nếu sử dụng

giao diện dòng lệnh Weka của. XRFF mặt khác cho phép một thuộc tính lớp mặc định

được xác định trong tập tin. Thuộc tính này sau đó được chọn tự động trong giao diện

dòng lệnh hoặc giao diện Weka. Tất nhiên, điều này khơng ngăn chặn người dùng tự

chọn thuộc tính khác như các lớp nếu họ mong muốn. Cuối cùng, XRFF cho phép

thêm cả thuộc tính và khởi tạo, cho phép cân bằng tầm quan trọng của mỗi thuộc tính

trong một kết quả.

2.4.2. Giới thiệu về SPSS (Statistical Product and Services Solutions)

SPSS là phần mềm phục vụ thống kê, với một bộ thư viện lớn các thuật toán học

máy, phân tích văn bản, nguồn mở, tích hợp dễ dàng với những dữ liệu lớn [13]. SPSS

dễ sử dụng, linh hoạt và thường được dùng trong nghiên cứu xã hội, kinh tế học.



Hình 2.5. Giao diện SPSS

SPSS cung cấp các chức năng quản lý dữ liệu và phân tích thống kê với giao diện

đồ họa thân thiện với người dùng. SPSS phiên bản 22 đem lại cho người dùng một

giao diện đơn giản giúp bạn tạo ra các đồ thị và dễ dàng hiệu chỉnh đồ thị. Trong

SPSS, các đồ thị có chất lượng cao và bạn có thể dễ dàng dán chúng vào các tài liệu

khác cũng như từ các tài liệu khác như Word, Excel bạn có thể dễ dàng copy dữ liệu

qua lại.

2.4.3. Phân tích số liệu bằng R

R là một phần mềm hồn tồn miễn phí, được sử dụng cho phân tích dữ liệu, thống

kê và vẽ biểu đồ [14]. R là ngơn ngữ lập trình đa năng, có thể sử dụng cho nhiều mục

đích, tính tốn, giải trí, phân tích thống kê phức tạp [14]. R là một ngơn ngữ lập trình,

cho nên chúng ta có thể sử dụng nó để phát triển các phần mềm phục vụ tính tốn [14].

16



Hình 2.6. Giao diện phần mềm R

Đánh giá hỗ trợ của R về mặt phân tích và dự đốn số liệu thì thấy rằng R là cơng

cụ phân tích thống kê mạnh, nhưng cũng có một số đánh giá sau:

- Thích hợp với các bài tốn phân tích thống kê và vẽ biểu đồ;

- Mơi trường làm việc sử dụng câu lệnh, phức tạp và khó khai thác;

- Dữ liệu đầu vào cho phân tích dạng bảng theo cấu trúc file .csv hoặc file .txt,

công cụ khơng có hỗ trợ kết nối trực tiếp vào cơ sở dữ liệu;

- Trong R cho phép tính tốn thực hiện trên vectors hay nói cách khác R là một

ngơn ngữ vector, vì vậy chúng ta có thể sử dụng bất kỳ hàm nào trên vector và không

phải sử dụng vòng lặp. Ví dụ: chúng ta có một mảng và qua mỗi phần tử trong mảng

lại tăng 1. Nếu chúng ta không dùng vector, cần lặp qua dãy các phần tử và trong vòng

lặp chúng ta có n phép tính +1 với mảng gồm n phần tử.

- R là ngôn ngữ thống kê và được sử dụng nhiều và có thế mạnh trong lĩnh vực sinh

học, thống kê dữ liệu và di truyền họ.

Với những ưu điểm vượt trội như trên, trong luận văn này học viên quyết định lựa

chọn R làm cơng cụ hỗ trợ phân tích tập dữ liệu dịch bệnh cúm do Google Flu Trends

cung cấp tại phần trình bày thực nghiệm.



Tóm tắt chương 2

Chương 2 học viên đã giới thiệu về các phương pháp và công cụ phục vụ khai phá

dữ liệu. Bên cạnh đó, cũng đã đề cập đến chuỗi dữ liệu thời gian để chúng ta hiểu bản

chất của chuỗi dữ liệu thời gian. Qua phân tích chi tiết đặc điểm của các phương pháp

khai phá dữ liệu và dựa trên đặc điểm của tập dữ liệu Google Flu Trends, đã quyết

định lựa chọn phương pháp hồi quy để phân tích và dự báo.

17



Chương 3 sẽ đi sâu phân tích phương pháp phân tích hồi quy với chuỗi dữ liệu thời

gian làm cơ sở cho việc thực nghiệm.



18



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

CHƯƠNG 2: CÁC PHƯƠNG PHÁP VÀ CÔNG CỤ KHAI PHÁ DỮ LIỆU

Tải bản đầy đủ ngay(0 tr)

×