Tải bản đầy đủ - 0 (trang)
Hình 1.1 – Phác thảo quá trình khai phá dữ liệu

Hình 1.1 – Phác thảo quá trình khai phá dữ liệu

Tải bản đầy đủ - 0trang

9

- Chỉ có một phần nhỏ của dữ liệu (khoảng 5-10% là ln được phân tích). Dữ

liệu cần tìm kiếm không tồn tại dưới dạng tường minh mà dưới dạng phi cấu trúc,

trong các quy luật tiềm ẩn.

- Sự phát triển mạnh của mạng máy tính đã gia tăng khả năng truy cập dữ liệu.

Sự gia tăng của dữ liệu cản trở các phương pháp phân tích truyền thống SQL. Giá trị

dữ liệu là quá lớn đối với các phương pháp phân tích cổ điển.

Tóm lại, với sự phát triển mạnh mẽ của công nghệ vi xử lý, công nghệ lưu trữ,

công nghệ truyền thống, ứng dụng công nghệ thông tin trong nhiều lĩnh vực; dữ liệu

tăng nhanh, bùng nổ dữ liệu thì KDD và DM thực sự cần thiết để khai phá tri thức tiềm

ẩn trong những kho dữ liệu lớn.



1.2



Quá trình KDD

Quá trình khai phá tri thức được mơ tả trong hình 1.2 sau:



Hình 1.2 Hình ảnh biểu diễn q trình KDD [8]



Q trình phân tích dữ liệu, khám phá dữ liệu và xây dựng mơ hình dữ liệu

thường lặp lại khi bạn tập trung vào và nhận ra các thơng tin khác nhau để bạn có thể

trích ra. Quá trình khai phá tri thức bắt đầu bằng việc tìm hiểu lĩnh vực ứng dụng. Tiếp

theo, một mẫu đại diện được lấy từ CSDL, được tiền xử lý và được lựa chọn để sau đó

áp dụng các phương pháp và công cụ của giai đoạn khai phá dữ liệu với mục tiêu là

tìm ra các mẫu/mơ hình (tri thức) trong dữ liệu đó. Tri thức này được đánh giá bằng

chất lượng hoặc sự hữu ích của nó, vì vậy nó có thể được sử dụng để hỗ trợ cho hệ trợ

giúp ra quyết định.

- Tiền xử lý dữ liệu: Tiền xử lý dữ liệu dựa vào mục tiêu đề ra của ứng dụng. Từ

các nguồn dữ liệu khác nhau chọn dữ liệu cần thiết cho mục tiêu đề ra như mẫu tin,



10

trường dữ liệu. Biểu diễn dữ liệu, chuyển đổi kiểu sao cho phù hợp với giải thuật DM

sẽ được áp dụng ở bước sau. Làm sạch dữ liệu dùng để khắc phục với trường dữ liệu

rỗng, dư thừa hoặc dữ liệu khơng hợp lệ nhằm có thể tinh giảm dữ liệu hơn.

- Khai phá dữ liệu: Các kỹ thuật áp dụng trong khai phá dữ liệu như máy học, trí

tuệ nhân tạo, nhận dạng, phân tích thống kê, phương pháp trực quan (hiển thị), xây

dựng mơ hình, tạo tri thức về dữ liệu. Kiểm định mơ hình nếu chưa đạt thì phải xây

dựng mơ hình khác. Bước này rất khó và mất rất nhiều cơng sức.

- Đánh giá kết quả: Kiểm định dựa vào mục tiêu ban đầu của ứng dụng. Nghĩa là

chỉ có người sử dụng hoặc chuyên gia về lĩnh vực mới có khả năng đánh giá. Kết quả

có đạt được cần dễ hiểu, hiển thị, dịch kết quả. Người sử dụng hoặc chuyên gia có thể

đánh giá và hiểu được kết quả sinh ra.



1.2.1. Chức năng chính của khai phá dữ liệu

Data Mining được chia nhỏ thành một số hướng chính như sau:

• Mơ tả khái niệm (Concept Description): thiên về mô tả, tổng hợp và tóm tắt khái

niệm. Ví dụ: tóm tắt văn bản. Mô tả theo các phương pháp mô tả tri thức: mơ tả

bằng logic hình thức; mạng ngữ nghĩa hoặc chuyển sang dạng ma trận; mô tả bằng

luật; mô tả bằng mạng Bayes…

• Luật kết hợp (Association Rules): là dạng luật biểu diễn tri thức ở dạng khá đơn

giản. Luật kết hợp được ứng dụng nhiều trong lĩnh vực kinh doanh, y học, tin-sinh,

tài chính & thị trường chứng khốn, .v.v.

• Phân lớp và dự đốn (Classification & Prediction): xếp một đối tượng vào một

trong những lớp đã biết trước. Hướng tiếp cận này thường sử dụng một số kỹ thuật

của machine learning như cây quyết định (Decision Tree), mạng nơ ron nhân tạo

(Neural Network) v.v… Người ta còn gọi phân lớp là học có giám sát (học có

thầy).

• Phân cụm (Clustering): xếp các đối tượng theo từng cụm (số lượng cũng như tên

của cụm chưa được biết trước. Người ta còn gọi phân cụm là học khơng giám sát

(học khơng thầy).

• Khai phá chuỗi (Sequential/Temporal Patterns): tương tự như khai phá luật kết hợp

nhưng có thêm tính thứ tự và tính thời gian. Hướng tiếp cận này được ứng dụng

nhiều trong lĩnh vực tài chính và thị trường chứng khốn vì nó có tính dự báo.

1.2.2. Các kỹ thuật khai phá dữ liệu

Các kỹ thuật khai phá dữ liệu thực chất khơng nhiều cái mới. Nó là sự kế thừa,

kết hợp và mở rộng của các kỹ thuật cơ bản đã được nghiên cứu như học máy, nhận

dạng, thống kê (hồi quy, phân loại, phân nhóm), mơ hình đồ thị, mạng Bayes, tri thức

hệ chuyên gia…Tuy nhiên, với sự kết hợp của khai phá dữ liệu, kỹ thuật này có ưu thế



11

hơn các phương pháp trước, đem lại triển vọng trong nghiên cứu, áp dụng vào thực

tiễn. Nó có thể chia thành 2 nhóm chính:

- Kỹ thuật khai phá dữ liệu mơ tả (Descriptive): mơ tả các tính chất hoặc các đặc

trưng chung của dữ liệu trong CSDL hiện có. Nhóm kỹ thuật này gồm các phương

pháp: phân nhóm (Clustering), tổng hợp hóa (Summerization), phát hiện sự biến đổi và

độ lệch (Change and deviation detection), phân tích luật kết hợp (Association rules)…

- Kỹ thuật khai phá dữ liệu dự đoán (Predictive): đưa ra các dự đoán dựa vào các

suy diễn trên dữ liệu hiện thời. Nhóm kỹ thuật này gồm các phương pháp: phân lớp

(Classification), hồi quy (Regression), phát hiện độ lệch (Deviation Detection).

Để có một mơ hình dự đoán, phải trải qua 2 giai đoạn (phase).

a) Thứ nhất: xây dựng mơ hình (Training phase)



Hình 1.3 Xây dựng mơ hình



b) Thứ hai: kiểm định mơ hình (Testing phase)



Hình 1.4 Kiểm định mơ hình



Các giải thuật được áp dụng thành cơng trong khai phá dữ liệu được có thể tóm

tắt trên hình 1.5:



12



Hình 1.5 Mức độ sử dụng hiệu quả của các giải thuật trong DM [8]



1.2.3. Các phương pháp khai phá dữ liệu

a. Phân loại (Classification): cho phép phân loại các sự việc, đối tượng vào một hoặc

một số lớp theo tiêu chí xác định.

b. Hồi quy (Regression): xây dựng mơ hình phân loại dựa trên tập dữ liệu học có nhãn

(lớp) là giá trị liên tục.

c. Phân nhóm (Clustering): xây dựng mơ hình gom cụm tập dữ liệu học (khơng có

nhãn) sao cho các dữ liệu cùng nhóm có các tính chất tương tự nhau và dữ liệu của 2

nhóm khác nhau có các tính chất khác nhau.

d. Tổng hợp (Summarization): là công việc liên quan đến các phương pháp tìm kiếm

một mơ tả cơ đọng cho tập con dữ liệu. Các kỹ thuật tổng hợp thường được áp dụng

trong việc phân tích dữ liệu có tính thăm dò và báo cáo tự động

e. Mơ hình ràng buộc (Dependency Modeling): tìm kiếm một mơ hình cục bộ để mô tả

sự phụ thuộc đáng kể giữa các biến hay giữa các giá trị của một đặc tính trong một tập

dữ liệu hoặc một phần của một tập dữ liệu.

f. Dò tìm biến đổi và độ lệch (Change and Deviation Dectection): khai thác sự thay đổi

đáng kể trong tập dữ liệu. Là việc tập trung vào khám phá những thay đổi có ý nghĩa



13

trong dữ liệu dựa vào các giá trị chuẩn hay độ đo đã biết trước, phát hiện độ lệch đáng

kể giữa nội dung của tập con dữ liệu và nội dung mong đợi.



1.3 Những thách thức trong khai phá dữ liệu

 Mức độ nhiễu trong dữ liệu của khai phá dữ liệu cao. Tiêu chuẩn mạnh của giải

thuật đối với nhiễu trở nên quan trọng trong khi các tiêu chuẩn khác có thể giảm bớt.

 Kích thước lớn của các tập dữ liệu cần xử lý. Các tập dữ liệu trong khai phá dữ

liệu thường có kích thước lớn. Trong thực tế, kích thước dữ liệu trong khai phá dữ liệu

thường ở mức tera-byte. Với kích thước như thế, thời gian xử lý thường dài. Thêm vào

đó, các giải thuật học truyền thống thường yêu cầu tập dữ liệu được tải toàn bộ vào bộ

nhớ để xử lý. Mặc dù kích thước bộ nhớ trong của máy tính đã tăng nhưng khơng đáp

ứng kịp với việc tăng kích thước dữ liệu. Vì vậy, việc vận dụng các kỹ thuật xác suất,

lấy mẫu, đệm, song song … vào các giải thuật để tạo các phiên bản phù hợp với yêu

cầu của khai phá dữ liệu trở nên quan trọng.

 Các kỹ thuật trong khai phá dữ liệu là hướng tác vụ và hướng dữ liệu. Thay vì

tập trung vào xử lý tri thức dạng kí hiệu và khái niệm như máy học; mọi phát triển

trong khai phá dữ liệu kết chặt vào các ứng dụng thực tế và đặc tính dữ liệu cụ thể

trong các ứng dụng đó. Ví dụ, luật kết hợp là kỹ thuật khai phá dữ liệu nhằm tìm kiếm

những mối liên kết giữa các món hàng trong các hóa đơn. Giải thuật học trong kỹ thuật

này được phát triển dựa trên đặc tính về dữ liệu rất đặc thù là ở dạng nhị phân.



1.4



Ứng dụng của khai phá dữ liệu

Hiện nay, khai phá dữ liệu đang được ứng dụng rộng rãi trong như sau:



a. Phân tích dữ liệu tài chính (Financial Data Analysis) với các bài tốn cụ thể như:

• Dự đốn khả năng vay và thanh tốn của khách hàng, phân tích chính sách

tín dụng đối với khách hàng

• Phân tích hành vi khách hàng (vay, gửi tiền)

• Phân loại và phân nhóm khách hàng mục tiêu cho tiếp thị tài chính

• Phát hiện các hoạt động rửa tiền và tội phạm tài chính khác

b. Cơng nghiệp bán lẻ (Retail Industry)

Một số ứng dụng trong ngành cơng nghiệp bán lẻ đó là:

• Khai phá dữ liệu trên kho dữ liệu khách hàng

• Phân tích đa chiều trên kho dữ liệu khách hàng về doanh số bán hàng,

khách hàng, sản phẩm, thời gian và khu vực.

• Phân tích hiệu quả của các chiến dịch bán hàng, Marketing.

• Quản trị mối quan hệ khách hàng (CRM).

• Giới thiệu và tư vấn sản phẩm phù hợp cho khách hàng



14

Khai phá dữ liệu đóng vai trò rất quan trọng trong ngành công nghiệp bán lẻ, do

dữ liệu thu thập từ lĩnh vực này rất lớn từ doanh số bán hàng, lịch sử mua hàng của

khách hàng, vận chuyển hàng hóa, tiêu thụ và dịch vụ. Điều tự nhiên là khối lượng dữ

liệu từ ngành công nghiệp này sẽ tiếp tục tăng nhanh và dễ dàng thu thập bởi tính sẵn

có trên mơi trường Web. Ứng dụng khai phá dữ liệu trong công nghiệp bán

lẻ nhằm xây dựng mơ hình, giúp xác định xu hướng mua hàng của khách, giúp doanh

nghiệp cải thiện chất lượng sản phẩm dịch vụ nhằm nâng cao sự hài lòng của khách

hàng tốt.

c. Ngành công nghiệp viễn thông (Telecommunication Industry)

Khai phá dữ liệu trong ngành viễn thơng giúp xác định các mơ hình, các hoạt

động gian lận , sử dụng tốt nguồn tài nguyên và cải thiện chất lượng dịch vụ viễn

thông.

Một số ứng dụng chính trong ngành này là:













Phân tích dữ liệu đa chiều viễn thơng.

Xây dựng các mơ hình phát hiện gian lận.

Phát hiện bất thường trong giao dịch viễn thông.

Phân tích hành vi sử dụng dịch vụ viễn thơng của khách hàng

Sử dụng các công cụ trực quan trong phân tích dữ liệu viễn thơng



d. Phân tích dữ liệu sinh học (Biological Data Analysis)

Ngành này có một số ứng dụng như:

• Lập chỉ mục, tìm kiếm tương tự, bất thường trong cơ sở dữ liệu Gen.

• Xây dựng mơ hình khai phá, các mạng di truyền và cấu trúc của

Gen, protein

• Xây dựng các cơng cụ trực quan trong phân tích dữ liệu di truyền.

e. Phát hiện xâm nhập bất hợp pháp (Intrusion Detection)

Xâm nhập bất hợp pháp là những hành động đe dọa tính tồn vẹn, bảo mật và

tính sẵn sàng của tài nguyên mạng. Trong thế giới của kết nối, bảo mật trở thành vấn

đề lớn đối với tồn tại của hệ thống. Với sự phát triển của internet, sự sẵn có của các

cơng cụ, thủ thuật trợ giúp cho xâm nhập và tấn công mạng; yêu cầu kiểm soát truy

cập bất hợp pháp là yếu tố đảm bảo ổn định của hệ thống.

Một số ứng dụng để phát hiện xâm nhập:

• Phát triển các thuật tốn khai phá dữ liệu để phát hiện xâm nhập.

• Phân tích kết hợp, tương quan và khác biệt để phát hiện xâm nhập

• Phân tích dòng dữ liệu (Analysis of Stream data) để phát hiện bất thường.



1.5



Kết luận và hướng phát triển



15

KDD và DM là việc khai thác, tìm kiếm tri thức ẩn trong khối lượng lớn dữ

liệu, áp dụng trong nhiều lĩnh vực khác nhau. KDD là quá trình tiền xử lý, khai thác dữ

liệu và đánh giá kết quả. DM là cốt lõi của quá trình KDD. KDD và DM cần giải quyết

mục tiêu đặt ra của ứng dụng, khả năng làm việc tốt đối với dữ liệu lớn; đáp ứng

những rằng buộc về thời gian, thiết bị, chất lượng, kết quả; hiểu được. Mặt khác, khó

có kỹ thuật nào tốt nhất cho tất cả các trường hợp.

Hướng phát triển: tương lai KDD và DM cần xử lý nguồn dữ liệu đa phương

tiện, hỗn hợp như văn bản, hình ảnh, âm thanh, ký tự. Có thể tạo thuật tốn mới hoặc

cải tiến thuật tốn hiện có; tích hợp kiến thức chuyên gia, diễn dịch kết quả, mở rộng

sang các lĩnh vực khác như sinh học, kinh tế, y học, quốc phòng, thiên văn…

Trong chương này đã tìm hiểu về khai phá tri thức và khai phá dữ liệu. Để triển

khai các giải thuật của khai phá dữ liệu có thể sử dụng các phần mềm R, Weka, Matlab

(xem các phụ lục)



CHƯƠNG 2

CÁC GIẢI THUẬT PHÂN LỚP DỮ LIỆU

2.1. Thuật toán k láng giềng gần nhất

2.1.1. Thuật toán k láng giềng cho bài tốn phân lớp

a. Mục đích của thuật toán

k-Nearest Neighbors algorithm (k-NN) là thuật toán được sử dụng rất phổ biến

trong lĩnh vực khai phá dữ liệu. k-NN là phương pháp để phân lớp đối tượng dựa vào

khoảng cách gần nhất giữa các đối tượng cần xếp lớp và tất cả các đối tượng trong dữ

liệu huấn luyện.

b. Phương pháp tính khoảng cách

Để xác định khoảng cách, xem xét một số phương pháp sau. Khoảng cách

được tính theo từng kiểu của dữ liệu: số, nhị phân, loại.





Với dữ liệu là kiểu số:



16

- Khoảng cách Minkowski



(2.1)

i = (xi1, xi2, …, xip) và j = (xj1, xj2, …, xjp) là 2 phần tử dữ liệu, q là số nguyên dương.

-



Khoảng cách Manhattan (từ (2.1) Nếu q = 1, d là khoảng cách Manhattan ):



(2.2)

-



Khoảng cách Euclidean (từ (2.1) Nếu q = 2, d là khoảng cách Euclid.:



(2.3)

Trình tự các bước trong thuật toán k-NN.:

1. Xác định k láng giềng gần nhất

2. Tính khoảng cách giữa các đối tượng cần phân lớp với tất cả các đối tượng

trong dữ liệu huấn luyện (thường sử dụng khoảng cách Euclid)

3. Sắp xếp khoảng cách theo thứ tự tăng dần và xác định k láng giềng gần nhất với

đối tượng cần phân lớp

4. Lấy tất cả các lớp của k láng giềng gần nhất đã xác định

5. Dựa vào phần lớn lớp của láng giềng gần nhất để xác định lớp cho các đối

tượng cần phân lớp

c. Bài tốn

Giả sử, thuộc tính X1: huyết áp, thuộc tính X2: nồng độ Cholesterol trong máu và Y thể hiện

tình trạng bệnh tim của bệnh nhân. Y có hai giá trị là + (có bệnh tim) và - (khơng có bệnh).

Ta có dữ liệu về 20 bệnh nhân khám có kết quả như bảng sau (Training data: dữ liệu chỉ mang

tính minh họa cho thuật tốn K-NN)

Bây giờ, có một bệnh nhân đến khám bệnh (chưa biết có bị bệnh tim hay khơng), sau khi đo

huyết áp và nồng độ Cholesterol có giá trị lần lượt là X1= 7 và X2= 5. Sử dụng thuật toán KNN để dự đốn (phân lớp) bệnh nhân này có mắc bệnh tim hay khơng (hay là thuộc lớp người

đau tìm khơng).

2.1.2. Dùng thuật tốn K-NN giải với MS Excel

Trong ví dụ trên, chọn tham số k =5 có nghĩa là lấy 5 bệnh nhân có huyết áp và nồng độ

Cholesterol gần giống nhất (láng giềng gần nhất) với bệnh cần chuẩn đoán và ta thấy rằng

trong 5 bệnh nhân gần nhất đó có 3 người khơng mắc bệnh tim (giá trị Y là -) và 2 người mắc



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Hình 1.1 – Phác thảo quá trình khai phá dữ liệu

Tải bản đầy đủ ngay(0 tr)

×