Tải bản đầy đủ - 0 (trang)
3 Các kỹ thuật phân lớp trong khai phá dữ liệu

3 Các kỹ thuật phân lớp trong khai phá dữ liệu

Tải bản đầy đủ - 0trang

Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



mỗi đầu vào sẽ được đánh một trọng số wki. Chỉ số đầu tiên chỉ tới nơ ron đang được

nói đến, chỉ số thứ hai chỉ tới đầu vào của tiếp hợp mà chỉ số đó có liên quan.

Sẽ có một bộ cộng thực hiện tính tốn các tín hiệu đầu vào xi và tính bằng cường

độ tiếp hợp tương đối wi. Việc tính tốn này sẽ tạo ra một tổ hợp tuyến tính, một hàm

hoạt động f sẽ thực hiện nhiệm vụ giới hạn biên độ đầu ra yk của một nơ ron.

Thêm vào một độ nghiêng áp dụng bên ngoài định nghĩa là b. Độ nghiêng này có

chức năng làm tăng lên hay giảm xuống đầu vào mạng của hàm hoạt động, phụ thuộc





C



KI



N

H



TẾ



H



U







vào giá trị của nó là âm hay dương.



H



Hình 1 . 1 Cấu trúc một nơ ron (neural)



Đ



G



xi: các tín hiệu input



ẠI



Với



N



wkp: trọng số của từng input



Ư







f(.): hàm hoạt động



TR



yk: kết xuất của Neural

b: thông số ảnh hưởng đến ngưỡng ra của output



Cấu trúc của mạng nơ ron nhân tạo

Cấu trúc của một mạng nơ ron nhân tạo phụ thuộc vào đặc điểm của mỗi nơ ron

(nút) và đặc điểm kết nối giữa các nút đó với nhau tạo thành một mạng như thế nào.

Kiến trúc mạng sẽ được xác định bằng số đầu vào và đầu ra của mạng, toàn bộ

các nút cơ sở thường bằng các phần tử xử lý cho mạng, hình thức tổ chức hay sự kết

nối của chúng. Nhìn chung, mạng nơ ron được chia thành hai loại là: mạng truyền

thẳng và mạng hồi quy.



SVTH: Trương Văn Quốc Anh



6



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



Hình 1 . 2 Mơ hình mạng nơ ron truyền thẳng

Một mạng nơ ron được gọi là truyền thẳng nếu các kết nối từ đầu vào cho đến



U







đầu ra đi theo một hướng thống nhất, khơng có liên kết lặp lại hoặc ngược lại.



H



Mạng nơ ron được gọi là hồi quy trong trường hợp các thông tin được đưa vào



TẾ



mạng, các chuỗi đầu ra có ý nghĩa quan trọng và chúng ta cần mạng nơ ron lưu trữ lưu



N

H



giữ lại một bản ghi của các thông tin đầu vào sau đó khuếch đại chúng lên với dữ liệu



TR



Ư







N



G



Đ



ẠI



H





C



KI



hiện thời để sinh ra kết quả.



Hình 1 . 3 Mơ hình mạng nơ ron hồi quy

Ngồi hai mơ hình mạng nơ ron nói trên còn có rất nhiều mơ hình mạng nơ ron

khác nữa nhưng nhìn chung, mơ hình mạng nơ ron truyền thẳng và hồi quy là hai mơ

hình được biết đến và sử dụng rộng rãi nhất.



SVTH: Trương Văn Quốc Anh



7



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



Huấn luyện mạng nơ ron

Phương pháp học: cơ chế hoạt động của mạng nơ ron là phỏng theo cơ chế xử

lý thơng tin của não bộ người, do đó đặc trưng của phương pháp này là nó có khả năng

học, khả năng vận dụng những hình ảnh, thơng tin đã học. Khi ở trạng thái học, thông

tin sẽ được lan truyền theo hai chiều với nhiều lần để học các trọng số. Mạng nơ ron

có 3 phương thức học chính, mỗi phương thức phương thức lại có mỗi đặc trưng riêng.

Đó là học có giám sát, học khơng khơng giám sát và học củng cố.

Học có giám sát: trong phương thức học này không thể thiếu một “người thầy”.

Người thầy này có các tri thức về mơi trường bên ngồi và được thể hiện bằng một tập



U







hợp các cặp đầu vào, đầu ra đã biết trước. Mạng nơ ron sẽ tự tìm cách để thay đổi các



H



trọng số hay các ngưỡng của mình để tạo nên một ánh xạ có khả năng ánh xạ đầu vào



N

H



kết quả đầu ra thực sự và đầu ra mong muốn.



TẾ



thành đầu ra mong muốn. Quá trình thay đổi này được thực hiện dựa vào việc so sánh



KI



Học khơng giám sát: đối với học khơng có giám sát thì ta sẽ được cung cấp





C



trước một số dữ liệu x và hàm chi phí cần cực tiểu hóa, nó có thể là một hàm bất kỳ



H



nào đó của dữ liệu x và đầu ra của mạng, f là hàm chi phí được quyết định bởi bài



G



thống kê, phân cụm, nén.



Đ



ẠI



toán. Các ứng dụng nằm trong ứng dụng của bài tốn ước lượng như mơ hình hóa



N



Học củng cố: học cũng cố cũng là một dạng học có giám sát, vì mạng vẫn nhận



Ư







một số tín hiệu từ mơi trường bên ngồi, nhưng tín hiệu phản hồi chỉ mang tính chất



TR



đánh giá hơn là mạng có tính chất chỉ dẫn. Nó cho biết mức độ tốt xấu của một đầu ra.

Tín hiệu củng cố ở mơi trường bên ngồi sẽ được xử lý bằng máy phát tín hiệu để tạo

ra thêm một số thơng tin tín hiệu đánh giá và sẽ được dùng để điều chỉnh các trọng số

với mục đích cuối cùng là đưa ra các tín hiệu đánh giá tốt hơn. Các bài toán khi được

giải quyết bằng việc học củng cố thì thường là các bài toán điều khiển hay các nhiệm

vụ quyết định tuần tự. [4]



Tiến trình học và nội dung học

Tiến trình học là tiến trình quan trọng đối với con người, nhờ học mà bộ não con

người tích lũy được kinh nghiệm để thích nghi và phản ứng với mơi trường bên ngồi.

Mạng nơ ron cũng vậy, nhiệm vụ chính của nó là phải học một mơ hình của mơi



SVTH: Trương Văn Quốc Anh



8



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



trường bên ngồi mà ở đó nó được nhúng vào và duy trì cho mơ hình đó sao cho phù

hợp với thế giới bên ngoài để thu được kết quả xác định của ứng dụng liên quan.

Mạng nơ ron sử dụng các thơng tin, mẫu dữ liệu từ mơi trường bên ngồi hệ

thống để tiến hành học, được gọi là giá trị đầu vào. Khi giá trị đầu vào được đưa vào

mạng thì nó sẽ được đưa theo dòng chảy trong mạng để tạo thành giá trị đầu ra.

Ở giai đoạn tiếp theo sẽ diễn ra quá trình so sánh giữa các giá trị được tạo ra bởi

mạng nơ ron với giá trị đầu ra mà ta mong muốn. Sau khi so sánh, nếu hai giá trị này

giống nhau thì sẽ khơng có gì thay đổi, ngược lại nếu có một sai lệch nào đó giữa hai



U



từ đầu ra về đầu vào để tiến hành thay đổi một số kết nối.







giá trị này mà vượt quá giá trị sai số cho phép thì dòng chảy trong mạng sẽ quay ngược



H



Q trình học này lặp đi lặp lặp lại một cách liên tục và sẽ khơng dừng lại cho tới



TẾ



khi tìm được các giá trị w sao cho các giá trị đầu ra tạo bởi mạng nơ ron bằng đúng



N

H



đầu ra mong muốn. Trong thực tế, người ta sẽ tạo một tiêu chuẩn sai số cho phép giữa



KI



hai giá trị này hay chỉ học dựa trên một số lần lặp cố định. [4]





C



Một số kiểu mạng nơ ron nhân tạo



H



Mạng tổ chức (Kohonen feature maps): đây là một mạng nơ ron truyền thẳng



ẠI



sử dụng phương thức học giám sát bằng quá trình tự tổ chức, cấu hình các thơng tin



G



Đ



đầu ra thành một sơ đồ hình học hoặc khơng gian. Mạng tổ chức được biểu diễn dưới



N



dạng “sơ đồ tự tổ chức” (SOM – Self organized maps). Nhiệm vụ của SOM là biến đổi



Ư







các đầu vào có số chiều lớn, phức tạp thành sơ đồ có số chiều và độ phức tạp thấp hơn,



TR



thích hợp với việc phân tích theo cụm. Mạng SOM sẽ cấu trúc các nút đầu ra thành

cụm các nút, các nút ở gần nhau sẽ có độ tương thích cao hơn các nút ở xa.

Quan sát hình 1 . 4 có thể thấy q trình học mang tính chất cạnh tranh giữa các

nút, các nút đầu ra cạnh tranh nhau để được chọn là nút hoạt hóa bởi sự quan sát đầu

vào đặc biệt.



SVTH: Trương Văn Quốc Anh



9



GVHD: Th.S Mai Thu Giang



U







Khóa luận tốt nghiệp



H



Hình 1 . 4 Kiến trúc hai chiều của mạng Kohonen



TẾ



Mạng nơ ron truyền thẳng đa tầng (Multilayer Perceptron): mạng nơ ron



N

H



truyển thẳng đa tầng là một trong những lớp quan trọng và được biết đến rộng rãi nhất



KI



trong các ứng dụng của mạng nơ ron. Mạng nơ ron này bao gồm một tập đầu vào tạo





C



nên tầng đầu vào của mạng cũng với một tập các tầng ẩn chưa các nút xử lý và cuối



H



cùng là tầng đầu ra của các nút xử lý. Mạng nơ ron truyền thẳng đa tầng được ứng



ẠI



dụng để giải quyết nhiều bài tốn khó thơng qua việc huấn luyện bằng phương thức



Đ



học có giám sát.



N



G



1.3.2 Cây quyết định (J48)



Ư







Khái niệm cây quyết định



TR



Cây quyết định được hiểu là một kiểu mơ hình dự báo, nghĩa là một ánh xạ về

một sự vât hiện tượng tới kết luận về giá trị mục tiêu của sự vật hiện tượng. Mỗi nốt

trong cây quyết định tương ứng cho một biến, đường nối nó với nút con thể hiện giá trị

cụ thể của biến đó. Mỗi nút lá tượng trưng cho một giá trị dự đoán của biến mục tiêu,

được xác định bằng đường đi từ gốc tới nút lá đó. [5]

Học bằng cây quyết định là một phương pháp phổ biến trong khai phá dữ liệu.

Cây quyết định là kết quả của quá trình huấn luyện một tập dữ liệu với các bản ghi đã

có thuộc tính và được mơ tả bằng cấu trúc dạng cây, mỗi nút lá đại diện cho cho các

phân loại và các cành liên kết sẽ đại diện cho các kết hợp thuộc tính để dẫn tới phân

loại đó.



SVTH: Trương Văn Quốc Anh



10



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



Rút ra các tập luật từ cây quyết định

Dựa vào mơ hình cây quyết định ta có thể rút ra các tập luật tương ứng bằng mơ

hình dạng luật (IF…THEN…) hay chuyển đổi ngược lại giữa hai mơ hình này vì



TẾ



H



U







chúng tương đương nhau.



N

H



Hình 1 - 5 Mơ hình cây quyết định





C



KI



Hình 1 . 5 Mơ hình cây quyết định

Quan sát hình 1 . 5 ta có thể rút ra các tập luật sau.



ẠI



H



IF outlook = sunny AND humidity = high THEN playball = no



Đ



IF outlook = rain AND humidity = high THEN playball = no



N



G



IF outlook = rain AND wind = strong THEN playball = yes







IF outlook = overcast THEN playball = yes



Ư



IF outlook = rain AND wind = weak THEN playball = yes



TR



Ưu điểm của cây quyết định

So với các phương pháp khai phá dữ liệu thì cây quyết định có một số ưu điểm

sau:

- Kết quả huấn luyện sẽ được biểu diễn dưới dạng cây tương đối dễ hiểu và dễ

dàng chuyển đổi thành các tập luật.

- Khơng đòi hỏi kiến thức chun sâu, dữ liệu cần khai phá chỉ cần xử lý ở mức

đơn giản, cây quyết định có thể xử lý ở cả dữ liệu rời rạc và dữ liệu liên tục.

- Cây quyết định nhìn chung cho ra tỉ lệ chính xác khá cao và có thể tiến hành và

có thể thẩm định lại bằng kiểm tra thống kê.



SVTH: Trương Văn Quốc Anh



11



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



Cách thức hoạt động của cây quyết định

Đầu vào: tập D chứa dữ liệu huấn luyện.

Đầu ra: cây quyết định.

Đầu tiên giải thuật sẽ tạo ra một nút N để diễn tả tập dữ liệu D, trong trường

hợp D có tồn bộ dữ liệu có chung một nhãn lớp thì khi đó N sẽ thay thế là nút là có

nhãn là nhãn chung của các phần tử dữ liệu, thuật toán dừng lại. Hoặc nó sẽ dùng hàm

attribute_selection_method() tìm ra thuộc tính tốt nhất phân chia bộ dữ liệu D thành

các phần Di khi đó nút N sẽ được gán nhãn là thuộc tính tìm được.

Độ phức tạp của thuật tốn được xác đinh bằng công thức 𝑂(𝑛. |𝐷|. log(|𝐷|)),



U







với n số lượng thuộc tính mơ tả D. |D| là số các phần tử thuộc D. Nếu có một giá trị



Phương pháp xây dựng cây quyết định



TẾ



H



nào đó khơng phải là rời rạc thì khi đó phương pháp rời rạc được áp dụng.



N

H



Quá trình xây dựng cây quyết định bao gồm hai giai đoạn: tạo cây và tỉa cây.



KI



Để tạo cây thì ở thời điểm bắt đầu tất cả những ví dụ huấn luyện sẽ là ở gốc sau





C



đó phân chia ví dụ huấn luyện theo phương pháp đệ qui dựa trên những thuộc tính



H



được chọn.



Đ



ẠI



Việc tỉa cây là xác định và xóa đi các nhánh chứa các phần tử hỗn loạn hoặc



G



nằm ngồi vì khơng thể phân vào một lớp nào.







N



Q trình xây dựng cây quyết định có nhiều biến thể, tuy nhiên chúng vẫn đi



Ư



theo các bước sau:



TR



- Cây quyết định được xây dựng từ trên xuống theo cách thức chia để trị.

- Ở thời điểm bắt đầu các ví dụ huấn luyện sẽ nằm ở nút gốc.

- Các thuộc tính được tiến hành phân loại.

- Chọn ra một thuộc tính để phân chia các nhánh dựa trên độ đo thống kê hoặc

heuristic.

- Tiếp tục lặp lại quá trình này để xây dựng các nhánh cho cây cho đến khi các

mẫu cùng rơi vào một nút thuộc cùng một nút lá hoặc khơng còn thuộc tính nào để

phân chia nữa.



Thuật toán phân lớp cây quyết định ID3

SVTH: Trương Văn Quốc Anh



12



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



Thuật tốn quy nạp ID3 là một thuật toán đơn giản nhưng khá phổ biến và được

áp dụng rộng rãi ở rất nhiều lĩnh vực. [6]

Thuật toán ID3 biểu diễn các khái niệm ở dạng cây quyết định, cho phép chúng

ta xác định phân loại của một số đối tượng bằng cách kiểm tra giá trị của nó trên một

số thuộc tính nào đó.

Nhiệm vụ của ID3 là học cây quyết định trên tập các dữ liệu huấn luyện và gồm

có:

- Đầu vào: bao gồm một tập các ví dụ, với mỗi ví dụ sẽ có các thuộc tính mơ tả

tình huống và một giá trị phân loại của nó



U







- Đầu ra: cây quyết định có khả năng phân loại khá chính xác các ví dụ trong dữ



H



liệu huấn luyện và hy vọng có thể dự báo đúng cho các ví dụ tương lai.



TẾ



ID3 xây dựng cây quyết định theo giải thuật sau:



N

H



Function induce_tree(tập_ví_dụ, tập_thuộc_tính)



KI



begin





C



if mọi ví dụ trong tập_ví_dụ đều nằm trong cùng một lớp then



H



return một nút lá được gán nhãn bởi lớp đó



ẠI



else if tập_thuộc_tính là rỗng then



G



Đ



return nút lá được gán nhãn bởi tuyển của tất cả các lớp trong tập_ví_dụ



Ư



begin







N



else



TR



chọn một thuộc tính P, lấy nó làm gốc cho cây hiện tại;

xóa P ra khỏi tập_thuộc_tính;

với mỗi giá trị V của P

begin

tạo một nhánh của cây gán nhãn V;

Đặt vào phân_vùngV các ví dụ trong tập_ví_dụ có giá trị V tại thuộc tính P;

Gọi induce_tree(phân_vùngV, tập_thuộc_tính), gắn kết quả vào nhánh V

end

end

end



SVTH: Trương Văn Quốc Anh



13



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



Thuật toán C4.5

Thuật toán C4.5 là thuật toán phân lớp cây quyết định được cải tiến từ thuật toán

CLD và ID3 bởi J.Ross.Quinlan. Đây là một thuật tốn đơn giản và dễ sử dụng bởi nó

được biểu diễn dưới dạng câu lệnh IF THEN. [7]

Mã giả của tht tốn C4.5

Function C45_builder(tập_A, tập_thuộc_tính)

if (mọi record trong tập_A đều nằm trong cùng một lớp)



U







return một nút lá được gán nhãn bởi lớp đó



H



else



TẾ



if (tập_thuộc_tính là rỗng )



N

H



return nút lá được gán nhãn bởi tuy ển của tất cả các



KI



lớp trong tập_A;





C



else



H



Chọn một thuộc tính P, lấy nó làm gốc cho cây hiện tại;



ẠI



Xóa P ra khỏi tập_thuộc_tính;



G



Đ



For each (giá trị V của P)



N



Tạo một nhánh của cây gán nhãn V;



Ư







Đặt vào phân_vùng V các ví dụ trong tập_A có



TR



giá trị V tại thuộc tính P;

Gọi C45_builder (phân_vùng V, tập_thuộc_tính),

gắn kết quả vào nhánh V;



1.3.3 K - lân cận



Cơ sở lý thuyết.

K - lân cận hay k – nearest neighbours (K-NN) là một thuật toán Supervisedlearning đơn giản trong Machines Learning, phương pháp này hoạt động chủ yếu dựa

trên các phần tử lân cận của bộ dữ liệu huấn luyện. [8]



SVTH: Trương Văn Quốc Anh



14



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



Đối với tập dữ liệu chưa gán nhãn, K-NN sẽ tìm kiếm những tập dữ liệu gần nhất

với bộ dữ liệu chưa được gán nhãn đó.

Những tập dữ liệu K-NN này sẽ được tính bằng độ đo khoảng cách Euclide như

sau:

(1.1)



𝑛



𝑑𝑖𝑠𝑡(𝑋1 , 𝑋2 ) = ��(𝑥1𝑖 − 𝑥2𝑖 )2

𝑖=1



Cách thức hoạt động.







Xây dựng mơ hình K-NN bao gồm việc lưu trữ dữ liệu huấn luyện (train set) và



H



U



để dự đốn một tập dữ liệu mới thì thuật tốn K-NN sẽ tìm ra các lân cận hay láng



TR



Ư







N



G



Đ



ẠI



H





C



KI



N

H



TẾ



giềng trong tập dữ liệu huấn luyện gần với nó nhất.



Hình 1 . 6 Thuật tốn K-NN



SVTH: Trương Văn Quốc Anh



15



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



1.3.4 Support Vector Machine



Cơ sở lý thuyết.

Thuật toán phân lớp Support vector machines - SVM là thuật tốn thuộc lớp giải

thuật, nó được áp dụng để xử lý dữ liệu tuyến tính và cả dữ liệu phi tuyến tính. [9]

Thuật tốn SVM sử dụng một siêu phẳng để chẻ đôi dữ liệu. Nếu dữ liệu khơng

phải là dữ liệu tuyến tính thì nó sẽ tiến hành dùng một hàm nhân (kernel function) để

chuyển tập dữ liệu đó qua một khơng gian khác có nhiều chiều hơn để xử lý.

Đặc trưng của thuật toán này là tuy có thời gian xử lý khá dài nhưng nó lại cho ra







độ chính xác khá cao.



H



U



Cách thức hoạt động.



TẾ



Ta có một tập dữ liệu D có dạng (X1, y1), (X2, y2), …, (X|D|, y|D|), trong đó Xi là



N

H



tập các phần tử dữ liệu huấn luyện tương ứng với các nhãn yi của nó, yi có thể nhận giá

trị là -1 hoặc +1.



KI



Trong một bài tốn thì sẽ có vơ số đường phân tách các tập dữ liệu khác nhãn,





C



nhưng để giải quyết bài tốn thì chúng ta cần tìm phân tách tối ưu. SVM sẽ giải quyết



ẠI



H



bài toán này bằng cách tìm siêu phẳng viền tối đa. Siêu phẳng phân tách được biểu đạt



Đ



bằng công thức sau:



N



G



𝑊. 𝑋 + 𝑏 = 0



(1.2)



Ư

TR



là độ lệch.







W là vector trọng số với W = {w1, w2, …, wn} và n là số lượng các thuộc tính, b

𝑤1 . 𝑥1 + ⋯ + 𝑤𝑛 . 𝑥𝑛 + 𝑏 > 0 ℎ𝑎𝑦 𝑤1 . 𝑥1 + ⋯ + 𝑤𝑛 . 𝑥𝑛 + 𝑏 > 0



(1.3)



Phương trình tốn học sau cho phép phân chia dữ liệu bằng cách xác định dấu âm

hay dương đối với từng giá trị cụ thể của bộ dữ liệu.



SVTH: Trương Văn Quốc Anh



16



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

3 Các kỹ thuật phân lớp trong khai phá dữ liệu

Tải bản đầy đủ ngay(0 tr)

×