Tải bản đầy đủ
2 Lý thuyết tập thô

2 Lý thuyết tập thô

Tải bản đầy đủ

http://www.ictu.edu.vn
17

Định nghĩa tập thô:
Cho cơ sở tri thức K= (U, ℜ), X ⊆ U, R là một quan hệ tương đương trên U.
- X là có thể xác định trên R (R–definable): Nếu X là hợp của một số các phạm trù
sơ cấp trên R, được gọi là tập xác định, ngược lại X được gọi là tập thô (tập không
xác định trên R–Undefinable).
- Tập X ⊆ U được gọi là xác định trong cơ sở tri thức K nếu tồn tại một quan hệ
tương đương R ∈ IND(K) sao cho X là tập xác định trên R.
- X ⊆ U được gọi là tập thô trong K nếu X là tập thô trên với mọi R ∈ IND(K).
* Lý thuyết tập Thô:
Lý thuyết tập thô được đề xuất và giới thiệu bởi giáo sư Zdzislaw PawLak vào
những năm 80 của thế kỷ XX và nhanh chóng được xem như là công cụ xử lý các
thông tin mơ hồ và không chắc chắn, nó là một trong những phương pháp đang
được nhiều nhà khoa học nghiên cứu và sử dụng trong quá trình khai phá tri thức từ
dữ liệu.
Phương pháp này đóng vai trò hết sức quan trọng trong trí tuệ nhân tạo và các
ngành khoa học khác liên quan đến nhận thức, đặc biệt là lĩnh vực máy học, thu
nhận tri thức, phân tích quyết định, phát hiện và khám phá tri thức từ cơ sở dữ liệu,
các hệ chuyên gia, hệ hỗ trợ quyết định, lập luận dựa trên quy nạp và nhận dạng. Hệ
thống thông tin được đưa ra bởi PawLak đại diện cho tri thức và quan hệ của dữ
liệu.
Lý thuyết tập thô được sử dụng trong nhiều giai đoạn khác nhau của tiến trình
xử lý thông tin như:
- Tổ chức bảng quyết định đại diện cho hệ thống thông tin.
- Tính toán xấp xỉ trên và xấp xỉ dưới của tập hợp.
- Phân tích tri thức.
- Tính toán mức độ quan trọng của một thuộc tính.
- Tìm thuật toán quyết định từ tập luật sinh.
- Xác định và ước lượng sự phụ thuộc của tập thuộc tính.
- Tính định tập tối thiểu các thuộc tính từ rút gọn.
- Phân tích tính chắc chắn và tính mâu thuẫn của tập dữ liệu.

http://www.ictu.edu.vn
18

1.2.2 Bảng quyết định
Một tập dữ liệu được thể hiện dưới dạng bảng, trong đó mỗi dòng thể hiện một
trường hợp, một sự kiện hay đơn giản là một đối tượng. Mỗi cột của bảng thể hiện
một giá trị, một quan sát, một đặc điểm…gọi chung là một thuộc tính được “quy
định” cho từng đối tượng. Ngoài ra giá trị của thuộc tính cũng có thể được cung cấp
bởi chuyên gia hay người sử dụng. Một bảng như vậy gọi là một hệ thống thông tin
(Information system).
Như vậy, bảng quyết định là một hệ thống thông tin T có dạng T = (U , C , D) , với
C ∩ D = φ ; tập thuộc tính A được chia thành hai tập khác rỗng rời nhau C và D ,
C được gọi là tập thuộc tính điều kiện, còn D gọi là tập thuộc tính quyết định.

Và U là tập hữu hạn các đối tượng ( U ≠ φ ) được gọi là tập vũ trụ.
Trong nhiều ứng dụng thực tế, tập vũ trụ được phân chia thành các tập đối
tượng con bởi một tập các thuộc tính phân biệt được gọi là tập thuộc tính quyết
định. Hay nói cách khác, tập vũ trụ đã được phân lớp bởi thuộc tính quyết định. Hệ
thống thông tin chứa sự phân lớp này gọi là bảng quyết định.
Định nghĩa bảng quyết định:
Một cách tổng quát, bảng quyết định là một hệ thống thông tin bất kỳ có dạng:
T = (U , C , { d } ) , với d ∈ T là thuộc tính quyết định.

Các thuộc tính thuộc C được gọi là thuộc tính điều kiện.
Giả sử có T = (U , C , { d } ) và Vd = {v1 , v2 ,..., vr ( d ) } .
Thuộc tính quyết định d xác định một phân hoạch của tập tổng thể U , tại đó
X k = { x ∈ U : d ( x ) = vk } , với 1 ≤ k ≤ r ( d ) .

Tập X i được gọi là lớp quyết định thứ i của T . Và viết X d (U ) có nghĩa là có
lớp quyết định { x ∈ U : d ( x ) = d ( u )} với ∀u ∈ U .
Tổng quát hóa định nghĩa ở trên bằng dạng T = (U , C , D) , trong đó tập
D = { d1 , d 2 ,..., d k } là tập các thuộc tính quyết định và C ∩ D = φ .

http://www.ictu.edu.vn
19

Bảng quyết định là mô hình thường gặp trong thực tế, khi mà giá trị dữ liệu tại
các thuộc tính điều kiện có thể cung cấp cho ta thông tin về giá trị của thuộc tính
quyết định.
Bảng quyết định được gọi là xác định nếu như mọi giá trị của tập thuộc tính
quyết định được xác định duy nhất bởi các thuộc tính điều kiện.
Bảng quyết định gọi là không xác định nếu như cùng một tập thuộc tính điều
kiện cho trước, thuộc tính quyết định có nhiều giá trị. Thuộc tính điều kiện có thể có
nhiều hơn hai giá trị, tuy nhiên thông dụng là kiểu giá trị nhị phân.
Bảng quyết định được gọi là nhất quán nếu D phụ thuộc vào hàm C , tức là
với mọi u , v ∈ U , u ( C ) = v( C ) → u ( D ) = v( D ) , ngược lại thì gọi là không nhất quán hay
mâu thuẫn.
Tập các thuộc tính được gọi là một rút gọn của tập thuộc tính điều kiện C nếu
T ' = (U , R ∪ D ) là độc lập và tập thuộc tính ban đầu POS R ( D ) = POSC ( D ) . Hay nói

cách khác, R là tập rút gọn nếu nó là tập tối thiểu thoả mãn POS R ( D ) = POSC ( D ) .
Rõ ràng là có thể có nhiều tập rút gọn của C . Ta ký hiệu red ( C ) là tập tất cả các rút
gọn của C trong T . Một thuộc tính là cần thiết khi và chỉ khi nó thuộc vào mọi tập
rút gọn của C . Core (nghĩa tiếng Anh là lõi) được mô tả như là một tập các thuộc
tính rút gọn nhất trong bảng thuộc tính. Điều đó được thể hiện trong mệnh đề về
sau:
R
Mệnh đề 1.1. Core( C ) = R∈
red ( C )

Ví dụ: Xét một hệ thống thông tin A về bệnh cúm cho ở Bảng 1.1. Bảng này
có hai tập rút gọn là R1 = {Đau cơ, Thân nhiệt} (thể hiện ở Bảng 1.2)
Và R2 = {Đau đầu, Thân nhiệt} (thể hiện ở Bảng 1.3)
Như vậy, tập lõi là Core = {Thân nhiệt} và {Thân nhiệt} là thuộc tính cần thiết
duy nhất. Các thuộc tính {Đau đầu}, {Đau cơ} đều không cần thiết, nghĩa là từ
Bảng này nếu ta loại bỏ hai thuộc tính này thì vẫn chuẩn đoán được đúng bệnh.
Tức là:

POS {Đau cơ,Thân nhiệt}({Cảm cúm})= POS C({Cảm cúm}),
POS {Đau đầu,Thân nhiệt}({Cảm cúm})= POS C({Cảm cúm}).

http://www.ictu.edu.vn
20

Đối tượng
U
u1
u2
u3

Thuộc tính
Đau cơ
Thân nhiệt

Bình thường

Cao

Rất cao

Bình thường
Không
Cao

Rất cao

Đau đầu



Không
Không
Không

u4
u5
u6

Cảm cúm
Không


Không
Không


Bảng 1.1 Bảng hệ thống thông tin về bệnh cúm.
Đối tượng
U
u1 u4

Đau cơ


Thuộc tính
Thân nhiệt
Bình thường

u2
u3 u6




Cao
Rất cao




u5

Không

Cao

Không

,

,

Cảm cúm
Không

Bảng 1.2 Bảng rút gọn thứ nhất của hệ thống bệnh cúm (R1)
Đối tượng
U
u1
u2
u3
u4
u5
u6

Đau đầu



Không
Không
Không

Thuộc tính
Thân nhiệt
Bình thường
Cao
Rất cao
Bình thường
Cao
Rất cao

Cảm cúm
Không


Không
Không


Bảng 1.3 Bảng rút gọn thứ hai của hệ thống bệnh cúm (R2)
1.3 Kết luận chương 1
Nội dung của chương 1 tập trung giới thiệu và tìm hiểu về khía cạnh phát
hiện tri thức (KDD-Knowledge Data Development) nói chung và một trong các
bước quan trọng của tiến trình này đó là khai phá dữ liệu (DM-Data Mining). Đồng
thời đề cập tới một kỹ thuật nhằm khai phá dữ liệu, đó là kỹ thuật sử dụng lý thuyết
tập thô.
Kỹ thuật phát hiện tri thức và khai phá dữ liệu nhằm phát hiện những tri thức
tiềm ẩn, không biết trước, và có ích trong cơ sở dữ liệu. Đây là quá trình tự động rút

http://www.ictu.edu.vn
21

trích, tìm kiếm các “tri thức” bị che giấu trong một tập hợp “dữ liệu” rất lớn thông
qua các mẫu, mô hình trong khối dữ liệu. Quá trình khai phá tri thức thường được
áp dụng để giải quyết một loạt các yêu cầu nhằm phục vụ những mục đích nhất định
và mang tính chất hướng nhiệm vụ, không phải là phát hiện mọi tri thức mà phát
hiện những tri thức phục vụ tốt một nhiệm vụ đề ra. Và là quá trình tìm kiếm, khám
phá dưới nhiều góc độ khác nhau nhằm phát hiện các mối liên hệ, quan hệ giữa các
dữ kiện, đối tượng bên trong cơ sở dữ liệu, kết quả của việc khai phá là xác định các
mẫu hay các mô hình tồn tại bên trong nhưng chúng nằm ẩn ở các cơ sở dữ liệu
phục vụ cho mô tả và dự đoán, các tri thức này sau khi được rút trích sẽ hỗ trợ cho
việc ra quyết định, điều hành trong khoa học, nghiên cứu, sản xuất kinh doanh.
Trong các kỹ thuật khai phá dữ liệu, kỹ thuật khai phá sử dụng lý thuyết tập thô
hiện nay cũng là một trong những lĩnh vực đang được quan tâm, nghiên cứu nhằm
hỗ trợ giải quyết các bài toán trong thực tế.