Tải bản đầy đủ
LÝ THUYẾT TẬP THÔ

LÝ THUYẾT TẬP THÔ

Tải bản đầy đủ

http://www.ictu.edu.vn
9

đề…Tri thức được rút ra có thể được dùng cho các mục đích cung cấp các hiểu biết
sâu sắc và hữu ích về hành vi của các đối tượng (giải thích dữ liệu) hay dự đoán giá
trị của những đối tượng mới (dự báo).
Phương pháp này thường giúp con người tạo ra các quyết định hoặc giải quyết
hiện tượng quan sát được. Tri thức ở đây có thể được hiểu là một biểu thức trong
một ngôn ngữ nào đó diễn tả một hoặc nhiều mối quan hệ giữa các thuộc tính trong
các dữ liệu đó, hay tri thức chính là các thông tin tích hợp, bao gồm các sự kiện và
các mối quan hệ giữa chúng. Vậy tri thức được xem như là dữ liệu ở mức trừu
tượng hoá và tổng quát hoá cao, còn dữ liệu là thông tin về một nhóm đối tượng nào
đó, thông thường nó được coi như là một dãy các bit, hoặc các số, các ký hiệu mang
một ý nghĩa nào đó khi được gửi cho một chương trình dưới một dạng nhất định.
Quá trình khai phá tri thức nhằm mục đích rút ra được tri thức mới sau một số
bước từ những cơ sở dữ liệu trong thực tế. Tiến trình của nó bao gồm các bước
chính như sau:

Hình 1.1: Mô hình mô tả quá trình khai phá tri thức
Bước 1: Xác định và định nghĩa vấn đề:
- Tìm hiểu lĩnh vực ứng dụng và nhiệm vụ đề ra, xác định các tri thức đã có và
các mục tiêu của người sử dụng.
- Tạo và chọn lựa cơ sở dữ liệu.

http://www.ictu.edu.vn
10

Bước này quyết định cho việc chọn lọc, rút trích được các tri thức hữu ích và
cần thiết từ cơ sở dữ liệu và cho phép chọn các phương pháp khai phá dữ liệu thích
hợp với mục đích ứng dụng và bản chất của dữ liệu.
Bước 2: Thu thập và tiền xử lý dữ liệu
- Xử lý và làm sạch dữ liệu trước: Bỏ đi các dữ liệu tạp (nhiễu) bao gồm các
dữ liệu không cần thiết, các lỗi và các dạng không bình thường. Xử lý việc thiếu
hay mất mát dữ liệu, chuyển đổi dữ liệu phù hợp.
- Rút gọn kích thước dữ liệu nhận được: Nhận ra các thuộc tính hữu ích cho
quá trình phát hiện tri thức.
Bước này thường chiếm nhiều thời gian nhất trong toàn bộ qui trình phát hiện
tri thức.
Bước 3: Khai phá dữ liệu:
- Chọn nhiệm vụ khai phá dữ liệu.
- Lựa chọn các phương pháp khai phá dữ liệu.
- Khai phá dữ liệu để rút ra các mẫu, các mô hình.
1.1.2 Khai phá dữ liệu
Khai phá dữ liệu (DM-Data Mining) là một khái niệm ra đời vào cuối những
năm 80 của thế kỷ 20, từ những năm 90 nó bắt đầu khởi phát, cho tới thế kỷ 21, rất
nhiều các khái niệm gần đúng với nó ví dụ KDD (Knowledge Data Development),
phân tích dữ liệu, data fusion, data warehouse…
Trong lúc này, một lĩnh vực nằm trong ngành trí tuệ nhân tạo là học máy đang
không ngừng phát triển. Học máy làm nâng cao tính năng của những chương trình
máy tính, thu nhận được từ nhiều ngành khoa học khác nhau bao gồm: trí tuệ nhân
tạo, xác suất thống kê, tâm lý học, triết học…rồi căn cứ vào những mô hình học
khác nhau để đưa ra phương pháp học, ví dụ: học không giám sát, học có giám sát,
mạng neural và di truyền…
Tóm lại, Data Mining là việc tiến hành xử lý, khai phá từ trong kho dữ liệu
lớn, không hoàn chỉnh, nhiều nhiễu, mơ hồ, để trích rút ra những thông tin có giá
trị, có tri thức.

http://www.ictu.edu.vn
11

Khai phá dữ liệu là quá trình tìm kiếm, khám phá dưới nhiều góc độ khác nhau
nhằm phát hiện các mối liên hệ, quan hệ giữa các dữ kiện, đối tượng bên trong cơ
sở dữ liệu, kết quả của việc khai phá là xác định các mẫu hay các mô hình tồn tại
bên trong nhưng chúng nằm ẩn ở các cơ sở dữ liệu. Về bản chất, nó là giai đoạn duy
nhất rút trích và tìm ra được các mẫu, các mô hình hay thông tin mới, tri thức tiềm
ẩn có trong cơ sở dữ liệu chủ yếu phục vụ cho mô tả và dự đoán. Đây là giai đoạn
quan trọng nhất trong quá trình phát hiện ra tri thức từ cơ sở dữ liệu, các tri thức này
hỗ trợ trong việc ra quyết định, điều hành trong khoa học và kinh doanh, nó là quá
trình rất khó khăn, gặp phải nhiều vướng mắc như: quản lý các tệp dữ liệu, phải lặp
đi lặp lại toàn bộ quá trình.
1.1.2.1 Một số khía cạnh khai phá chủ yếu
* Phân tích kết hợp (Association Analysic)
Khai phá luật kết hợp do Rakesh Apwal và cộng sự cùng đưa ra. Giá trị giữa 2
biến hoặc từ hai biến trở lên tồn tại một tính quy luật được gọi là kết hợp. Luật kết
hợp dữ liệu là một vấn đề khá quan trọng trong kho dữ liệu, để nhằm phát hiện ra tri
thức. Phân tích kết hợp được phân thành kết hợp đơn giản, kết hợp time-series và
kết hợp nhân quả. Mục đích của phân tích kết hợp là tìm ra mạng kết hợp tiềm ẩn
trong kho dữ liệu.
* Phân lớp (Clustering)
Phân lớp là căn cứ vào tính chất của dữ liệu để phân thành từng lớp khác nhau.
Trong một lớp dữ liệu có nhiều đặc tính tương thích, phân lớp là căn cứ vào các đặc
trưng khái quát của dữ liệu để phân chúng thành từng lớp khác nhau, ví dụ như căn
cứ vào mô hình phân bố của dữ liệu, quan hệ giữa các thuộc tính của dữ liệu.
* Phân loại (Classification)
Phân loại là tìm ra khái niệm miêu tả của một lớp nào đó, nó đại diện cho
chỉnh thể tin tức của dữ liệu, rồi dựa vào hàm miêu tả, đồng thời dùng hàm mô tả
này để miêu tả mô hình dữ liệu. Thông thường, dùng mô hình cây quyết định để
biểu thị. Phân loại là lợi dụng việc huấn luyện tập dữ liệu thông qua một số các
thuật toán nhất định để đạt được quy tắc phân loại.

http://www.ictu.edu.vn
12

* Dự đoán (Predication)
Dự đoán là lợi dụng lịch sử của dữ liệu để tìm ra được quy luật biến hóa, xây
dựng mô hình, đồng thời từ mô hình đó để áp dụng vào loại dữ liệu trong tương lai
để tiến hành khẳng định. Khẳng định quan tâm tới độ tinh và tính chuẩn xác, thông
thường dùng phương sai của khẳng định để đo lường.
* Mô hình chuỗi thời gian (Time-Series)
Time-series chỉ sự thông qua sự tuần tự của thời gian tìm kiếm những mô hình
phát sinh. Tựa như hồi quy, nó cũng dùng để nhận biết giá trị tương lai của dữ liệu.
* Độ lệch (Deviation)
Trong độ lệch bao gồm rất nhiều tri thức, trong kho dữ liệu, dữ liệu tồn tại
những khác biệt, phát hiện những khác biệt trong kho dữ liệu là rất quan trọng. Độ
lệch giữa kết quả quan sát được, giữa giá trị trả về theo tính toán và kết quả thực
tế.
1.1.2.2 Một số kỹ thuật Khai phá dữ liệu
Các kỹ thuật của DM bao gồm học máy, trí tuệ nhân tạo và thống kê học. Trí
tuệ nhân tạo được áp dụng trong học máy thông qua các giải pháp của trí tuệ nhân
tạo để nâng cao hiệu quả học, giải quyết những vấn đề khoa học và kỹ thuật còn tồn
tại. Dưới đây là một số phương thức mà khai phá dữ liệu thường dùng:
* Mạng neural nhân tạo (Artificial Neural Networks)
Mạng neural là một trong những kỹ thuật được ứng dụng rất phổ biến hiện
nay, nó là cách tiếp cận tính toán mới liên quan đến việc phát triển các cấu trúc toán
học dựa trên nền tảng toán học vững vàng. Các phương pháp là kết quả của việc
nghiên cứu mô hình của hệ thống thần kinh con người. Mạng neural có thể đưa ra ý
nghĩa từ các dữ liệu phức tạp hoặc không chính xác và có thể sử dụng để truy xuất
các mẫu và phát hiện ra các xu hướng quá phức tạp mà con người cũng như các kỹ
thuật máy tính khác không thể phát hiện được.
Mạng neural mô tả kết cấu của bộ não người. Cơ sở của nó là mô hình MP và
phương pháp học Hebb. Nó có 3 mô hình mạng thần kinh chính:
(1). Mạng lan truyền tiến (mô hình học không giám sát).

http://www.ictu.edu.vn
13

(2). Mạng lan truyền ngược (giống mô hình mạng Hopfield).
(3). Mạng tự tổ chức như mô hình ART, Koholon (thường dùng trong trường
hợp phân cụm, phân lớp…)
Tư tưởng của phương pháp này được bắt đầu bằng việc cho một tập dữ liệu,
gọi là tập dữ liệu huấn luyện, mạng sẽ tự động điều chỉnh (học) qua từng lớp trong
mạng và cho ra kết quả, quá trình huấn luyện được lặp đi lặp lại nhiều lần. Sau khi
mạng học thành công thì nó được xem như là một chuyên gia trong lĩnh vực thông
tin.
Mạng neural là khả năng tạo ra các mô hình dự đoán có độ chính xác cao, có
thể phát hiện ra các xu hướng phức tạp mà các kỹ thuật thông thường khác khó có
thể phát hiện ra được. Vì vậy, phương pháp này được ứng dụng rộng rãi và áp dụng
cho rất nhiều các loại bài toán khác nhau, đáp ứng được các nhiệm vụ đặt ra của
khai phá dữ liệu như phân lớp, phân nhóm, mô hình hoá, dự báo các sự kiện phụ
thuộc vào thời gian…
Tuy nhiên kỹ thuật này cũng có một số mặt hạn chế như: Vấn đề huấn luyện
của mạng cần mất nhiều thời gian, nhiều dữ liệu, nhiều lần thử nghiệm và công phu,
mà trong môi trường cạnh tranh và hội nhập thì ngoài yếu tố chính xác còn phải
nhanh, kịp thời thì mới có hiệu quả, bên cạnh đó việc chọn và xây dựng các hàm
tính toán cho mạng phù hợp với yêu cầu bài toán là vấn đề không hề đơn giản, việc
chọn và xây dựng mô hình cho mạng, việc lựa chọn thời điểm để kết thúc việc huấn
luyện của mạng cũng gặp phải những vấn đề khó khăn.
* Phương pháp di truyền (Genetic Algorithms)
Giải thuật di truyền là áp dụng quá trình tiến hóa của sinh vật, do yếu tố cấu
thành:
(1). Lựa chọn (Selection): Lựa chọn cá thể trong một quần thể để lai ghép.
(2). Lai ghép (Crossover): Là quá trình lựa chọn 2 cá thể độc lập để lai ghép.
(3). Biến dị (Mutation): Là quá trình biến dị trên từng cá thể (ví dụ 0 biến 1, 1
biến 0…) để tạo ra một cá thể mới.

http://www.ictu.edu.vn
14

Giải thuật di truyền thường dùng để sản sinh ra cá thể tốt hơn ở đời sau nhằm
thỏa mãn một giá trị nào đó, thông qua quá trình di truyền, lai ghép, biến dị. Giải
thuật này thường dùng trong tính toán và phân loại học máy.
* Tập mờ (Fuzzy Set)
Lý thuyết tập mờ là một phương pháp tiện lợi trong việc xử lý và biểu diễn các
dạng dữ liệu không xác định. Tập mờ không chỉ sử dụng trong việc biểu diễn và xử
lý các dạng dữ liệu không toàn vẹn, không xác định mà còn sử dụng rất tốt trong
việc xử lý và phát triển các dạng cấu trúc mô hình dữ liệu không xác định, nó có
tính năng linh hoạt hơn nhiều so với những phương pháp truyền thống.
* Hệ thống miễn dịch nhân tạo(Artificial Immune System)
Hệ thống miễn dịch nhân tạo mô phỏng hệ thống miễn dịch sinh vật. Trong nó
bao gồm mạng neural, thuật giải di truyền, hệ thống tổ kiến,…Nó được coi như một
mô hình tiến hóa cấp cao, có khả năng kháng trừ các tác nhân khác và bảo trì sự ổn
định. Các khái niệm liên quan tới AIS:miễn dịch (Immunity), kháng thể (Antibody),
kháng nguyên (Antigen), Self and Non-Self, tế bào miễn dịch, tế bào B, tế bào T…
* Cây quyết định (Decision Trees)
Cây quyết định là một mô tả tri thức dạng đơn giản nhằm phân đối tượng dữ
liệu thành một số lớp nhất định, hoặc các giá trị của các đối tượng dữ liệu chưa
được biết sẽ được dự đoán, dự báo, là phương pháp dùng trong bài toán phân đoạn
dữ liệu theo một tiêu chuẩn nào đó dựa trên mức độ khác nhau của thuộc tính.
Trong khai phá dữ liệu, kỹ thuật này là một công cụ mạnh và hiệu quả trong việc
phân lớp và dự báo. Tri thức được rút ra trong kỹ thuật này thường được mô tả dưới
dạng tường minh, đơn giản, trực quan dễ hiểu đối với người sử dụng. Tuy nhiên, nó
đòi hỏi một không gian nhất định, để mô tả tri thức trong một phạm vi mà con
người có thể hiểu được.
Cây quyết định là sử dụng những thông tin lập luận để tìm kiếm những đặc
trưng trong lượng thông tin lớn để tạo thành các điểm. Trên thực tế, người ta thường
sử dụng và ảnh hưởng nhiều nhất bởi cây quyết định do Qiulan nghiên cứu và
phương pháp ID3.

http://www.ictu.edu.vn
15

Các nút của cây được gắn nhãn là tên các thuộc tính, các lá miêu tả các lớp
khác nhau. Các đối tượng được phân theo lớp các đường đi trên cây, qua các cạnh
tương ứng với giá trị thuộc tính của đối tượng lá.

Hình 1.2: Mô tả cây quyết định
Trong hình 1.2 là cây quyết định cho việc chơi bóng đá của một số câu lạc bộ,
cho biết các câu lạc bộ sẽ thi đấu hay không thi đấu. Mỗi nút lá đại diện một lớp mà
việc đánh giá trận đấu bóng sẽ diễn ra hay không (có hay không). Sau khi mô hình
này được xây dựng chúng ta có thể dự đoán việc có thể diễn ra trận đấu hay không
dựa vào những thuộc tính như thời tiết bên ngoài trời, độ ẩm, gió. Cây quyết định
có thể ứng dụng rộng rãi trong nhiều lĩnh vực và hoạt động của đời sống con người.
* Tạo luật
Các luật được tạo ra nhằm suy diễn một số mẫu dữ liệu có ý nghĩa về mặt
thống kê. Các luật có dạng Nếu P thì Q , với P là mệnh đề đúng với một phần dữ
liệu trong cơ sở dữ liệu, Q là mệnh đề dự đoán.
* Tập thô (Rough Set)
Thông qua những tri thức đã hiểu để tiến hành phân hoạch, mỗi một phân
hoạch là một tập được gọi là khái niệm, tư tưởng chủ yếu là lợi dụng kho tri thức đã
biết, để áp dụng vào trong một kho tri thức chưa toàn vẹn, chưa xác định để tiến
hành phân hoạch và xử lý.
Lý thuyết tập thô lần đầu tiên được đề xuất bởi Z.Pawiak và nhanh chóng
được xem như là công cụ xử lý các thông tin mơ hồ và không chắc chắn. Phương

http://www.ictu.edu.vn
16

pháp này đóng vai trò hết sức quan trọng trong trí tuệ nhân tạo và các ngành khoa
học khác liên quan đến nhận thức, đặc biệt là lĩnh vực máy học, thu nhận tri thức,
phân tích quyết định, phát hiện và khám phá tri thức từ cơ sở dữ liệu, các hệ chuyên
gia, hệ hỗ trợ quyết định, lập luận dựa trên quy nạp và nhận dạng.
Lý thuyết tập thô dựa trên giả thiết rằng để định nghĩa một tập hợp chúng ta
cần phải có thông tin về mọi đối tượng trong tập vũ trụ. Ví dụ, nếu các đối tượng là
các bệnh nhân bị một bệnh nhất định thì các triệu chứng của bệnh tạo thành thông
tin của bệnh nhân. Như vậy, tập thô có quan điểm hoàn toàn khác với quan điểm
truyền thống của tập hợp, trong đó mọi tập hợp đều được định nghĩa duy nhất bởi
các phần tử của nó mà không cần biết bất kỳ thông tin nào của các phần tử thuộc tập
hợp. Rõ ràng có thể tồn tại một số đối tượng giống nhau ở một số thông tin nào đó,
và ta nói rằng chúng có quan hệ không phân biệt được. Đây chính là quan hệ mấu
chốt và chính là điểm xuất phát của lý thuyết tập thô: biên giới của tập thô là không
rõ ràng, chúng ta phải xấp xỉ nó bằng các tập hợp khác, nhằm mục đích cuối cùng là
trả lời được rằng một đối tượng nào đó thuộc tập hợp hay không. Lý thuyết tập thô
với cách tiếp cận như vậy đã được ứng dụng rất rộng rãi.
1.2 Lý thuyết tập thô
1.2.1 Giới thiệu về tập thô
Khai phá tri thức là phương pháp giúp con người trích dẫn tri thức từ lượng
lớn dữ liệu, phương pháp này thường giúp con người tạo ra quyết định hoặc giải
thích các hiện tượng quan sát được. Phương pháp khai phá tri thức và công cụ khai
phá dữ liệu đang ngày càng được quan tâm và sử dụng rộng rãi trong nhiều lĩnh
vực.
Phương pháp khai phá tri thức thường được bắt đầu bằng việc lấy mẫu, chọn
lọc thuộc tính và trừu tượng hóa, biến đổi và rút gọn kích thước, trích dẫn dữ liệu,
mô hình hóa hiện tượng vật lý, thường sử dụng các thuật toán từ những giả thiết về
dữ liệu cho trước.
Có rất nhiều kỹ thuật khai phá dữ liệu, mỗi kỹ thuật có những đặc điểm riêng
phù hợp với một lớp các bài toán, với các dạng dữ liệu và miền dữ liệu nhất định.
Một trong số những kỹ thuật đó là khai phá tri thức theo cách tiếp cận tập thô.

http://www.ictu.edu.vn
17

Định nghĩa tập thô:
Cho cơ sở tri thức K= (U, ℜ), X ⊆ U, R là một quan hệ tương đương trên U.
- X là có thể xác định trên R (R–definable): Nếu X là hợp của một số các phạm trù
sơ cấp trên R, được gọi là tập xác định, ngược lại X được gọi là tập thô (tập không
xác định trên R–Undefinable).
- Tập X ⊆ U được gọi là xác định trong cơ sở tri thức K nếu tồn tại một quan hệ
tương đương R ∈ IND(K) sao cho X là tập xác định trên R.
- X ⊆ U được gọi là tập thô trong K nếu X là tập thô trên với mọi R ∈ IND(K).
* Lý thuyết tập Thô:
Lý thuyết tập thô được đề xuất và giới thiệu bởi giáo sư Zdzislaw PawLak vào
những năm 80 của thế kỷ XX và nhanh chóng được xem như là công cụ xử lý các
thông tin mơ hồ và không chắc chắn, nó là một trong những phương pháp đang
được nhiều nhà khoa học nghiên cứu và sử dụng trong quá trình khai phá tri thức từ
dữ liệu.
Phương pháp này đóng vai trò hết sức quan trọng trong trí tuệ nhân tạo và các
ngành khoa học khác liên quan đến nhận thức, đặc biệt là lĩnh vực máy học, thu
nhận tri thức, phân tích quyết định, phát hiện và khám phá tri thức từ cơ sở dữ liệu,
các hệ chuyên gia, hệ hỗ trợ quyết định, lập luận dựa trên quy nạp và nhận dạng. Hệ
thống thông tin được đưa ra bởi PawLak đại diện cho tri thức và quan hệ của dữ
liệu.
Lý thuyết tập thô được sử dụng trong nhiều giai đoạn khác nhau của tiến trình
xử lý thông tin như:
- Tổ chức bảng quyết định đại diện cho hệ thống thông tin.
- Tính toán xấp xỉ trên và xấp xỉ dưới của tập hợp.
- Phân tích tri thức.
- Tính toán mức độ quan trọng của một thuộc tính.
- Tìm thuật toán quyết định từ tập luật sinh.
- Xác định và ước lượng sự phụ thuộc của tập thuộc tính.
- Tính định tập tối thiểu các thuộc tính từ rút gọn.
- Phân tích tính chắc chắn và tính mâu thuẫn của tập dữ liệu.

http://www.ictu.edu.vn
18

1.2.2 Bảng quyết định
Một tập dữ liệu được thể hiện dưới dạng bảng, trong đó mỗi dòng thể hiện một
trường hợp, một sự kiện hay đơn giản là một đối tượng. Mỗi cột của bảng thể hiện
một giá trị, một quan sát, một đặc điểm…gọi chung là một thuộc tính được “quy
định” cho từng đối tượng. Ngoài ra giá trị của thuộc tính cũng có thể được cung cấp
bởi chuyên gia hay người sử dụng. Một bảng như vậy gọi là một hệ thống thông tin
(Information system).
Như vậy, bảng quyết định là một hệ thống thông tin T có dạng T = (U , C , D) , với
C ∩ D = φ ; tập thuộc tính A được chia thành hai tập khác rỗng rời nhau C và D ,
C được gọi là tập thuộc tính điều kiện, còn D gọi là tập thuộc tính quyết định.

Và U là tập hữu hạn các đối tượng ( U ≠ φ ) được gọi là tập vũ trụ.
Trong nhiều ứng dụng thực tế, tập vũ trụ được phân chia thành các tập đối
tượng con bởi một tập các thuộc tính phân biệt được gọi là tập thuộc tính quyết
định. Hay nói cách khác, tập vũ trụ đã được phân lớp bởi thuộc tính quyết định. Hệ
thống thông tin chứa sự phân lớp này gọi là bảng quyết định.
Định nghĩa bảng quyết định:
Một cách tổng quát, bảng quyết định là một hệ thống thông tin bất kỳ có dạng:
T = (U , C , { d } ) , với d ∈ T là thuộc tính quyết định.

Các thuộc tính thuộc C được gọi là thuộc tính điều kiện.
Giả sử có T = (U , C , { d } ) và Vd = {v1 , v2 ,..., vr ( d ) } .
Thuộc tính quyết định d xác định một phân hoạch của tập tổng thể U , tại đó
X k = { x ∈ U : d ( x ) = vk } , với 1 ≤ k ≤ r ( d ) .

Tập X i được gọi là lớp quyết định thứ i của T . Và viết X d (U ) có nghĩa là có
lớp quyết định { x ∈ U : d ( x ) = d ( u )} với ∀u ∈ U .
Tổng quát hóa định nghĩa ở trên bằng dạng T = (U , C , D) , trong đó tập
D = { d1 , d 2 ,..., d k } là tập các thuộc tính quyết định và C ∩ D = φ .

http://www.ictu.edu.vn
19

Bảng quyết định là mô hình thường gặp trong thực tế, khi mà giá trị dữ liệu tại
các thuộc tính điều kiện có thể cung cấp cho ta thông tin về giá trị của thuộc tính
quyết định.
Bảng quyết định được gọi là xác định nếu như mọi giá trị của tập thuộc tính
quyết định được xác định duy nhất bởi các thuộc tính điều kiện.
Bảng quyết định gọi là không xác định nếu như cùng một tập thuộc tính điều
kiện cho trước, thuộc tính quyết định có nhiều giá trị. Thuộc tính điều kiện có thể có
nhiều hơn hai giá trị, tuy nhiên thông dụng là kiểu giá trị nhị phân.
Bảng quyết định được gọi là nhất quán nếu D phụ thuộc vào hàm C , tức là
với mọi u , v ∈ U , u ( C ) = v( C ) → u ( D ) = v( D ) , ngược lại thì gọi là không nhất quán hay
mâu thuẫn.
Tập các thuộc tính được gọi là một rút gọn của tập thuộc tính điều kiện C nếu
T ' = (U , R ∪ D ) là độc lập và tập thuộc tính ban đầu POS R ( D ) = POSC ( D ) . Hay nói

cách khác, R là tập rút gọn nếu nó là tập tối thiểu thoả mãn POS R ( D ) = POSC ( D ) .
Rõ ràng là có thể có nhiều tập rút gọn của C . Ta ký hiệu red ( C ) là tập tất cả các rút
gọn của C trong T . Một thuộc tính là cần thiết khi và chỉ khi nó thuộc vào mọi tập
rút gọn của C . Core (nghĩa tiếng Anh là lõi) được mô tả như là một tập các thuộc
tính rút gọn nhất trong bảng thuộc tính. Điều đó được thể hiện trong mệnh đề về
sau:
R
Mệnh đề 1.1. Core( C ) = R∈
red ( C )

Ví dụ: Xét một hệ thống thông tin A về bệnh cúm cho ở Bảng 1.1. Bảng này
có hai tập rút gọn là R1 = {Đau cơ, Thân nhiệt} (thể hiện ở Bảng 1.2)
Và R2 = {Đau đầu, Thân nhiệt} (thể hiện ở Bảng 1.3)
Như vậy, tập lõi là Core = {Thân nhiệt} và {Thân nhiệt} là thuộc tính cần thiết
duy nhất. Các thuộc tính {Đau đầu}, {Đau cơ} đều không cần thiết, nghĩa là từ
Bảng này nếu ta loại bỏ hai thuộc tính này thì vẫn chuẩn đoán được đúng bệnh.
Tức là:

POS {Đau cơ,Thân nhiệt}({Cảm cúm})= POS C({Cảm cúm}),
POS {Đau đầu,Thân nhiệt}({Cảm cúm})= POS C({Cảm cúm}).