Nâng cao hiệu quả khai phá tập hữu ích cao bằng giải pháp chiếu ngược P-set

Trong khi khai phá tập phổ biến chỉ quan tâm đến sự xuất hiện của các mục trong giao dịch (nghĩa là chúng có hay không có trong các giao dịch) thì khai phá tập hữu ích cao (HUI - High Utility Itemset) lại quan tâm đến lợi nhuận thu được khi bán các tập mục cùng nhau.

Nâng cao hiệu quả khai phá tập hữu ích cao bằng giải pháp chiếu ngược P-set trang 1

Trang 1

Nâng cao hiệu quả khai phá tập hữu ích cao bằng giải pháp chiếu ngược P-set trang 2

Trang 2

Nâng cao hiệu quả khai phá tập hữu ích cao bằng giải pháp chiếu ngược P-set trang 3

Trang 3

Nâng cao hiệu quả khai phá tập hữu ích cao bằng giải pháp chiếu ngược P-set trang 4

Trang 4

Nâng cao hiệu quả khai phá tập hữu ích cao bằng giải pháp chiếu ngược P-set trang 5

Trang 5

Nâng cao hiệu quả khai phá tập hữu ích cao bằng giải pháp chiếu ngược P-set trang 6

Trang 6

Nâng cao hiệu quả khai phá tập hữu ích cao bằng giải pháp chiếu ngược P-set trang 7

Trang 7

Nâng cao hiệu quả khai phá tập hữu ích cao bằng giải pháp chiếu ngược P-set trang 8

Trang 8

pdf 8 trang Danh Thịnh 10/01/2024 5220
Bạn đang xem tài liệu "Nâng cao hiệu quả khai phá tập hữu ích cao bằng giải pháp chiếu ngược P-set", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Nâng cao hiệu quả khai phá tập hữu ích cao bằng giải pháp chiếu ngược P-set

Nâng cao hiệu quả khai phá tập hữu ích cao bằng giải pháp chiếu ngược P-set
122(11) 11.2017
Khoa học Tự nhiên
Đặt vấn đề
Khai phá tập phổ biến (FIM - Frequent Itemset Mining) 
được Agrawal giới thiệu vào năm 1993 khi phân tích mô 
hình dữ liệu siêu thị [1], làm cơ sở để mở rộng thành các bài 
toán khác trong lĩnh vực khai phá dữ liệu.
Trong các nghiên cứu về thị trường, FIM trong CSDL 
giao dịch chính là tìm các tập (itemset) thường xuyên xuất 
hiện trong các giao dịch. Các thuật toán khai phá tập phổ 
biến thường áp dụng tính chất bao đóng giảm (downward 
closure property) [2] để tăng khả năng tỉa các tập ứng viên 
thừa. Cụ thể, nếu có một tập không phổ biến X thì thuật toán 
không xét các tập ứng viên chứa tập X, nghĩa là với một bộ 
dữ liệu chứa n phần tử và X chứa k phần tử, thuật toán sẽ 
không xét 2(n-k) - 2 tập có chứa X.
 Tuy nhiên, tập phổ biến chỉ quan tâm đến việc có mua 
hay không mua các mặt hàng mà không quan tâm đến lợi 
nhuận thu được đối với từng mặt hàng. Vì vậy, bài toán 
khai phá tập hữu ích cao được đặt ra. Chúng ta xét ví dụ 
như ở hình 1 về dữ liệu bán hàng [3] để hiểu rõ hơn về bài 
toán khai phá tập phổ biến và bài toán khai phá HUI. Trong 
đó, bảng (1A) là bảng chứa giá trị lợi nhuận trên từng đơn 
vị sản phẩm (item) và bảng (1B) chứa thông tin từng giao 
dịch với từng sản phẩm tương ứng với số lượng bán được 
trong giao dịch đó. Với khai phá tập phổ biến không quan 
tâm đến bảng (1A) và số lượng ở bảng (1B), nhưng tập phổ 
biến chưa chắc là tập có giá trị hữu ích cao. Cụ thể, độ phổ 
biến của {bc} là 3, hữu ích là 18, trong khi {de} có giá trị 
lần lượt là 2 và 22.
Tương tự như tập phổ biến, một tập là HUI nếu giá trị 
hữu ích (chẳng hạn như lợi nhuận thu được khi bán itemset 
trong tất cả các giao dịch) phải đạt ngưỡng tối thiểu cho 
trước. Với tập hữu ích cao, tính chất bao đóng giảm không 
còn phù hợp, cụ thể: Các tập {a}, {ab}, {abc} có độ phổ 
biến lần lượt là 4, 3, 2 (thỏa mãn tính chất bao đóng giảm) 
nhưng giá trị hữu ích là 16, 26, 21. Nếu lấy ngưỡng là 20 thì 
Nâng cao hiệu quả khai phá tập hữu ích cao
bằng giải pháp chiếu ngược P-set
Võ Đình Bảy1*, Nguyễn Tấn Phúc2
1Khoa Công nghệ thông tin, Trường Đại học Công nghệ TP Hồ Chí Minh
2Trung tâm Ngoại ngữ - Tin học, Trường Đại học Khánh Hòa
Ngày nhận bài 3/7/2017; ngày chuyển phản biện 7/7//2017; ngày nhận phản biện 4/8/2017; ngày chấp nhận đăng 10/8/2017
Tóm tắt:
Trong khi khai phá tập phổ biến chỉ quan tâm đến sự xuất hiện của các mục trong giao dịch (nghĩa là chúng có hay 
không có trong các giao dịch) thì khai phá tập hữu ích cao (HUI - High Utility Itemset) lại quan tâm đến lợi nhuận 
thu được khi bán các tập mục cùng nhau. Đã có nhiều thuật toán được phát triển nhằm nâng cao hiệu quả khai phá 
HUI, trong đó EFIM (EFficient high-utility Itemset Mining) là thuật toán mới nhất áp dụng nhiều kỹ thuật để cải 
thiện tốc độ và không gian tìm kiếm. Tuy nhiên, EFIM vẫn còn tốn nhiều chi phí quét các dòng dữ liệu để xác định 
sự liên quan đến ứng viên đang xét làm giảm hiệu quả của thuật toán, đặc biệt là đối với cơ sở dữ liệu (CSDL) thưa. 
Bài báo này đề xuất giải pháp chiếu ngược P-set để giảm số lượng giao dịch cần xét trong thuật toán EFIM và vì vậy, 
làm giảm thời gian khai phá HUI. Một thuật toán cải tiến từ EFIM (IEFIM - Improve EFficient high-utility Itemset 
Mining) dựa trên P-set cũng được đề nghị. Kết quả thực nghiệm cho thấy, thuật toán IEFIM làm giảm đáng kể số 
lượng giao dịch cần xét và thời gian thực thi trên các CSDL thưa.
Từ khóa: Khai phá dữ liệu, khai phá tập hữu ích cao, tỉa ứng viên.
Chỉ số phân loại: 1.2
*Tác giả liên hệ: Email: bayvodinh@gmail.com
Hình 1. Dữ liệu bán hàng.
(B) Bảng giao dịch.
(A) Bảng lợi nhuận.
Item a b c d e g
Utility 1 2 1 5 4 3 1
Tid Giao dịch Số lượng
T1 {b,c,d,g} {1,2,1,1}
T2 {a,b,c,d,e} {4,1,3,1,1}
T3 {a,c,d} {4,2,1}
T4 {a,b,d,e} {5,2,1,2}
T5 {a,b,c,f} {3,4,1,2}
222(11) 11.2017
Khoa học Tự nhiên
ta chọn {ab}, {abc} và loại {a}, còn nếu lấy ngưỡng là 22 
thì chỉ mỗi {ab} được chọn. Vì vậy, các phương pháp khai 
phá tập phổ biến không thể áp dụng vào khai phá tập hữu 
ích cao.
Từ khi bài toán được phát biểu vào năm 2004 [4] đến nay, 
đã có nhiều thuật toán khai phá tập hữu ích cao được phát 
triển nhằm nâng cao hiệu quả khai phá: UMining (2004) 
[4], UMining-H (2006) [5], Two-Phase (2005) [6], IHUP 
(2009) [7], TWU-Mining (2009) [8], UP-Growth (2010) 
[9], DTWU-Mining (2011) [10], EFIM (2015) [11] và một 
số hướng phát triển khác của tập hữu ích cao, điển hình 
như khai phá tập đóng có CHUD (2011) [12], AprioriCH, 
AprioriHC-D (2015) [13]; khai phá Top-k HUI có TKU 
(2012) [14], TKO (2016) [15]; khai phá HUI trên luồng dữ 
liệu có THUI-Mine (2008) [16], GUIDE (2012) [17], hay 
khai phá HUI trên dữ liệu không chắc chắn [18].
Trong số các thuật toán khai phá tập hữu ích cao, EFIM 
được xem là thuật toán nhanh nhất với nhiều giải pháp để 
cải thiện không gian tìm kiếm và thời gian như kỹ thuật 
chiếu trên CSDL (Database Projection), trộn các giao dịch 
(Transaction Merging) và tính lại biên cận trên. Mặc dù cải 
thiện đáng kể về thời gian khai phá và bộ nhớ sử dụng so 
với các thuật toán trước đó (UP-Growth, HUI-Miner [3], 
UP-Growth [19], HUP-Miner [20]) nhưng EFIM vẫn quét 
thừa giao dịch dẫn đến: Tìm kiếm vị trí tập ứng viên trong 
giao dịch chưa hiệu quả; tăng thời gian tạo vùng dữ liệu 
để mở rộng ứng viên; duyệt qua cả những giao dịch không 
chứa ứng viên để tính giá trị hữu ích của tập ứng viên; hiệu 
quả về tốc độ tìm kiếm tập hữu ích không cao do thuật toán 
thực hiện đồng thời 3 công việc với mỗi giao dịch, kể cả 
giao dịch không chứa ứng viên (tìm kiếm vị trí ứng viên, 
thực hiện phép chiếu ứng viên trên giao dịch và tính độ hữu 
ích ứng viên).
Dựa trên các nhận xét trên, bài báo có một số đóng góp 
như sau: i) Đề xuất cấu trúc P-set với mục đích hạn chế số 
giao dịch tham gia trực tiếp vào quá trình khai phá tập hữu 
ích cao; ii) Đề xuất phương pháp chiếu ngược trên P-set 
giữa tập ứng viên và vùng dữ liệu đang xét nhằm hạn ...  thiểu
Output: Các tập hữu ích cao
1. X = ∅;
2. Duyệt D tính lu(X, i) cho tất cả i ∈ I;
3. Secondary(X) = {i|i ∈ I ∧ lu(X, i) ≥ minutil};
4. Sắp xếp tăng dần Secondary(X) theo giá trị TWU;
5. Duyệt D để xóa các phần tử i ∉ Secondary(X) ra khỏi 
các giao dịch và xóa các giao dịch rỗng;
6. Sắp xếp các giao dịch T tăng dần;
7. Duyệt D tính su(X,i) và Pex-set(X,i) cho từng phần tử i 
∈ Secondary(X);
8. Primary(X) = {i|i ∈ Secondary(X) ∧ su(X, i) ≥ minutil};
9. Search (X, D, Primary(X), Secondary(X), minutil,Pex-
set(X,i)).
Thủ tục Search 
Input: X: Tập phần tử đang xét, cD
x
: Các giao dịch được 
chiếu và trộn bởi X, Primary(X): Các phần tử chính 
X, Secondary(X): Các phần tử mở rộng của X, ngưỡng 
minutil,Pex-set(X,i): Tid các giao dịch dùng mở rộng X với 
{i}.
Output: Các tập hữu ích cao mở rộng từ x. 
1. Foreach item i ∈ P rimary (X) do 
2. β = X ∪ {i};
3. Dùng Pex-set(X,i) để duyệt D
x
 để tính u(β) và xây dựng 
D
e
; // dùng phép trộn giao dịch; 
4. If u(β) ≥ minutil then xuất β;
5. Duyệt β-D tính su(β, z), lu(β, z) và P-set-ex(β,z) cho tất 
cả z ∈ Secondary(X) sau i;
6. Primary(β) = {z ∈ Secondary(X)|su(β, z) ≥ minutil};
7. Secondary(β) = {z ∈ Secondary(X)|lu(β, z) ≥ minutil};
8. Search (β, D
e
, Primary(β), Secondary(β), minutil, 
Pex-set(β,z));
9. End.
Loại dữ liệu Số giao dịch Số phần tử
Độ dài 
trung bình
Đánh giá
Accident 340183 468 33,8 Đặc
BMS-POS 59601 497 4,8 Thưa
Chess 3196 75 37 Rất đặc
Foodmart 67557 129 43 Thưa
Kosarak 990002 41270 8,1 Thưa
Retail 87943 16465 10,3 Thưa
T10I4D100K 100000 870 10,1 Thưa
T40I10D100K 100000 942 39,6 Thưa
622(11) 11.2017
Khoa học Tự nhiên
Ngoài ra, các CSDL Retail, T10I4D100K, T40I10D100K 
được phát sinh ngẫu nhiên từ 1 đến 10 các giá trị: Độ hữu ích 
của từng phần tử và số lượng trong từng giao dịch, đặc điểm 
các bộ dữ liệu thực nghiệm chuẩn được mô tả tại bảng 1.
Chúng tôi chạy thực nghiệm trên các CSDL nêu trên và 
ghi lại thời gian thực hiện, số giao dịch được quét để thực 
hiện phép chiếu nhằm xây dựng vùng dữ liệu mới dùng mở 
rộng ứng viên và tính giá trị hữu ích.
2 
Số
 lư
ợn
g 
gi
ao
 d
ịc
h 
(n
gh
ìn
) 
Số
 lư
ợn
g 
gi
ao
 d
ịc
h 
(n
gh
ìn
) 
minutil (triệu) 
(A) Đồ thị so sánh số lượng giao dịch trên CSDL Accident. 
minutil (nghìn) 
(B) Đồ thị so sánh số lượng giao dịch trên CSDL BMS-POS. 
Số
 lư
ợn
g 
gi
ao
 d
ịc
h 
(tr
iệ
u)
Số
 lư
ợn
g 
gi
ao
 d
ịc
h 
(tr
iệ
u)
minutil (nghìn) 
(C) Đồ thị so sánh số lượng giao dịch trên CSDL Chess. 
minutil (nghìn) 
(D) Đồ thị so sánh số lượng giao dịch trên CSDL Foodmart. 
Số
 lư
ợn
g 
gi
ao
 d
ịc
h 
(tr
iệ
u)
Số
 lư
ợn
g 
gi
ao
 d
ịc
h 
(tr
iệ
u)
minutil (nghìn) 
(E) Đồ thị so sánh số lượng giao dịch trên CSDL Kosarak. 
minutil (nghìn) 
(F) Đồ thị so sánh số lượng giao dịch trên CSDL Retail. 
3 
Từ kết quả thực nghiệm được thể hiện qua các đồ thị so sánh số lượng giao dịch tham 
gia phép chiếu tạo vùng dữ liệu để mở rộng ứng viên và tính giá trị hữu ích của tập ứng viên 
(hình 5) ta có nhận xét, khi áp dụng phương pháp chiếu ngược, thuật toán IEFIM giảm hẳn 
số giao dịch, giảm từ 9 (như T40I10D100K, hình 5H) đến 400 lần (như Kosarak, hình 5E) 
đối với loại CSDL được đánh giá thưa, và tỷ lệ này giảm dần đối với các loại dữ liệu được 
đánh giá dày và rất dày, cụ thể với Accident và Chess (hình 5a và 5c), số lượng giao dịch 
được quét giảm không đáng kể. 
 Về thời gian thực hiện, thuật toán IEFIM nhanh hơn hẳn EFIM trên CSDL thưa, giảm 
thời gian thực hiện từ 2 (Foodmart, hình 6d) đến 60 lần (Retail, hình 6f). Đối với CSDL đặc/rất 
đặc như Accident, Chess thì thời gian cải thiện không đáng kể (hình 6a và 6c). 
Số
 lư
ợn
g g
iao
 dị
ch
 (t
riệ
u)
Số
 lư
ợn
g g
iao
 dị
ch
 (t
riệ
u)
minutil (nghìn) 
(G) Đồ thị so sánh số lượng giao dịch trên CSDL 10I4D100K. 
minutil (nghìn) 
(H) Đồ thị so sánh số lượng giao dịch trên CSDL T40I10D100K. 
Hình 5. Đồ thị so sánh số lượng giao dịch. 
Th
ời 
gia
n t
hự
c h
iện
 (g
iây
) 
Th
ời 
gia
n t
hự
c h
iện
 (
mi
li g
iây
) 
minutil (triệu) 
(A) Đồ thị so sánh thời gian trên CSDL Accident. 
minutil (nghìn) 
(B) Đồ thị so sánh thời gian trên CSDL BMS-POS. 
 Hình 5. Đồ thị so sánh số lượng giao dịch.
722(11) 11.2017
Khoa học Tự nhiên
Từ kết quả thực nghiệm được thể hiện qua các đồ thị so 
sánh số lượng giao dịch tham gia phép chiếu tạo vùng dữ 
liệu để mở rộng ứng viên và tính giá trị hữu ích của tập ứng 
viên (hình 5) ta có nhận xét, khi áp dụng phương pháp chiếu 
ngược, thuật toán IEFIM giảm hẳn số giao dịch, giảm từ 9 
(như T40I10D100K, hình 5H) đến 400 lần (như Kosarak, 
hình 5E) đối với loại CSDL được đánh giá thưa, và tỷ lệ này 
giảm dần đối với các loại dữ liệu được đánh giá dày và rất 
dày, cụ thể với Accident và Chess (hình 5A và 5C), số lượng 
giao dịch được quét giảm không đáng kể.
Về thời gian thực hiện, thuật toán IEFIM nhanh hơn 
hẳn EFIM trên CSDL thưa, giảm thời gian thực hiện từ 2 
(Foodmart, hình 6D) đến 60 lần (Retail, hình 6F). Đối với 
CSDL đặc/rất đặc như Accident, Chess thì thời gian cải thiện 
không đáng kể (hình 6A và 6C).
3 
Từ kết quả thực nghiệm được thể hiện qua các đồ thị so sánh số lượng giao dịch tham 
gia phép chiếu tạo vùng dữ liệu để mở rộng ứng viên và tính giá trị hữu ích của tập ứng viên 
(hình 5) ta có nhận xét, khi áp dụng phương pháp chiếu ngược, thuật toán IEFIM giảm hẳn 
số giao dịch, giảm từ 9 (như T40I10D100K, hình 5H) đến 400 lần (như Kosarak, hình 5E) 
đối với loại CSDL được đánh giá thưa, và tỷ lệ này giảm dần đối với các loại dữ liệu được 
đánh giá dày và rất dày, cụ thể với Accident và Chess (hình 5a và 5c), số lượng giao dịch 
được quét giảm không đáng kể. 
 Về thời gian thực hiện, thuật toán IEFIM nhanh hơn hẳn EFIM trên CSDL thưa, giảm 
thời gian thực hiện từ 2 (Foodmart, hình 6d) đến 60 lần (Retail, hình 6f). Đối với CSDL đặc/rất 
đặc như Accident, Chess thì thời gian cải thiện không đáng kể (hình 6a và 6c). 
Số
 lư
ợn
g g
iao
 dị
ch
 (t
riệ
u)
Số
 lư
ợn
g g
iao
 dị
ch
 (t
riệ
u)
minutil (nghìn) 
(G) Đồ thị so sánh số lượng giao dịch trên CSDL 10I4D100K. 
minutil (nghìn) 
(H) Đồ thị so sánh số lượng giao dịch trên CSDL T40I10D100K. 
Hình 5. Đồ thị so sánh số lượng giao dịch. 
Th
ời
 gi
an
 th
ực
 hi
ện
 (g
iây
) 
Th
ời
 gi
an
 th
ực
 hi
ện
 (
m
ili
 gi
ây
) 
minutil (triệu) 
(A) Đồ thị so sánh thời gian trên CSDL Accident. 
minutil (nghìn) 
(B) Đồ thị so sánh thời gian trên CSDL BMS-POS. 
4 
Th
ời
 gi
an
 th
ực
 hi
ện
 (
gi
ây
) 
Th
ời
 gi
an
 th
ực
 hi
ện
 (
m
ili
 gi
ây
) 
minutil (nghìn) 
(C) Đồ thị so sánh thời gian trên CSDL Chess. 
minutil 
(D) Đồ thị so sánh thời gian trên CSDL Foodmart. 
Th
ời
 gi
an
 th
ực
 hi
ện
 (
giâ
y)
Th
ời
 gi
an
 th
ực
 hi
ện
 (
giâ
y)
minutil (nghìn) 
(E) Đồ thị so sánh thời gian trên CSDL Kosarak. 
minutil 
(F) Đồ thị so sánh thời gian trên CSDL Retail. 
Hình 6. Đồ thị so sánh thời gian thực hiện.
5 
Th
ời
 g
ian
 th
ực
 hi
ện
 (
gi
ây
) 
Th
ời
 g
ian
 th
ực
 hi
ện
 (
gi
ây
) 
minutil (nghìn) 
(G) Đồ thị so sánh thời gian trên CSDL T10I4D100K. 
minutil (nghìn) 
(H) Đồ thị so sánh thời gian trên CSDL T40I10D100K. 
Hình 6. Đồ thị so sánh thời gian thực hiện. 
5 
Th
ời
 gi
an
 th
ực
 hi
ện
 (
gi
ây
) 
Th
ời
 gi
an
 th
ực
 hi
ện
 (
gi
ây
) 
minutil (nghìn) 
(G) Đồ thị so sánh thời gian trên CSDL T10I4D100K. 
minutil ( ghìn) 
(H) Đồ thị so sánh thời gia trên CSDL T40I D100K. 
Hình 6. Đồ thị o sán thời gian thực hiện. 
822(11) 11.2017
Khoa học Tự nhiên
 Nguyên nhân: Hiệu quả của thuật toán IEFIM tập trung 
vào việc giảm tổng số lần các giao dịch được quét qua phép 
chiếu để tạo vùng dữ liệu mới phục vụ mở rộng ứng viên, 
nên khi tỷ lệ chênh lệch này không đáng kể thì hiệu quả thuật 
toán cải tiến không nhiều. Tốc độ thuật toán không được cải 
thiện nhiều do việc giảm số lượng giao dịch thừa đối với 
CSDL dày và rất dày không đáng kể nhưng chi phí tạo phép 
chiếu ngược lại tăng so với các loại dữ liệu khác. Kết quả so 
sánh về số lượng giao dịch cần xét và thời gian chạy thuật 
toán thể hiện ở đồ thị minh họa ở hình 5 và hình 6.
Kết luận và hướng phát triển
Trong bài báo này, chúng tôi đã giới thiệu giải pháp 
chiếu ngược P-set để tăng tốc độ khai phá tập hữu ích cao 
bằng cách hạn chế quét các số giao dịch thừa. Bằng thực 
nghiệm đã chứng minh được hiệu quả của P-set với dữ liệu 
thưa và cũng phù hợp với các môi trường dữ liệu kinh doanh 
trong thực tế được thể hiện như Foodmart. Với hiệu quả này, 
chúng tôi sẽ tiếp tục nghiên cứu để áp dụng vào các hướng 
khai phá khác tập hữu ích cao như khai phá HUI đóng, khai 
phá Top-k HUI... Ngoài ra, việc lai ghép nhiều kỹ thuật khác 
nhau để tăng tốc độ, giảm không gian tìm kiếm và không 
gian bộ nhớ cũng được chúng tôi quan tâm.
LỜI CẢM ƠN
Nghiên cứu này được tài trợ bởi Quỹ Phát triển Khoa 
học và Công nghệ Quốc gia (NAFOSTED) trong khuôn khổ 
đề tài mã số 102.05-2015.10. Chúng tôi xin trân trọng cảm 
ơn.
TÀI LIỆU THAM KHẢO
[1] R. Agrawal, T. Imielinski, A.N. Swami (1993), “Mining association rules 
between sets of items in large databases”, Proceedings of the 1993 ACM 
SIGMOD International Conference on Management of Data, Washington D.C., 
pp.207-216. 
[2] R. Agrawal, R. Srikant (1994), “Fast algorithms for mining association 
rules in large databases”, Proc. Int’l Conf. Very Large Data Bases, pp.487-499. 
[3] M. Liu, J. Qu (2012), “High utility itemsets without candidate 
generation”, 21st ACM International Conference on Information and 
Knowledge Management, pp.55-64. 
[4] H. Yao, H.J. Hamilton, C.J. Butz (2004), “A foundational approach to 
mining itemset utilities from databases”, In Proc. SIAM Int’l Conf. Data Mining, 
pp.482-486. 
[5] H. Yao, H.J. Hamilton (2006), “Mining Itemset Utilitied from Transaction 
Databases”, Data and Knowledge Engeneering, 59(3), pp.603-626. 
[6] Y. Liu, W.K. Liao, A.N. Choudhary (2005), “A two-phase algorithm for 
fast discovery of high utility itemsets”, Proc. Pacific-Asia Conf. Knowledge 
Discovery and Data Mining, pp.689-695. 
[7] C. Ahmed, S.K. Tanbeer, B.S. Jeong, Y.K. Lee (2009), “Efficient tree 
structures for high utility pattern mining in incremental databases”, IEEE 
Transactions on Knowledge and Data Engineering, 21(12), pp.1708-1721. 
[8] B. Le, H. Nguyen, T.A. Cao, B. Vo (2009), “A Novel Algorithm for Mining 
High Utility Itemsets”, Proceedings of 1st Asian Conference on Intelligent 
Information and Database Systems, Quang Binh, Vietnam (IEEE press), pp.13-
17. 
[9] V.S. Tseng, C.W. Wu, B.E. Shie, P.S. Yu (2010), “Upgrowth: 
Anefficientalgorithm for high utility itemset mining”, Proc. ACM SIGKDD Int’l 
Conf. Knowledge Discovery and Data Mining, pp.253-262. 
[10] B. Le, H. Nguyen, B. Vo (2011), “An efficient strategy for mining high 
utility itemsets”, International Journal of Intelligent Information and Database 
Systems, 5(2), pp.164-176. 
[11] S. Zida, P. Fournier-Viger, J.C.W. Lin, C.W. Wu, V.S. Tseng (2015), 
“EFIM: A Highly Efficient Algorithm for High-Utility Itemset Mining”, Advances 
in Artificial Intelligence and Soft Computing, Springer., pp.530-546. 
[12] C.W. Wu, P. Fournier-Viger, P.S. Yu, V.S. Tseng (2011), “Efficient Mining 
of a Concise and Lossless Representation of High Utility Itemsets”, IEEE 11th 
International Conference on Data Mining, pp.824-833. 
[13] V.T. Tseng, C.W. Wu, P. Fournier-Viger, P.S. Yu (2015), “Efficient 
Algorithms for Mining the Concise and Lossless Representation of High Utility 
Itemsets”, IEEE Transactions on Knowledge and Data Engineering, 27(3), 
pp.726-739. 
[14] C.W. Wu, B.E. Shie, V.T. Tseng, P.S. Yu (2012), “Mining top-K high 
utility itemsets”, KDD ‘12 Proceedings of the 18th ACM SIGKDD international 
conference on Knowledge discovery and data mining , pp.78-86. 
[15] V.T. Tseng, C.W. Wu, P. Fournier-Viger, P.S. Yu (2016), “Efficient 
Algorithms for Mining Top-K High Utility Itemsets”, IEEE Transactions on 
Knowledge and Data Engineering, 28(1), pp.54-67. 
[16] C.J. Chu, V.S. Tseng, T. Liang (2008), “An efficient algorithm for mining 
temporal high utility itemsets from data streams”, Journal of Systems and 
Software, 81(7), pp.1105-1117. 
[17] Bai-En Shie, S. Yu Philip, V.S. Tseng (2012), “Efficient algorithms 
for mining maximal high utility itemsets from data streams with different 
models”, Expert Systems with Applications, 39(17), pp.12947-12960. 
[18] J.C.W. Lin, W. Gan, P. Fournier-Viger, T.P. Hong, V.T. Tseng (2016), 
“Efficient algorithms for mining high-utility itemsets in uncertain databases”, 
Knowledge-Based Systems, 96, pp.171-187. 
[19] V.S. Tseng, B.E. Shie, C.W. Wu, P.S. Yu (2013), “Efficient algorithms for 
mining high utility itemsets from transactional databases”, IEEE Transactions 
on Knowledge and Data Engineering, 25(8), pp.1772-1786. 
[20] K. Krishnamoorthy (2015), “Pruning strategies for mining high utility 
itemsets”, Expert Systems with Applications, 42(5), pp. 2371-2381. 
[21] M. Zaki (2000), “Scalable algorithms for association mining”, IEEE 
Transactions on Knowledge and Data Engineering, 12(3), pp.372-390. 
[22] J. Han, J. Pei, Y. Yin, R. Mao (2004), “Mining frequent patterns without 
candidate generation: A frequent pattern tree approach”, Data Mining and 
Knowledge Discovery, 8(1), pp.53-87. 
[23] P. Fournier-Viger, C.W. Wu, S. Zida, V.T. Tseng (2014), “FHM: Faster 
High-Utility Itemset Mining using Estimated Utility Co-occurrence Pruning”, 
Proc. 21st International Symposium on Methodologies for Intelligent Systems 
(ISMIS 2014), Springer, pp.83-92. 
[24] P. Fournier-Viger, A. Gomariz, T. Gueniche, A. Soltani, C.W. Wu, V.S. 
Tseng (2014), “SPMF: A java open-source pattern mining library”, The Journal 
of Machine Learning Research, 15(1), pp.3389-3393.

File đính kèm:

  • pdfnang_cao_hieu_qua_khai_pha_tap_huu_ich_cao_bang_giai_phap_ch.pdf