Trích chọn collocation tiếng Việt từ kho ngữ liệu văn bản

Collocation đóng vai trò quan trọng trong các ứng dụng xử lý ngôn ngữ tự

nhiên cũng như biên soạn từ điển. Tuy nhiên, ở Việt Nam hiện nay, nghiên cứu về

collocation là một lĩnh vực khá mới mẻ. Bài báo này tập trung vào nghiên cứu một số

phương pháp trích chọn collocations nhằm tìm ra mô hình hiệu quả cho việc trích chọn

collcations trong tiếng Việt. Các phương pháp được nêu ra bao gồm một số phương pháp

thống kê cổ điển thường được sử dụng như: frequency, t-test, chi-square, mutual

information, đồng thời đề xuất một số phương pháp tổng hợp nhằm tăng độ chính xác của

quá trình trích chọn. Không chỉ dừng lại ở các phương pháp, chúng tôi cũng tiến hành

nghiên cứu ảnh hưởng của việc tiền xử lý dữ liệu lên độ chính xác của chương trình trích

chọn. Dữ liệu thử nghiệm bao gồm cả dữ liệu thô, chưa qua xử lý, dữ liệu đã được qua

một bộ gán nhãn từ loại và dữ liệu đã được phân tích cú pháp. Thông qua việc chạy các

chương trình với đầu vào dữ liệu khác nhau, so sánh độ chính xác của các phương pháp,

chúng tôi đề xuất mô hình trích chọn hiệu quả cho tiếng Việt sử dụng độ đo ngôn ngữ

Trích chọn collocation tiếng Việt từ kho ngữ liệu văn bản trang 1

Trang 1

Trích chọn collocation tiếng Việt từ kho ngữ liệu văn bản trang 2

Trang 2

Trích chọn collocation tiếng Việt từ kho ngữ liệu văn bản trang 3

Trang 3

Trích chọn collocation tiếng Việt từ kho ngữ liệu văn bản trang 4

Trang 4

Trích chọn collocation tiếng Việt từ kho ngữ liệu văn bản trang 5

Trang 5

Trích chọn collocation tiếng Việt từ kho ngữ liệu văn bản trang 6

Trang 6

Trích chọn collocation tiếng Việt từ kho ngữ liệu văn bản trang 7

Trang 7

Trích chọn collocation tiếng Việt từ kho ngữ liệu văn bản trang 8

Trang 8

Trích chọn collocation tiếng Việt từ kho ngữ liệu văn bản trang 9

Trang 9

Trích chọn collocation tiếng Việt từ kho ngữ liệu văn bản trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 13 trang minhkhanh 7620
Bạn đang xem 10 trang mẫu của tài liệu "Trích chọn collocation tiếng Việt từ kho ngữ liệu văn bản", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Trích chọn collocation tiếng Việt từ kho ngữ liệu văn bản

Trích chọn collocation tiếng Việt từ kho ngữ liệu văn bản
TẠP CHÍ KHOA HỌC SỐ 2/2016 117 
TRÍCH CHỌN COLLOCATION TIẾNG VIỆT 
TỪ KHO NGỮ LIỆU VĂN BẢN 
Đỗ Thị Ngọc Quỳnh1 
Trường Đại học Thủ đô Hà Nội 
Tóm tắt: Collocation đóng vai trò quan trọng trong các ứng dụng xử lý ngôn ngữ tự 
nhiên cũng như biên soạn từ điển. Tuy nhiên, ở Việt Nam hiện nay, nghiên cứu về 
collocation là một lĩnh vực khá mới mẻ. Bài báo này tập trung vào nghiên cứu một số 
phương pháp trích chọn collocations nhằm tìm ra mô hình hiệu quả cho việc trích chọn 
collcations trong tiếng Việt. Các phương pháp được nêu ra bao gồm một số phương pháp 
thống kê cổ điển thường được sử dụng như: frequency, t-test, chi-square, mutual 
information, đồng thời đề xuất một số phương pháp tổng hợp nhằm tăng độ chính xác của 
quá trình trích chọn. Không chỉ dừng lại ở các phương pháp, chúng tôi cũng tiến hành 
nghiên cứu ảnh hưởng của việc tiền xử lý dữ liệu lên độ chính xác của chương trình trích 
chọn. Dữ liệu thử nghiệm bao gồm cả dữ liệu thô, chưa qua xử lý, dữ liệu đã được qua 
một bộ gán nhãn từ loại và dữ liệu đã được phân tích cú pháp. Thông qua việc chạy các 
chương trình với đầu vào dữ liệu khác nhau, so sánh độ chính xác của các phương pháp, 
chúng tôi đề xuất mô hình trích chọn hiệu quả cho tiếng Việt sử dụng độ đo ngôn ngữ. 
Từ khóa: collocation, t-test, chi-square, mutual information, độ đo ngôn ngữ, cụm từ cố 
định. 
1. GIỚI THIỆU 
Collocations được hiểu là một thể hiện của hai hoặc nhiều từ tương ứng với một cách 
nói thông thường. Chúng cũng được biết đến như là một lớp của các nhóm từ nằm giữa 
thành ngữ và sự kết hợp từ tự do [4]. Tuy nhiên, rất khó để có thể phân địch rạch ròi giữa 
một cụm từ và một collocation. Thành ngữ và cụm từ thể hiện trong ngôn ngữ không chỉ 
về mặt ngữ pháp, đặc biệt, nghĩa của chúng không phải là sự kết hợp nghĩa của từng thành 
phần, không thể đoán ý nghĩa của một thành ngữ từ nó chứa. Hơn nữa, nghĩa của thành 
ngữ thường mạnh hơn nghĩa của cụm từ không phải là thành ngữ. 
1
 Nhận bài ngày 10.01.2016, gửi phản biện và duyệt đăng ngày 25.01.2016. 
 Liên hệ tác giả: Đỗ Thị Ngọc Quỳnh; Email: dtnquynh@daihocthudo.edu.vn 
118 TRƯỜNG ĐẠI HỌC THỦ ĐÔ HÀ NỘI 
Đã có nhiều nghiên cứu về collocation được tiến hành bằng tiếng Anh nhưng chưa có 
định nghĩa tiêu chuẩn về collocation, bởi điều này phụ thuộc vào quan điểm và mục đích 
của các nhà nghiên cứu. 
Trong bài báo này, chúng tôi chấp nhận định nghĩa: collocation là một sự kết hợp các 
từ thường xuất hiện cùng nhau trong phạm vi bình thường trong văn bản, vị trí và ngữ pháp 
tương đối cố định. 
Collocations có ứng dụng rộng rãi trong các lĩnh vực ngôn ngữ [2, 21, 23], biên soạn 
từ điển [11] cũng như vấn đề xử lý ngôn ngữ tự nhiên [4, 16, 18, 25, 27]. Do đó, việc khai 
thác các collocations được lựa chọn trong mỗi ngôn ngữ là thực sự cần thiết, nó giúp cải 
thiện tính chính xác và tính chất của việc áp dụng xử lý ngôn ngữ tự nhiên, cũng như giúp 
việc tìm hiểu một ngôn ngữ mới dễ dàng hơn. Ngoài ra, việc biên dịch collocation cải thiện 
chất lượng của dịch máy. Các kiến thức về collocations có thể cải thiện hiệu suất của hệ 
thống tìm kiếm thông tin. Phương pháp thống kê đã cho thấy một sự hiện diện đáng chú ý 
trong khai thác collocation. Đo tần số được sử dụng để xác định một loại cụ thể của 
collocations. Thông tin tương hỗ đã được sử dụng để trích xuất các cặp từ có xu hướng xảy 
ra trong một cửa sổ kích thước cố định (thường là 5 từ), trong đó có chiết xuất từ có thể 
không liên quan trực tiếp. Việc sử dụng của t-test để tìm những từ có sự xuất hiện các mô 
hình hợp tác tốt nhất trong phân biệt giữa hai từ đã được đề xuất trước đây. Người ta cũng 
áp dụng tỷ lệ khả năng thử nghiệm để khai phá collocation. 
2. CÁC NGHIÊN CỨU LIÊN QUAN 
Một ví dụ điển hình của collocation là ví dụ của Halliday: strong vs. powerful tea ([10] 
Halliday 1966: P150). Đó là một quy ước trong tiếng Anh để nói strong tea chứ không 
phải powerful tea, mặc dù bất kỳ người nói tiếng Anh cũng sẽ hiểu. Sự kết hợp của từ mà 
không theo một quy tắc ngữ pháp hoặc ngữ nghĩa là định nghĩa của collocations. Do đó, 
sắp xếp từ có thể được hiểu như là một sự kết hợp của các từ mà không tuân theo một quy 
tắc ngữ pháp hoặc ngữ nghĩa ở tất cả các văn bản. Theo một số quan điểm, collocations cố 
định và không linh hoạt. Nghĩa của collocation không thường được suy ra từ nghĩa của các 
từ thành các phần và thay thế một từ với một từ đồng nghĩa hoàn toàn có thể thay đổi ý 
nghĩa của collocation. 
Collocations cũng được hiểu như là sự kết hợp ngữ dụng mang phong cách riêng của 
các đơn vị từ vựng: heavy rain, light breeze, great difficulty, grow steadily, meet 
requirement, reach consensus, pay attention, ask a question. Không giống như các thành 
ngữ (kick the bucket, lend a hand, pull someone’s leg), ý nghĩa của chúng là khá minh bạch 
và dễ dàng để giải mã. Khác với các từ hay gặp thường xuyên, (big house, cultural 
TẠP CHÍ KHOA HỌC SỐ 2/2016 119 
activity; read a book) collocations thành ngữ được đánh giá mang phong cách riêng 
(Mel'cuk năm 2003). 
Như đã được chỉ ra bởi nhiều nhà nghiên cứu (Cruse, 1986; Benson, 1990; McKeown 
and Radev, 2000), collocations không thể được mô tả bằng các quy tắc chung về cú pháp 
và ngữ nghĩa. Chúng là cứng nhắc và không thể đoán trước và do đó cần phải được ghi 
nhớ. Chúng tạo thành cái gọi là bán thành phẩm của ngôn ngữ (Hausmann, 1985) hay 
những hòn đảo của độ tin cậy (Lewis, 2000) mà trên đó các người nói xây dựng các lời 
phát biểu của họ. 
Trong bài báo đầu tiên về logic mờ, Raj Kishor Bisht và HSDhami [3] cho thấy một 
cách để kiểm tra khả năng liệu một sự kết hợp từ có thể được coi như sắp xếp từ theo 
collocations hay không. Fuzzy logic cho phép sự hình thành của một mô hình dựa trên 
logic bằng cách sử dụng các lý do đằng sau các phương pháp hiện có. Các mô hình có sự 
đơn giản dựa trên logic và thực hiện tốt hơn so với các mô hình thống kê hiện có. 
Trong nghiên cứu về collocation, tiếng Đức là ngôn ngữ được nghiê ... y, độ lớn cửa sổ thích hợp nhất cho hai từ tạo thành 
bigram là 5 từ. Tiếng Việt đã có một số nghiên cứu được tiến hành nhằm tìm ra độ lớn cửa 
sổ thích hợp nhất. Trong phạm vi của luận văn này, chúng tôi sử dụng độ lớn cửa số =1. 
Mô hình trích chọn bigrams cho bộ dữ liệu đã được gán nhãn 
Một số nghiên cứu cho tiếng Đức[15, 28] hay nghiên cứu cho tiếng Anh của Justeson 
và Katz[27] đã khẳng định việc trích chọn các collocations theo các mẫu cho trước sẽ đem 
lại hiệu quả cao hơn. Do đó, chúng tôi tiến hành thử nghiệm phương pháp này cho tiếng 
Việt, với các mẫu trích chọn có dạng: VN, VA, NA và NN. Trong đó N là danh từ, A là 
tính từ, V là động từ. Chúng tôi trích chọn các bigram dựa trên mẫu nên độ lớn cửa sổ 
không cần giới hạn trong bước này. Giả sử một bigram có cấu trúc dạng w1w2; khi đó, 
w1w2 là kết quả sau khi chạy chương trình khi và chỉ khi nó thỏa mãn 2 điều kiện sau: 
- w1 là một động từ hoặc 1 danh từ 
- w2 là một danh từ hoặc tính từ xuất hiện đầu tiên sau w1 trong cùng một cụm danh từ 
(tương ứng với w1 là danh từ) hoặc động từ (tương ứng với w1 là động từ) và không có 
động từ nào xen ngang giữa w1 và w2. 
3.3. Phương pháp kết hợp sử dụng độ đo ngôn ngữ 
3.3.1. Trích chọn bigram 
Với mục đích của chương trình chiết xuất collocations là cụm danh từ, cụm động từ, 
và sự phức tạp, thời gian chạy là khá lớn. Trong giới hạn của bài báo này, chúng tôi chỉ tập 
trung lựa chọn các collocation có thể trích xuất như N + A hoặc N + N hoặc V + A hoặc V 
+ N. Dữ liệu đầu vào đã được phân tích cú pháp, sau đó đi qua một chương trình được 
phát triển bởi chúng tôi để lọc ra các cụm danh từ/ động từ. Cụm danh từ / động từ sẽ được 
sắp xếp theo tần suất xuất hiện của danh từ và động từ chính. 
Ví dụ, động từ CÓ (xuất hiện 120 lần trong cụm từ): CÓ khả_năng (40 lần), CÓ 
chức_vụ (20 lần), CÓ thẩm_quyền (30 lần) ... là những trường hợp có thể có với động từ 
CÓ trong dấu ngoặc đơn là tần số xuất hiện. 
Quá trình này chiết xuất sắp xếp từ từ bigrams dựa trên hai giả định: 
- Hai từ phải xuất hiện cùng nhau nhiều lần, trên bình thường trong văn bản. 
- Từ phải thuộc cùng một cụm danh từ/ động từ. 
TẠP CHÍ KHOA HỌC SỐ 2/2016 123 
Dựa trên hai giả định, chương trình thực hiện các bước lọc dựa trên thống kê để trích 
xuất bigram mà có thể là các collocations. Kết thúc giai đoạn đầu tiên, chúng tôi sẽ có 
được một danh sách các nhóm bigram là động từ và danh từ chính. 
Chương trình đọc dữ liệu từ tập tin văn bản nhập vào các câu đã được dán nhãn và 
phân tích cú pháp. Bigram được thực hiện bước này theo sự lựa chọn wwi và phải đáp ứng 
hai điều kiện: 
- w là danh từ / động từ trong cụm danh từ/động từ. 
- wi là một danh từ hoặc tính từ ngay sau w và không có bất kỳ sự gián đoạn nào. 
 Bigram là kết quả của chương trình sẽ được lưu trữ như một từ điển với thông tin và 
tần số của danh từ/ động từ của cụm từ. Trong chương này, chúng tôi sẽ ký hiệu freqi là tần 
số của wwi. Bảng 3.1 minh họa một số của tần số bigram cùng với thông tin về danh 
từ/động từ của cụm từ. 
Bảng 3.1: Một số bigrams và thông tin về vị trí và tần số xuất hiện 
124 TRƯỜNG ĐẠI HỌC THỦ ĐÔ HÀ NỘI 
3.3.2. Độ đo ngôn ngữ 
Giai đoạn này liên quan đến nghiên cứu của Joachim Wermter và Udo Hahn [1]. Tính 
chất non- or limited modifiabilty của collocation cùng với thông tin từ vựng thêm vào (như 
supplements) là thuộc tính ngôn ngữ mà chúng tôi dựa vào để xây dựng độ đo 
collocativity. Ngầm giả định rằng một PNV triple là ít thay đổi (và do đó nhiều khả năng là 
một collocation) nếu nó có một supplement đặc trưng hơn so với những bổ nghĩa khác. Giả 
định này có thể biểu diễn theo cách sau: Cho n số lượng những supplements khác nhau của 
một PNV triple (PNVtriple). Xác suất P của một supplement, Suppk, k =[1, n] được mô tả 
bằng số lần xuất hiện của nó trên tổng số lần xuất hiện của tất cả các supplement: 
MOD modifiability của một PNV triple có thể được mô tả bằng bổ sung có thể xảy ra 
nhất của nó: 
Tần số tương đối cụ thể PNV triple (t là số lượng của các loại ứng cử viên): 
Sau đó, chúng tôi sẽ kết hợp nó như là một yếu tố thứ hai để tính chỉ số COLL: 
Dựa vào chỉ số COLL, chúng ta sẽ có những ứng viên tốt nhất. 
4. KẾT QUẢ THỰC NGHIỆM 
TẠP CHÍ KHOA HỌC SỐ 2/2016 125 
 Phương pháp kiểm thử chủ yếu trong các nghiên cứu về collocations đến thời điểm 
này [19, 26,] vẫn là phương pháp thủ công. Do vậy, trong giới hạn của bài báo này, chúng 
tôi cũng áp dụng phương pháp kiểm thử bằng tay để đánh giá độ chính xác của chương 
trình trích chọn. Với mỗi tập kết quả, chúng tôi lấy ra 500 kết quả đầu tiên. Từ 500 kết quả 
đó, chúng tôi cho sinh ngẫu nhiên 200 kết quả. 200 kết quả thu được từ quá trình sinh ngẫu 
nhiên này sẽ được đánh giá bằng tay từ đó dùng để đánh giá độ chính xác của chương 
trình. 
Bảng 4.1: Đánh giá độ chính xác của các phương pháp trên 2 bộ dữ liệu 
Method 
The data has extracted 
word only 
The data has been parsed 
Freq-based 62% 75% 
T-test 70% 81% 
Chi-square 65% 70% 
PMI 68% 84% 
Our extraction 63% 88% 
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Separated word
POS_Tagger & Parsed
Hình 4.1: Biểu đồ thể hiện độ chính xác của các phương pháp trên 2 bộ dữ liệu 
126 TRƯỜNG ĐẠI HỌC THỦ ĐÔ HÀ NỘI 
Có thể thấy rằng, phương pháp chúng tôi đề xuất khác thích hợp cho việc trích chọn 
collocation trong tiếng Việt. Kết quả thu được qua cả hai giai đoạn đều khá tốt. Bảng sau là 
kết quả một số bigram được trích chọn sau giai đoạn 2: 
Bảng 4.2: Kết quả một số bigram được trích chọn sau giai đoạn 2 
w1 w2 Collocation T-Test PMI 
Chịu trách_nhiệm 42.19207 265870 6 
Tạo điều_kiện 30.97935 89095 5 
Nội_dung phong_phú 29.68824 1580157 0 
Hoàn_thành nhiệm_vụ 24.54164 794392 5 
Tóc bạc 16.69102 1013424 9 
Khắc_phục hậu_quả 15.25679 1218850 7 
Mừng thọ 14.80863 443097 8 
Chiếm_đoạt tài_sản 14.11181 889301 7 
Một_cách nghiêm_túc 6.946184 127054 0 
Chúc_thọ ông 6.488518 29793 5 
5. KẾT LUẬN 
Về mặt lý thuyết, trong giới hạn của bài báo, chúng tôi đã tìm hiểu các khái niệm và 
kỹ thuật chung áp dụng cho trích chọn collocations. Từ đó, chúng tôi đưa ra cơ sở lý thuyết 
liên quan đến collocations cho tiếng Việt: định nghĩa, đặc trưng, phân loại và ứng dụng. 
Dựa trên cơ sở lý thuyết đó, chúng tôi xây dựng các phương pháp trích chọn, nghiên cứu 
tác động của việc tiền xử lý văn bản lên chương trình trích chọn, tìm ra độ lớn cửa sổ, thao 
tác tiền xử lý văn bản phù hợp cho chương trình trích chọn, đồng thời đề xuất một số 
phương pháp kết hợp nhằm tăng độ chính xác. 
Về mặt thực nghiệm, chúng tôi đã xây dựng hệ thống trích chọn collocations dựa trên 
tất cả các phương pháp đã trình bày, tiến hành chạy thực nghiệm và đánh giá độ chính xác 
của các phương pháp, từ đó tìm ra, đề xuất, xây dựng mô hình hiệu quả cho trích chọn 
collocation trong tiếng Việt sử dụng độ đo ngôn ngữ. Mô hình trích chọn collocation là 
TẠP CHÍ KHOA HỌC SỐ 2/2016 127 
cụm danh từ và động đạt được độ chính xác khá cao (88%, độ chính xác cao nhất đối với 
dữ liệu đã được gán nhãn so với các phương pháp thống kê khác), hoàn toàn có thể mở 
rộng để trở thành một hệ thống trích chọn collcoations hiệu quả cho tiếng Việt. 
Trong thời gian tới, chúng tôi dự định sẽ tiếp tục nghiên cứu sâu hơn việc vận dụng 
các thông tin cú pháp vào chương trình trích chọn, mở rộng phương pháp trích chọn 
collocations là cụm danh từ, động từ để có thể trích chọn các loại collocations còn lại; 
đồng thời, nghiên cứu ứng dụng từ điển collocation vào các ứng dụng xử lý ngôn ngữ tự 
nhiên (như dịch máy, sinh ngôn ngữ). 
TÀI LIỆU THAM KHẢO 
1. Joachim Wermter and Udo Hahn, Collocation extraction based on Modifiability statistics. 
2. Benson & Morton (1989), “The structure of the collocational dictionary”, In International 
Journal of Lexicography 2, pp.1-14. 
3. Raj Kishor Bisht, H.S.Dhami, The Application of Fuzzy logic to collocation extraction. 
4. Caroll J.,Minnen G., Pearse D., Canning Y., Delvin S. and Tait J. (1999), “Simplifying text for 
language-impaired readers”, In preceedings of 9th Conference of European Chapter of the ACL 
(EACL ’99), Bergen, Norway, June. 
5. Choueka, Yaacov, Fraenkel, Aviezri S., Klein, S.T.. (1988), "Compression of Concordances in 
Full-Text Retrieval Systems" (ed.) Proc. SIGIR, pp.597-612. 
6. Church, K. and Hanks, P. (1989), Word association norms, mutual information, and 
lexicography. In Proceedings of the 27th annual meeting on Association for Computational 
Linguistics, pp.76-83. 
7. Firth J. R. A synopsis of linguistic theory 1930-1955, In Studies in Linguisti Analysis, pp.1-32. 
Oxford: Philological society. 
8. Cowie, A. P (1981), "The treatment of collocations and idioms in learners' dictionaries". In 
Applied Linguistics, Vol.II, No. 3, pp.223-235. 
9. Cruse, D.A Lexical semantics (1991), Cambridge University Press. 
10. Halliday, M. (1966), Patterns in words. The Listener, Vol. LXXV, no. 1920: pp.53-55. 
11. Adam Kilgarriff and David Tugwell. WORD SKETCH: Extraction and Display of Significant 
Collocations for Lexicography. Proc.ACL workshop on COLLOCATION: Computational 
Extraction, Analysis and Exploitation. Toulouse, July, pp.32-38. 
12. Darren Pearce (2001), Using conceptual similarity for collocation extraction. In Proc. of the 
4th UK Special Interest Group for Computational Linguistics (CLUK4). 
13. Dekang Lin. Extracting Collocations from Text Corpora. In First Workshop on Computational 
Terminology, pp.57-63, Montreal. 
14. Deking Lin (1998c), Using Collocation Statistics in Information Extraction. In Proceedings of 
the 7
th
 Message Understanding Conference. 
128 TRƯỜNG ĐẠI HỌC THỦ ĐÔ HÀ NỘI 
15. Elisabeth Breidt. Extraction of V-N-Collocations from Text Corpora: A feasibility Study for 
German. In Proceedings of the Workshop on Very Large Corpora: Academic and Industrial 
Perspectives, Ohio State University, Columbus, OH, pp.74-83. 
16. Eric Gaussier, David A. Hull, Salah Ait-Mokhatar. Term Alignment in Use: Machine-Aided 
Human Translation. In J. Veronis (Ed.), Parallel Text Processing Alignment and Use of 
Translation Corpora. Kluwer Academic Publishers. 
17. Frank Smadja and Kathleen McKeown (1994), Translating Collocations for Use in Bilingual 
Lexicons. In Proceedings of a Workshop about Human Language Technology held at 
Plainsboro, New Jerey, USA, March 8-11. 
18. Frank Smadja (1993), Retrieving Collocations from text: Xtract. In Computational Linguistics, 
Vol 19, pp.143-177. 
19. Justeson, John S., and Slava M. Katz (1995), Technical terminology: some linguistic 
properties and an algorithm for identification in text. In Natural Language Engineering,1:9-27 
Cambridge University Press. 
20. Gitsaky C.Daigaku N. and Tailor R. (2000), English collocations and their place in the EFL. In 
Iranian Journal of Applied Linguistics, 6, pp.137-169. 
21. Wan Yin Li, Qin Lu, James Liu. TCtract-A Collocation Extraction Approach for Noun 
Phrases Using Shallow Parsing Rules and Statistic Models. In 20
th
 Pacific Asia Conference 
on Language, Information and Computation (PACLIC¡¦06), Wuhan, China, November 1-3, 
2006, p. 109- 116. 
22. Howarth P. and Nesi H (1996), The teaching of collocations in EAP. Technical report 
University of Leeds, June. 
23. Sasa Petrovic. (2007), Collocation Extraction measures for text mining applications. Diploma 
Thesis num. 1693. 
24. Janyce Wiebe and Theresa Wilson and Matthew Bell. Identifying Collocation for Recognizing 
Opinions. In Proceedings of the ACL-01 Workshop on Collocations: Computational luạn 
vănExtraction, Analysis, and Exploitation, pp.24-31. 
25. Nguyen Cam Tu (2008), Hidden topic discovery toward classification and clustering in 
Vietnamese web documents, Master Thesis in College of Technology, Viet Nam National 
University. 
26. Johannes Matiasek and Marco Baroni. Exploiting long distance collocational relations in 
predictive typing. In project FASTY (IST-2000-25420). 
27. Johannes Violeta Seretan, Eric Wehrli (2006), Accurate Collocation Extraction Using a 
Multilingual Parser. In Proceedings of the Workshop on Multilingual Language Resources and 
Interoperability, Sydney, Australia, pp.40-49. 
28. Hoàng Thị Châu (1970), “Vài nhận xét về quá trình tiêu chuẩn hoá tiếng Việt thể hiện qua 
cách dùng từ dịa phuong trong sách vở, báo chí truớc và sau Cách mạng Tháng Tám”, Tạp chí 
Ngôn ngữ, số 4,  
29. Christopher D. Manning, Hinrich Schutze (1999), Foundations of statistical natural language 
processing Part 2. 
TẠP CHÍ KHOA HỌC SỐ 2/2016 129 
30. Mai Ngọc Chừ, Vu Ðức Nghiệu & Hoàng Trọng Phiến (1997), Cơ sở ngôn ngữ học và tiếng 
Việt. Nxb Giáo dục, Hà Nội. 
EXTRACTING OF VIETNAMESE COLLOCATION 
FROM TEXT CORPORA 
Abstract: Collocations have wide application in the fields of languages, compiled a 
dictionary as well as the problem of natural language processing. Therefore, the 
extraction of collocations in each language is really necessary, to improve the accuracy 
and the nature of the application of natural language processing, as well as help to learn 
a new language easier. However, in Vietnam, the study of collocation is quite a new field. 
This paper focused on researching some method of extracting collocations methods to 
find efficient model for the Vietnamese collocations extraction. The mentioned methods 
were based on some classic statistical methods commonly used such as frequency, t-test, 
chi-square, mutual information... We also suggested some general method using 
linguistic measure to increase the accuracy of the process of extraction. Input data 
included the data has been through a POS-tagging and data has been parsed. By running 
the program with different methods and combination of multiple methods together, 
comparing the accuracy of the method, we draw out the efficient method of extracting of 
Vietnamese Collocation from Text Corpora. 
Keywords: collocation, t-test, chi-square, mutual information. 

File đính kèm:

  • pdftrich_chon_collocation_tieng_viet_tu_kho_ngu_lieu_van_ban.pdf