Trích chọn collocation tiếng Việt từ kho ngữ liệu văn bản

Collocation đóng vai trò quan trọng trong các ứng dụng xử lý ngôn ngữ tự

nhiên cũng như biên soạn từ điển. Tuy nhiên, ở Việt Nam hiện nay, nghiên cứu về

collocation là một lĩnh vực khá mới mẻ. Bài báo này tập trung vào nghiên cứu một số

phương pháp trích chọn collocations nhằm tìm ra mô hình hiệu quả cho việc trích chọn

collcations trong tiếng Việt. Các phương pháp được nêu ra bao gồm một số phương pháp

thống kê cổ điển thường được sử dụng như: frequency, t-test, chi-square, mutual

information, đồng thời đề xuất một số phương pháp tổng hợp nhằm tăng độ chính xác của

quá trình trích chọn. Không chỉ dừng lại ở các phương pháp, chúng tôi cũng tiến hành

nghiên cứu ảnh hưởng của việc tiền xử lý dữ liệu lên độ chính xác của chương trình trích

chọn. Dữ liệu thử nghiệm bao gồm cả dữ liệu thô, chưa qua xử lý, dữ liệu đã được qua

một bộ gán nhãn từ loại và dữ liệu đã được phân tích cú pháp. Thông qua việc chạy các

chương trình với đầu vào dữ liệu khác nhau, so sánh độ chính xác của các phương pháp,

chúng tôi đề xuất mô hình trích chọn hiệu quả cho tiếng Việt sử dụng độ đo ngôn ngữ

Download

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9

Trang 10

Tải về để xem bản đầy đủ

13 trang minhkhanh 18800

Download

Bạn đang xem 10 trang mẫu của tài liệu "Trích chọn collocation tiếng Việt từ kho ngữ liệu văn bản", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Trích chọn collocation tiếng Việt từ kho ngữ liệu văn bản

TẠP CHÍ KHOA HỌC SỐ 2/2016 117
TRÍCH CHỌN COLLOCATION TIẾNG VIỆT
TỪ KHO NGỮ LIỆU VĂN BẢN
Đỗ Thị Ngọc Quỳnh1
Trường Đại học Thủ đô Hà Nội
Tóm tắt: Collocation đóng vai trò quan trọng trong các ứng dụng xử lý ngôn ngữ tự
nhiên cũng như biên soạn từ điển. Tuy nhiên, ở Việt Nam hiện nay, nghiên cứu về
collocation là một lĩnh vực khá mới mẻ. Bài báo này tập trung vào nghiên cứu một số
phương pháp trích chọn collocations nhằm tìm ra mô hình hiệu quả cho việc trích chọn
collcations trong tiếng Việt. Các phương pháp được nêu ra bao gồm một số phương pháp
thống kê cổ điển thường được sử dụng như: frequency, t-test, chi-square, mutual
information, đồng thời đề xuất một số phương pháp tổng hợp nhằm tăng độ chính xác của
quá trình trích chọn. Không chỉ dừng lại ở các phương pháp, chúng tôi cũng tiến hành
nghiên cứu ảnh hưởng của việc tiền xử lý dữ liệu lên độ chính xác của chương trình trích
chọn. Dữ liệu thử nghiệm bao gồm cả dữ liệu thô, chưa qua xử lý, dữ liệu đã được qua
một bộ gán nhãn từ loại và dữ liệu đã được phân tích cú pháp. Thông qua việc chạy các
chương trình với đầu vào dữ liệu khác nhau, so sánh độ chính xác của các phương pháp,
chúng tôi đề xuất mô hình trích chọn hiệu quả cho tiếng Việt sử dụng độ đo ngôn ngữ.
Từ khóa: collocation, t-test, chi-square, mutual information, độ đo ngôn ngữ, cụm từ cố
định.
1. GIỚI THIỆU
Collocations được hiểu là một thể hiện của hai hoặc nhiều từ tương ứng với một cách
nói thông thường. Chúng cũng được biết đến như là một lớp của các nhóm từ nằm giữa
thành ngữ và sự kết hợp từ tự do [4]. Tuy nhiên, rất khó để có thể phân địch rạch ròi giữa
một cụm từ và một collocation. Thành ngữ và cụm từ thể hiện trong ngôn ngữ không chỉ
về mặt ngữ pháp, đặc biệt, nghĩa của chúng không phải là sự kết hợp nghĩa của từng thành
phần, không thể đoán ý nghĩa của một thành ngữ từ nó chứa. Hơn nữa, nghĩa của thành
ngữ thường mạnh hơn nghĩa của cụm từ không phải là thành ngữ.
1
Nhận bài ngày 10.01.2016, gửi phản biện và duyệt đăng ngày 25.01.2016.
Liên hệ tác giả: Đỗ Thị Ngọc Quỳnh; Email: dtnquynh@daihocthudo.edu.vn
118 TRƯỜNG ĐẠI HỌC THỦ ĐÔ HÀ NỘI
Đã có nhiều nghiên cứu về collocation được tiến hành bằng tiếng Anh nhưng chưa có
định nghĩa tiêu chuẩn về collocation, bởi điều này phụ thuộc vào quan điểm và mục đích
của các nhà nghiên cứu.
Trong bài báo này, chúng tôi chấp nhận định nghĩa: collocation là một sự kết hợp các
từ thường xuất hiện cùng nhau trong phạm vi bình thường trong văn bản, vị trí và ngữ pháp
tương đối cố định.
Collocations có ứng dụng rộng rãi trong các lĩnh vực ngôn ngữ [2, 21, 23], biên soạn
từ điển [11] cũng như vấn đề xử lý ngôn ngữ tự nhiên [4, 16, 18, 25, 27]. Do đó, việc khai
thác các collocations được lựa chọn trong mỗi ngôn ngữ là thực sự cần thiết, nó giúp cải
thiện tính chính xác và tính chất của việc áp dụng xử lý ngôn ngữ tự nhiên, cũng như giúp
việc tìm hiểu một ngôn ngữ mới dễ dàng hơn. Ngoài ra, việc biên dịch collocation cải thiện
chất lượng của dịch máy. Các kiến thức về collocations có thể cải thiện hiệu suất của hệ
thống tìm kiếm thông tin. Phương pháp thống kê đã cho thấy một sự hiện diện đáng chú ý
trong khai thác collocation. Đo tần số được sử dụng để xác định một loại cụ thể của
collocations. Thông tin tương hỗ đã được sử dụng để trích xuất các cặp từ có xu hướng xảy
ra trong một cửa sổ kích thước cố định (thường là 5 từ), trong đó có chiết xuất từ có thể
không liên quan trực tiếp. Việc sử dụng của t-test để tìm những từ có sự xuất hiện các mô
hình hợp tác tốt nhất trong phân biệt giữa hai từ đã được đề xuất trước đây. Người ta cũng
áp dụng tỷ lệ khả năng thử nghiệm để khai phá collocation.
2. CÁC NGHIÊN CỨU LIÊN QUAN
Một ví dụ điển hình của collocation là ví dụ của Halliday: strong vs. powerful tea ([10]
Halliday 1966: P150). Đó là một quy ước trong tiếng Anh để nói strong tea chứ không
phải powerful tea, mặc dù bất kỳ người nói tiếng Anh cũng sẽ hiểu. Sự kết hợp của từ mà
không theo một quy tắc ngữ pháp hoặc ngữ nghĩa là định nghĩa của collocations. Do đó,
sắp xếp từ có thể được hiểu như là một sự kết hợp của các từ mà không tuân theo một quy
tắc ngữ pháp hoặc ngữ nghĩa ở tất cả các văn bản. Theo một số quan điểm, collocations cố
định và không linh hoạt. Nghĩa của collocation không thường được suy ra từ nghĩa của các
từ thành các phần và thay thế một từ với một từ đồng nghĩa hoàn toàn có thể thay đổi ý
nghĩa của collocation.
Collocations cũng được hiểu như là sự kết hợp ngữ dụng mang phong cách riêng của
các đơn vị từ vựng: heavy rain, light breeze, great difficulty, grow steadily, meet
requirement, reach consensus, pay attention, ask a question. Không giống như các thành
ngữ (kick the bucket, lend a hand, pull someone’s leg), ý nghĩa của chúng là khá minh bạch
và dễ dàng để giải mã. Khác với các từ hay gặp thường xuyên, (big house, cultural
TẠP CHÍ KHOA HỌC SỐ 2/2016 119
activity; read a book) collocations thành ngữ được đánh giá mang phong cách riêng
(Mel'cuk năm 2003).
Như đã được chỉ ra bởi nhiều nhà nghiên cứu (Cruse, 1986; Benson, 1990; McKeown
and Radev, 2000), collocations không thể được mô tả bằng các quy tắc chung về cú pháp
và ngữ nghĩa. Chúng là cứng nhắc và không thể đoán trước và do đó cần phải được ghi
nhớ. Chúng tạo thành cái gọi là bán thành phẩm của ngôn ngữ (Hausmann, 1985) hay
những hòn đảo của độ tin cậy (Lewis, 2000) mà trên đó các người nói xây dựng các lời
phát biểu của họ.
Trong bài báo đầu tiên về logic mờ, Raj Kishor Bisht và HSDhami [3] cho thấy một
cách để kiểm tra khả năng liệu một sự kết hợp từ có thể được coi như sắp xếp từ theo
collocations hay không. Fuzzy logic cho phép sự hình thành của một mô hình dựa trên
logic bằng cách sử dụng các lý do đằng sau các phương pháp hiện có. Các mô hình có sự
đơn giản dựa trên logic và thực hiện tốt hơn so với các mô hình thống kê hiện có.
Trong nghiên cứu về collocation, tiếng Đức là ngôn ngữ được nghiê ... y, độ lớn cửa sổ thích hợp nhất cho hai từ tạo thành
bigram là 5 từ. Tiếng Việt đã có một số nghiên cứu được tiến hành nhằm tìm ra độ lớn cửa
sổ thích hợp nhất. Trong phạm vi của luận văn này, chúng tôi sử dụng độ lớn cửa số =1.
Mô hình trích chọn bigrams cho bộ dữ liệu đã được gán nhãn
Một số nghiên cứu cho tiếng Đức[15, 28] hay nghiên cứu cho tiếng Anh của Justeson
và Katz[27] đã khẳng định việc trích chọn các collocations theo các mẫu cho trước sẽ đem
lại hiệu quả cao hơn. Do đó, chúng tôi tiến hành thử nghiệm phương pháp này cho tiếng
Việt, với các mẫu trích chọn có dạng: VN, VA, NA và NN. Trong đó N là danh từ, A là
tính từ, V là động từ. Chúng tôi trích chọn các bigram dựa trên mẫu nên độ lớn cửa sổ
không cần giới hạn trong bước này. Giả sử một bigram có cấu trúc dạng w1w2; khi đó,
w1w2 là kết quả sau khi chạy chương trình khi và chỉ khi nó thỏa mãn 2 điều kiện sau:
- w1 là một động từ hoặc 1 danh từ
- w2 là một danh từ hoặc tính từ xuất hiện đầu tiên sau w1 trong cùng một cụm danh từ
(tương ứng với w1 là danh từ) hoặc động từ (tương ứng với w1 là động từ) và không có
động từ nào xen ngang giữa w1 và w2.
3.3. Phương pháp kết hợp sử dụng độ đo ngôn ngữ
3.3.1. Trích chọn bigram
Với mục đích của chương trình chiết xuất collocations là cụm danh từ, cụm động từ,
và sự phức tạp, thời gian chạy là khá lớn. Trong giới hạn của bài báo này, chúng tôi chỉ tập
trung lựa chọn các collocation có thể trích xuất như N + A hoặc N + N hoặc V + A hoặc V
+ N. Dữ liệu đầu vào đã được phân tích cú pháp, sau đó đi qua một chương trình được
phát triển bởi chúng tôi để lọc ra các cụm danh từ/ động từ. Cụm danh từ / động từ sẽ được
sắp xếp theo tần suất xuất hiện của danh từ và động từ chính.
Ví dụ, động từ CÓ (xuất hiện 120 lần trong cụm từ): CÓ khả_năng (40 lần), CÓ
chức_vụ (20 lần), CÓ thẩm_quyền (30 lần) ... là những trường hợp có thể có với động từ
CÓ trong dấu ngoặc đơn là tần số xuất hiện.
Quá trình này chiết xuất sắp xếp từ từ bigrams dựa trên hai giả định:
- Hai từ phải xuất hiện cùng nhau nhiều lần, trên bình thường trong văn bản.
- Từ phải thuộc cùng một cụm danh từ/ động từ.
TẠP CHÍ KHOA HỌC SỐ 2/2016 123
Dựa trên hai giả định, chương trình thực hiện các bước lọc dựa trên thống kê để trích
xuất bigram mà có thể là các collocations. Kết thúc giai đoạn đầu tiên, chúng tôi sẽ có
được một danh sách các nhóm bigram là động từ và danh từ chính.
Chương trình đọc dữ liệu từ tập tin văn bản nhập vào các câu đã được dán nhãn và
phân tích cú pháp. Bigram được thực hiện bước này theo sự lựa chọn wwi và phải đáp ứng
hai điều kiện:
- w là danh từ / động từ trong cụm danh từ/động từ.
- wi là một danh từ hoặc tính từ ngay sau w và không có bất kỳ sự gián đoạn nào.
Bigram là kết quả của chương trình sẽ được lưu trữ như một từ điển với thông tin và
tần số của danh từ/ động từ của cụm từ. Trong chương này, chúng tôi sẽ ký hiệu freqi là tần
số của wwi. Bảng 3.1 minh họa một số của tần số bigram cùng với thông tin về danh
từ/động từ của cụm từ.
Bảng 3.1: Một số bigrams và thông tin về vị trí và tần số xuất hiện
124 TRƯỜNG ĐẠI HỌC THỦ ĐÔ HÀ NỘI
3.3.2. Độ đo ngôn ngữ
Giai đoạn này liên quan đến nghiên cứu của Joachim Wermter và Udo Hahn [1]. Tính
chất non- or limited modiﬁabilty của collocation cùng với thông tin từ vựng thêm vào (như
supplements) là thuộc tính ngôn ngữ mà chúng tôi dựa vào để xây dựng độ đo
collocativity. Ngầm giả định rằng một PNV triple là ít thay đổi (và do đó nhiều khả năng là
một collocation) nếu nó có một supplement đặc trưng hơn so với những bổ nghĩa khác. Giả
định này có thể biểu diễn theo cách sau: Cho n số lượng những supplements khác nhau của
một PNV triple (PNVtriple). Xác suất P của một supplement, Suppk, k =[1, n] được mô tả
bằng số lần xuất hiện của nó trên tổng số lần xuất hiện của tất cả các supplement:
MOD modifiability của một PNV triple có thể được mô tả bằng bổ sung có thể xảy ra
nhất của nó:
Tần số tương đối cụ thể PNV triple (t là số lượng của các loại ứng cử viên):
Sau đó, chúng tôi sẽ kết hợp nó như là một yếu tố thứ hai để tính chỉ số COLL:
Dựa vào chỉ số COLL, chúng ta sẽ có những ứng viên tốt nhất.
4. KẾT QUẢ THỰC NGHIỆM
TẠP CHÍ KHOA HỌC SỐ 2/2016 125
Phương pháp kiểm thử chủ yếu trong các nghiên cứu về collocations đến thời điểm
này [19, 26,] vẫn là phương pháp thủ công. Do vậy, trong giới hạn của bài báo này, chúng
tôi cũng áp dụng phương pháp kiểm thử bằng tay để đánh giá độ chính xác của chương
trình trích chọn. Với mỗi tập kết quả, chúng tôi lấy ra 500 kết quả đầu tiên. Từ 500 kết quả
đó, chúng tôi cho sinh ngẫu nhiên 200 kết quả. 200 kết quả thu được từ quá trình sinh ngẫu
nhiên này sẽ được đánh giá bằng tay từ đó dùng để đánh giá độ chính xác của chương
trình.
Bảng 4.1: Đánh giá độ chính xác của các phương pháp trên 2 bộ dữ liệu
Method
The data has extracted
word only
The data has been parsed
Freq-based 62% 75%
T-test 70% 81%
Chi-square 65% 70%
PMI 68% 84%
Our extraction 63% 88%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Separated word
POS_Tagger & Parsed
Hình 4.1: Biểu đồ thể hiện độ chính xác của các phương pháp trên 2 bộ dữ liệu
126 TRƯỜNG ĐẠI HỌC THỦ ĐÔ HÀ NỘI
Có thể thấy rằng, phương pháp chúng tôi đề xuất khác thích hợp cho việc trích chọn
collocation trong tiếng Việt. Kết quả thu được qua cả hai giai đoạn đều khá tốt. Bảng sau là
kết quả một số bigram được trích chọn sau giai đoạn 2:
Bảng 4.2: Kết quả một số bigram được trích chọn sau giai đoạn 2
w1 w2 Collocation T-Test PMI
Chịu trách_nhiệm 42.19207 265870 6
Tạo điều_kiện 30.97935 89095 5
Nội_dung phong_phú 29.68824 1580157 0
Hoàn_thành nhiệm_vụ 24.54164 794392 5
Tóc bạc 16.69102 1013424 9
Khắc_phục hậu_quả 15.25679 1218850 7
Mừng thọ 14.80863 443097 8
Chiếm_đoạt tài_sản 14.11181 889301 7
Một_cách nghiêm_túc 6.946184 127054 0
Chúc_thọ ông 6.488518 29793 5
5. KẾT LUẬN
Về mặt lý thuyết, trong giới hạn của bài báo, chúng tôi đã tìm hiểu các khái niệm và
kỹ thuật chung áp dụng cho trích chọn collocations. Từ đó, chúng tôi đưa ra cơ sở lý thuyết
liên quan đến collocations cho tiếng Việt: định nghĩa, đặc trưng, phân loại và ứng dụng.
Dựa trên cơ sở lý thuyết đó, chúng tôi xây dựng các phương pháp trích chọn, nghiên cứu
tác động của việc tiền xử lý văn bản lên chương trình trích chọn, tìm ra độ lớn cửa sổ, thao
tác tiền xử lý văn bản phù hợp cho chương trình trích chọn, đồng thời đề xuất một số
phương pháp kết hợp nhằm tăng độ chính xác.
Về mặt thực nghiệm, chúng tôi đã xây dựng hệ thống trích chọn collocations dựa trên
tất cả các phương pháp đã trình bày, tiến hành chạy thực nghiệm và đánh giá độ chính xác
của các phương pháp, từ đó tìm ra, đề xuất, xây dựng mô hình hiệu quả cho trích chọn
collocation trong tiếng Việt sử dụng độ đo ngôn ngữ. Mô hình trích chọn collocation là
TẠP CHÍ KHOA HỌC SỐ 2/2016 127
cụm danh từ và động đạt được độ chính xác khá cao (88%, độ chính xác cao nhất đối với
dữ liệu đã được gán nhãn so với các phương pháp thống kê khác), hoàn toàn có thể mở
rộng để trở thành một hệ thống trích chọn collcoations hiệu quả cho tiếng Việt.
Trong thời gian tới, chúng tôi dự định sẽ tiếp tục nghiên cứu sâu hơn việc vận dụng
các thông tin cú pháp vào chương trình trích chọn, mở rộng phương pháp trích chọn
collocations là cụm danh từ, động từ để có thể trích chọn các loại collocations còn lại;
đồng thời, nghiên cứu ứng dụng từ điển collocation vào các ứng dụng xử lý ngôn ngữ tự
nhiên (như dịch máy, sinh ngôn ngữ).
TÀI LIỆU THAM KHẢO
1. Joachim Wermter and Udo Hahn, Collocation extraction based on Modifiability statistics.
2. Benson & Morton (1989), “The structure of the collocational dictionary”, In International
Journal of Lexicography 2, pp.1-14.
3. Raj Kishor Bisht, H.S.Dhami, The Application of Fuzzy logic to collocation extraction.
4. Caroll J.,Minnen G., Pearse D., Canning Y., Delvin S. and Tait J. (1999), “Simplifying text for
language-impaired readers”, In preceedings of 9th Conference of European Chapter of the ACL
(EACL ’99), Bergen, Norway, June.
5. Choueka, Yaacov, Fraenkel, Aviezri S., Klein, S.T.. (1988), "Compression of Concordances in
Full-Text Retrieval Systems" (ed.) Proc. SIGIR, pp.597-612.
6. Church, K. and Hanks, P. (1989), Word association norms, mutual information, and
lexicography. In Proceedings of the 27th annual meeting on Association for Computational
Linguistics, pp.76-83.
7. Firth J. R. A synopsis of linguistic theory 1930-1955, In Studies in Linguisti Analysis, pp.1-32.
Oxford: Philological society.
8. Cowie, A. P (1981), "The treatment of collocations and idioms in learners' dictionaries". In
Applied Linguistics, Vol.II, No. 3, pp.223-235.
9. Cruse, D.A Lexical semantics (1991), Cambridge University Press.
10. Halliday, M. (1966), Patterns in words. The Listener, Vol. LXXV, no. 1920: pp.53-55.
11. Adam Kilgarriff and David Tugwell. WORD SKETCH: Extraction and Display of Significant
Collocations for Lexicography. Proc.ACL workshop on COLLOCATION: Computational
Extraction, Analysis and Exploitation. Toulouse, July, pp.32-38.
12. Darren Pearce (2001), Using conceptual similarity for collocation extraction. In Proc. of the
4th UK Special Interest Group for Computational Linguistics (CLUK4).
13. Dekang Lin. Extracting Collocations from Text Corpora. In First Workshop on Computational
Terminology, pp.57-63, Montreal.
14. Deking Lin (1998c), Using Collocation Statistics in Information Extraction. In Proceedings of
the 7
th
Message Understanding Conference.
128 TRƯỜNG ĐẠI HỌC THỦ ĐÔ HÀ NỘI
15. Elisabeth Breidt. Extraction of V-N-Collocations from Text Corpora: A feasibility Study for
German. In Proceedings of the Workshop on Very Large Corpora: Academic and Industrial
Perspectives, Ohio State University, Columbus, OH, pp.74-83.
16. Eric Gaussier, David A. Hull, Salah Ait-Mokhatar. Term Alignment in Use: Machine-Aided
Human Translation. In J. Veronis (Ed.), Parallel Text Processing Alignment and Use of
Translation Corpora. Kluwer Academic Publishers.
17. Frank Smadja and Kathleen McKeown (1994), Translating Collocations for Use in Bilingual
Lexicons. In Proceedings of a Workshop about Human Language Technology held at
Plainsboro, New Jerey, USA, March 8-11.
18. Frank Smadja (1993), Retrieving Collocations from text: Xtract. In Computational Linguistics,
Vol 19, pp.143-177.
19. Justeson, John S., and Slava M. Katz (1995), Technical terminology: some linguistic
properties and an algorithm for identification in text. In Natural Language Engineering,1:9-27
Cambridge University Press.
20. Gitsaky C.Daigaku N. and Tailor R. (2000), English collocations and their place in the EFL. In
Iranian Journal of Applied Linguistics, 6, pp.137-169.
21. Wan Yin Li, Qin Lu, James Liu. TCtract-A Collocation Extraction Approach for Noun
Phrases Using Shallow Parsing Rules and Statistic Models. In 20
th
Pacific Asia Conference
on Language, Information and Computation (PACLIC¡¦06), Wuhan, China, November 1-3,
2006, p. 109- 116.
22. Howarth P. and Nesi H (1996), The teaching of collocations in EAP. Technical report
University of Leeds, June.
23. Sasa Petrovic. (2007), Collocation Extraction measures for text mining applications. Diploma
Thesis num. 1693.
24. Janyce Wiebe and Theresa Wilson and Matthew Bell. Identifying Collocation for Recognizing
Opinions. In Proceedings of the ACL-01 Workshop on Collocations: Computational luạn
vănExtraction, Analysis, and Exploitation, pp.24-31.
25. Nguyen Cam Tu (2008), Hidden topic discovery toward classification and clustering in
Vietnamese web documents, Master Thesis in College of Technology, Viet Nam National
University.
26. Johannes Matiasek and Marco Baroni. Exploiting long distance collocational relations in
predictive typing. In project FASTY (IST-2000-25420).
27. Johannes Violeta Seretan, Eric Wehrli (2006), Accurate Collocation Extraction Using a
Multilingual Parser. In Proceedings of the Workshop on Multilingual Language Resources and
Interoperability, Sydney, Australia, pp.40-49.
28. Hoàng Thị Châu (1970), “Vài nhận xét về quá trình tiêu chuẩn hoá tiếng Việt thể hiện qua
cách dùng từ dịa phuong trong sách vở, báo chí truớc và sau Cách mạng Tháng Tám”, Tạp chí
Ngôn ngữ, số 4,
29. Christopher D. Manning, Hinrich Schutze (1999), Foundations of statistical natural language
processing Part 2.
TẠP CHÍ KHOA HỌC SỐ 2/2016 129
30. Mai Ngọc Chừ, Vu Ðức Nghiệu & Hoàng Trọng Phiến (1997), Cơ sở ngôn ngữ học và tiếng
Việt. Nxb Giáo dục, Hà Nội.
EXTRACTING OF VIETNAMESE COLLOCATION
FROM TEXT CORPORA
Abstract: Collocations have wide application in the fields of languages, compiled a
dictionary as well as the problem of natural language processing. Therefore, the
extraction of collocations in each language is really necessary, to improve the accuracy
and the nature of the application of natural language processing, as well as help to learn
a new language easier. However, in Vietnam, the study of collocation is quite a new field.
This paper focused on researching some method of extracting collocations methods to
find efficient model for the Vietnamese collocations extraction. The mentioned methods
were based on some classic statistical methods commonly used such as frequency, t-test,
chi-square, mutual information... We also suggested some general method using
linguistic measure to increase the accuracy of the process of extraction. Input data
included the data has been through a POS-tagging and data has been parsed. By running
the program with different methods and combination of multiple methods together,
comparing the accuracy of the method, we draw out the efficient method of extracting of
Vietnamese Collocation from Text Corpora.
Keywords: collocation, t-test, chi-square, mutual information.

File đính kèm:

trich_chon_collocation_tieng_viet_tu_kho_ngu_lieu_van_ban.pdf