Báo cáo kỹ thuật Xây dựng kho ngữ liệu song ngữ Anh - Việt

Mục lục

I. Giới thiệu. 4

I.1 Mục tiêu của đề tài nhánh . 4

I.2 Một số định nghĩa căn bản. 5

II. Nghiên cứu lien quan trên thế giới và trong nước . 6

II.1 Nghiên cứu các kho ngữ liệu song ngữ trên thế giới . 6

II.1.1 Một số kho ngữ liệu song ngữ tiêu biểu trên thế giới . 6

II.1.2 Nội dung của các kho ngữ liệu . 9

II.1.3 Cấu trúc của các kho ngữ liệu. 10

II.1.4 Phương pháp xây dựng kho ngữ liệu song ngữ. 11

Báo cáo kỹ thuật Xây dựng kho ngữ liệu song ngữ Anh - Việt trang 1

Trang 1

Báo cáo kỹ thuật Xây dựng kho ngữ liệu song ngữ Anh - Việt trang 2

Trang 2

Báo cáo kỹ thuật Xây dựng kho ngữ liệu song ngữ Anh - Việt trang 3

Trang 3

Báo cáo kỹ thuật Xây dựng kho ngữ liệu song ngữ Anh - Việt trang 4

Trang 4

Báo cáo kỹ thuật Xây dựng kho ngữ liệu song ngữ Anh - Việt trang 5

Trang 5

Báo cáo kỹ thuật Xây dựng kho ngữ liệu song ngữ Anh - Việt trang 6

Trang 6

Báo cáo kỹ thuật Xây dựng kho ngữ liệu song ngữ Anh - Việt trang 7

Trang 7

Báo cáo kỹ thuật Xây dựng kho ngữ liệu song ngữ Anh - Việt trang 8

Trang 8

Báo cáo kỹ thuật Xây dựng kho ngữ liệu song ngữ Anh - Việt trang 9

Trang 9

Báo cáo kỹ thuật Xây dựng kho ngữ liệu song ngữ Anh - Việt trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 46 trang viethung 7420
Bạn đang xem 10 trang mẫu của tài liệu "Báo cáo kỹ thuật Xây dựng kho ngữ liệu song ngữ Anh - Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Báo cáo kỹ thuật Xây dựng kho ngữ liệu song ngữ Anh - Việt

Báo cáo kỹ thuật Xây dựng kho ngữ liệu song ngữ Anh - Việt
Báo cáo kỹ thuật 
Đề tài nhánh SP.74 
Xây dựng kho ngư liệu song ngữ Anh – Việt 
Ghi chú : 
Báo cáo này bao gồm các báo cáo về nghiên cứu – thiết kế liệt kê trong phụ lục 
hợp đồng : 
1. Nghiên cứu nội dung các kho ngữ liệu song ngữ. SP: 1 báo cáo 
2. Nghiên cứu tham khảo cấu trúc các kho ngữ liệu song ngữ. SP: 1 báo cáo 
3. Thiết kế nội dung kho ngữ liệu câu Anh- Việt. SP: 1 báo cáo 
4. Thiết kế cấu trúc cho kho ngữ liệu câu Anh- Việt. SP: 1 báo cáo 
5. Thiết kế xây dựng khuôn dạng dữ liệu cho hai kho ngữ liệu câu Anh- Việt. SP: 1 báo cáo 
6. Nghiên cứu tiêu chí chọn mẫu ngữ liệu song ngữ Anh-Việt. SP: 1 báo cáo 
Nhóm thực hiện 
1. Hồ Bảo Quốc 
2. Đinh Điền 
3. Đặng Bác Văn 
4. Lương Vỹ Minh 
5. Phạm Đào Duy Vũ 
Mục lục 
I. Giới thiệu.................................................................................................. 4 
I.1 Mục tiêu của đề tài nhánh ....................................................................... 4 
I.2 Một số định nghĩa căn bản...................................................................... 5 
II. Nghiên cứu lien quan trên thế giới và trong nước ........................................... 6 
II.1 Nghiên cứu các kho ngữ liệu song ngữ trên thế giới ................................. 6 
II.1.1 Một số kho ngữ liệu song ngữ tiêu biểu trên thế giới .......................... 6 
II.1.2 Nội dung của các kho ngữ liệu .......................................................... 9 
II.1.3 Cấu trúc của các kho ngữ liệu......................................................... 10 
II.1.4 Phương pháp xây dựng kho ngữ liệu song ngữ................................... 11 
II.2 Các nghiên cứu trong nước liên quan .................................................... 13 
III. Xây dựng kho ngữ liệu song ngữ Anh- Việt..................................................... 14 
III.1 Tiêu chí chọn mẫu cho kho ngữ liệu Anh – Việt ................................. 14 
III.2 Chọn nguồn dữ liệu thô ......................................................................... 15 
III.3 Chuẩn hóa....................................................................................... 19 
III.4 Định dạng kho ngữ liệu song ngữ Anh – Việt ........................................ 20 
IV.Thiết các các công cụ ............................................................................. 21 
IV.1 Công cụ khai thác văn bản song ngữ Anh – Việt từ Internet............... 21 
IV.2 Công cụ hiệu đính và khai thác ........................................................ 35 
V.Các kết quả đạt được ............................................................................... 36 
Phụ lục II. Hướng dẫn sử dụng chương trình EVT-Miner .................................. 37 
I. Chức năng tìm địa chỉ web có cung cấp tài liệu song ngữ ....................... 37 
II. Tiền xử lý và phân trang .................................................................... 38 
III. Chức năng Canh hàng văn bản (đến mức câu) .................................... 40 
IV. Chức năng xem và hiệu chỉnh kho ngữ liệu: Alignment Editor ............ 41 
Tài liệu tham khảo......................................................................................... 44 
 I. Giới thiệu 
I.1 Mục tiêu của đề tài nhánh 
Trong tính toán ngôn ngữ học (linguistic computing) một tài nguyên rất cần 
thiết đó là các kho ngữ liệu song ngữ song song (parallel corpus). Các kho ngữ 
liệu song ngữ song song này có thể được sữ dụng cho nhiều mục tiêu khác 
nhau như : nghiên cứu ngôn ngữ học so sánh, tìm kiếm thông tin xuyên ngữ, 
dịch máy .v.v. Các kho ngữ liệu song ngữ này là nguồn tài nguyên để các ứng 
dụng có thể học các tương ứng của các đơn vị ngôn ngữ (từ, ngữ, câu, đoạn, 
văn bản ...) của hai ngôn ngữ, từ đó giải quyết các vấn đề liên quan. Kết quả 
của các bài toán trên phụ thuộc rất nhiều vào độ lớn và chất lượng của kho 
ngữ liệu song song được sử dụng. Trên thế giới đã có rất nhiều kho ngữ liệu 
song ngữ song song được xây dựng để phục vụ cho các mục tiêu như trên (xin 
xem chi tiết ở phần II). Hiện nay chưa có một kho ngữ liệu song song Anh - 
Việt được công bố chính thức và cho phép cộng đồng nghiên cứu liên quan đến 
có thể chia sẽ sử dụng cho các mục tiêu nghiên cứu. Do đó đề tài nhánh này 
nhằm nghiên cứu các cách tiếp cận xây dựng kho ngữ liệu song ngữ song 
song, cấu trúc và định dạng lưu trữ của các kho ngữ liệu song ngữ song song 
và các tiêu chí và phương pháp đánh giá một kho ngữ liệu song ngữ song song 
Anh – Việt. Trong khuôn khổ cho phép của kinh phí đề tài, mục tiêu của đề 
tài nhánh là xây dựng được một kho ngữ liệu song ngữ Anh – Việt song 
song gióng hàng đến mức câu (Sentence Aligment) gồm 100.000 cặp câu 
song song Anh – Việt trong đó 80.000 cặp câu cho các lĩnh vực kinh tế - 
xã hội và 20.000 cặp câu cho lĩnh vực tin học và các công cụ hỗ trợ để 
tiếp tục xây dựng và khai thác kho ngữ liệu song ngữ này. 
Trước khi đi vào chi tiết, chúng tôi xin được thống nhất một số thuật ngữ liên 
quan trong phần dưới đây. 
I.2 Một số định nghĩa căn bản 
Định nghĩa 1 : Kho ngữ liệu (corpus) 
Theo EAGLES (Expert Advisory Group on Language Engineering Standards) 
kho ngữ liệu là một tập hợp các mảnh ngôn ngữ (pieces of language) được chọn 
lựa và sắp xếp theo một số tiêu chí ngôn ngữ học rõ ràng để được sử dụng 
như một mẫu của ngôn ngữ 
Kho ngữ liệu số hóa (computer corpus) : là kho ngữ liệu được mã hóa theo một 
chuẩn nhất định và đồng nhất để có thể khai thác cho các ứng dụng khác nhau 
Định nghĩa 2 : Một tập các văn bản (tài liệu) được viết bằng nhiều ngôn ngữ thì 
gọi là kho ngữ liệu đa ngữ (multilingual corpora). 
Định nghĩa 3 : Một tập các văn bản (tài liệu) trong các ngôn ngữ khác nhau mà 
có cùng chủ đề chính thì được gọi là kho ngữ liệu (có thể) so sánh (comparable 
corpus). 
Định nghĩa 4 : Kho ngữ liệu song song (Parallel Corpus) là một tập các văn bản 
(tài liệu) trong nhiều ngôn ngữ khác nhau, trong đó có một ngôn ngữ nguồn và 
một (hoặc nhiề ... tương đồng về nội dung. 
• Đo độ tương đồng về nội dung 
Hai văn bản song song sẽ chứa các cặp từ là dịch của nhau. Ví dụ như “China 
marks 30th anniversary of Mao Zedong’s Death” và “Trung Quốc âm thầm lặng lẽ 
tưởng niệm Mao Trạch Đông”, “China” và “Trung Quốc”, “anniversary” và “tưởng 
niệm” là các cặp từ dịch. Một cách tiếp cận là dùng số lượng cặp từ dịch để biểu 
diễn độ tương đồng của hai văn bản: 
trong đó N là số lượng cặp từ dịch tìm thấy giữa hai văn bản A và B. 
Tuy hai tiêu chí trình bày ở phần trên loại được khá nhiều các tổ hợp cần xét, 
nhưng số lượng cần xét độ tương đồng còn lại vẫn quá lớn và việc tính toán cho 
tất cả các cặp này là không hiệu quả. Thực nghiệm đã cho thấy có một giá trị 
ngưỡng θd có thể cho biết một cặp văn bản có phải là dịch của nhau hay không. 
Do đó, với mỗi văn bản tiếng Anh, hệ thống chỉ cần tính độ tương đồng với các 
văn bản tiếng Việt cho đến khi gặp văn bản tiếng Việt đầu tiên có độ tương đồng 
vượt quá θd thì quá trình này kết thúc. 
Một cặp từ A-B mà trong đó, từ A nằm ở đầu đoạn văn tiếng Anh còn B nằm ở 
cuối trang tiếng Việt thì cặp này khó có thể là một cặp từ dịch thật sự. Do đó, khi 
tìm các cặp từ dịch, cần chú ý đến vị trí tương đối giữa các từ. Do các trang web 
song ngữ chất lượng tốt hầu hết được dịch tương ứng từng đoạn và độ lệch tối đa 
chúng tôi quan sát thấy là từ -1 đến 1. Do đó, thay vì tìm các cặp từ dịch trên 
phạm vi toàn văn bản, chúng tôi tìm trên phạm vi đoạn. Đoạn thứ k trong văn 
bản tiếng Anh sẽ được so với ba đoạn k-1, k, và k+1 trong văn bản tiếng Việt để 
chọn ra đoạn nào khớp với nó nhất với số lượng từ dịch nk nhiều nhất. Chỉ những 
cặp đoạn nào có nk > θp mới được xem là một đoạn tương ứng thực sư và nk được 
tính vào số cặp từ dịch của căp văn bản tương ứng N. Do các đoạn tương ứng với 
nhau thực sự có số lượng từ dịch vượt quá 3, nên θp = 3 được chọn làm ngưỡng 
cho hệ thống. 
∑ >= pkk nnN θ, 
Việc xác định một cặp từ là dịch của nhau được thực hiện thông qua từ điển 
Anh-Việt của Hồ Ngọc Đức (khoảng 100,000 từ, được lưu trong HQT CSDL SQL 
Server) trong đó các từ tiếng Anh được lưu ở dạng gốc (stemmed form). Các từ 
tiếng Anh không nằm trong SMART’s English Stoplist [10] được chuyển về dạng 
gốc bằng thuật toán Porter, sau đó tìm tất cả các nghĩa tiếng Việt có thể có của 
từ này nhằm nâng cao độ bao phủ của hệ thống. 
Sau khâu này, hệ thống thu được một tập các cặp văn bản dịch của nhau (kèm 
theo thông tin đoạn nào là dịch của đoạn nào), chuẩn bị cho khâu xử lý kế tiếp: 
canh hàng ở mức câu để tìm các cặp câu dịch của nhau. 
IV.1.4 Canh hàng ở mức câu: Xây dựng kho ngữ liệu song ngữ 
Từ các cặp văn bản dịch tìm thấy ở trên, hệ thống bắt đầu tiến hành canh hàng ở 
mức câu. Với mỗi cặp đoạn tìm thấy là dịch của nhau, hệ thống chia nó thành 
câu. Quá trình tìm các cặp câu dịch tương tự như quá trình tìm các cặp đoạn 
dịch ở phần 3, chỉ khác ở các tham số: mỗi câu tiếng Anh sẽ được so với 5 câu 
tiếng Việt tương ứng chứ không phải 3 như canh hàng ở mức đoạn. 
Kết quả thu được là một kho ngữ liệu song song ở mức câu, tức là bao gồm các 
cặp câu là dịch của nhau tương ứng. Kho ngữ liệu này được lưu ở định dạng XML 
(tự đinh nghĩa). Cụ thể, mỗi cặp tài liệu dịch được lưu bằng một file XML trong đó 
chỉ rõ những cặp câu nào là dịch của nhau. File XML có định dạng như sau: 
 Dưới đây là ví dụ một file XML của corpus: 
 IV.1.5 Alignment Editor:  
Chương trình cho phép người dùng xem và chỉnh sửa corpus 
Do kho ngữ liệu được xây dựng tự động không tránh khỏi có sat sót, chúng tôi 
thiết kế chương trình có khả năng đọc các file XML ngữ liệu song ngữ mà chương 
trình tìm thấy. Người dùng có thể xem các cặp câu hệ thống đã canh hàng và 
chỉnh sửa lại nếu phát hiện sai sót. 
Hiện tại, chương trình có những chức năng sau: 
Đọc các file XML của kho ngữ liệu trong một thư mục cho trước. 
Hiển thị các tài liệu / cặp câu mà hệ thống đã canh hàng. 
Nếu phát hiện cặp câu nào hệ thống canh sai, người dùng có thể chỉnh lại mối 
liên kết bằng cách kéo thả (xem phần hướng dẫn sử dụng để biết chi tiết). 
Các chức năng dự kiến làm thêm: 
Cho người dùng thay đổi nội dung văn bản (tài liêu/câu song ngữ) chứ không 
chỉ thay đối mối liên kết giữa chúng. 
Cho người dùng xóa bỏ các cặp không tìm thấy câu dịch của nó ra khỏi file XML. 
IV.2 Công cụ hiệu đính và khai thác 
A. Chức năng 
a. View : cho phép hiển thị các cặp câu song song 
1. Hiển thị toàn bộ 
2. Hiển thị theo thể loại : xă hội, tin học  
3. Hiển thị từ câu nào đến câu nào 
b. Edit : cho phép sửa đổi nội dung corpus 
1. Cho phép thay đổi lien kết cặp câu 
2. Cho phép sửa cả hai câu trong cặp câu 
3. Cho phép xóa các cặp câu không tốt 
c. Add : cho phép thêm các cặp câu mới 
1. Thêm tù file 
2. Nhập trực tiếp từ bàn phím 
d. Print 
1. In toàn bộ 
2. In theo chủ đề 
3. In từ cặp câu nào đến cặp câu nào 
e. Export 
1. Cho phép xuất ra file .txt 
2. Cho phép xuất ra file xml 
B. Giao diện : 
i. Thân thiện người dùng 
V.Các kết quả đạt được và công việc sắp tới 
V.1 Các kết quả đạt được cho đến nay 4/2008 như sau: 
1. Kho ngữ liệu song ngữ thô gồm 120.000 cặp câu 
2. Kho ngữ liệu song ngữ đã qua hiệu chỉnh thủ công : 20.000 cặp câu 
3. Công cụ Khai thác dữ liệu song ngữ từ Internet 
V.2 Các công việc đang tiến hành 
1. Thu thập thêm dữ liệu 
2. Tiếp tục hiệu đính dữ liệu thô 
3. Thiết kế xây dựng công cụ khai thác kho ngữ liệu 
 Phụ lục A.  Hướng dẫn sử dụng chương trình EVT‐Miner 
I. Chức năng tìm địa chỉ web có cung cấp tài liệu song ngữ 
Chương trình cung cấp 3 tùy chọn: 
1 - Tìm tử trang web chỉ định 
Sử dụng tùy chọn này trong trường hợp chúng ta biết chắc 1 địa chỉ web có 
cung cấp các tài liệu song ngữ mong muốn. Ví dụ như trang 
2 - Tìm các địa chỉ web có dấu hiệu song ngữ. 
Sử dụng tùy chọn này trong trường hợp không biết địa chỉ web nào cung cấp tài 
liệu song ngữ mong muốn. Khi đó, chương trình sẽ dùng Google để tìm trên 
Internet các địa chỉ web có dấu hiệu chứa tài liệu song ngữ (lưu lại các địa chỉ 
này vào một file do người dùng chọn). 
3 - Tìm trên các địa chỉ web được định nghĩa trước trong một tập tin host.xml 
Tập tin host.xml có được nhờ sử dụng tùy chọn 2. Sau khi đã có được một danh 
sách địa chỉ như vậy, thì sử dụng tùy chọn 3 này. Khi đó, chương trình sẽ tự 
động download các trang web từ địa chỉ này xuống để phục vụ mục đích mining 
các trang song ngữ. 
Dưới đây là giao diện chương trình và các diễn giải các thành phần giao diện. 
 II. Tiền xử lý và phân trang 
Nhập vào tuần tự thư mục chứa file HTML tiếng Anh và HTML tiếng Việt. Chương 
trình sẽ từ động tiền xử lý các file HTML để được các file TEXT được chuẩn hóa. 
Sau đó tiến hành phân cluster. File cluster chứa đường dẫn đến tất cả các file 
text, trong đó các file text có chung ngày tạo sẽ được xếp vào một cluster. Cách 
sắp xếp này phục vụ cho phần mining phía sau – với một file tiếng Anh, chương 
trình chỉ cần xét các file tiếng Việt trong cluster ứng với ngày gần nó. 
 • English HTML Documents: Đường dẫn đến thư mục chứa các file 
HTML tiếng Anh. 
• Vietnamese HTML Documents: Đường dẫn đến thư mục chứa các 
file HTML tiếng Việt. 
• English Text Documents: Đường dẫn đến thư mục chứa các file 
TEXT tiếng Anh. 
• Vietnamese Text Documents: Đường dẫn đến thư mục chứa các file 
TEXT tiếng Việt. 
• English Cluster: file cluster cho tài liệu tiếng Anh. 
• Vietnamese Cluster: file cluster cho tài liệu tiếng Việt. 
Ghi chú: Nếu đã có thư mục TEXT có các file text đã chuẩn hóa sẵn, check vào 
“Input(s) are Text File, create cluster only” để hệ thống không phải tiến hành 
chuẩn hóa nữa, mà chỉ tạo clusters để làm input cho việc mining phía sau. 
III. Chức năng Canh hàng văn bản (đến mức câu) 
Nhập tuần tự input như mô tả bên dưới, hệ thống sẽ tiến hành canh hàng từ mức 
tài liệu đến mức câu để tạo ra kho ngữ liệu song ngữ sau cùng lưu dưới dạng 
XML như mô tả ở phần trước. 
• SQL Server/Username/Password/ Catalog: Tài khoản đăng nhập SQL 
Server để truy xuất đến database từ điển Anh-Việt. 
• EnLocation/EnCluster: thư mục chứa các file TEXT đã chuẩn hóa tiếng 
Anh và file cluster tương ứng. 
• VnLocation/VnCluster: thư mục chứa các file TEXT đã chuẩn hóa tiếng 
Việt và file cluster tương ứng. 
• OuputDir: English/Vietnamese: log lại quá trình align của hệ thống. 
• Lower Ratio/Upper Ratio: chặn dưới và chặn trên cho tỉ lệ độ dài của 2 
văn bản song ngữ. 
• Min Token Pair: giá trị ngưỡng θp. 
• Threshold: giá trị ngưỡng θd. 
• Thread: số luồng chạy. 
• Pair file: file output ngữ liệu song ngữ. Trong đó ghi rõ câu nào là dịch 
của câu nào. 
IV. Chức năng xem và hiệu chỉnh kho ngữ liệu: Alignment Editor 
Nhấn nút “Show Editor” trong hình trước, sẽ mở chương trình Alignment Editor 
cho phép xem và hiệu chỉnh kho ngữ liệu. Mặc định, chương trình sẽ load tất cả 
file ngữ liệu hệ thống tìm thấy (trong thư mục “output/” nơi chứa các file này) 
lên cho quá trình xem/hiệu chỉnh. 
 Cửa sổ bên trái hiển thị danh sách các file xml ngữ liệu có trong thư mục 
“output” chọn trước. Mỗi file (mỗi dòng trong cửa sổ này) ứng với một cặp văn 
bản. Khi chọn một dòng này, các đoạn (paragraphs) của cặp văn bản này và liên 
kết giữa chúng sẽ được hiển thị ở cửa số bên phải. 
Khi bung mỗi dòng ở cửa sổ bên trái sẽ được các nút con. Mỗi nút con này ứng 
với một cặp paragraph của cặp văn bản này. Ví dụ: 6-7 là paragraph 6 của văn 
bản tiếng Anh sẽ khớp với paragraph 7 của văn bản tiếng Việt. Khi chọn các nút 
con này (tức là chọn một cặp paragraph), cửa số bên phải sẽ thể hiện các câu 
của 2 paragraph này và mối liên hê giữa chúng. 
Khi đó (chọn nút con - mức đoạn), cửa sổ bên phải hiển thị các cặp câu được 
canh hàng với nhau. Đường nối 2 “Sentence” cho biết 2 câu được nối được xem 
là dịch của nhau (nếu chọn mức tài liệu ở cửa sổ bên trái, cửa số bên phải sẽ là 
canh hàng giữa các đoạn). 
Nếu phát hiện một phép canh hàng nào sai, người dùng có thể chọn mối nối đó 
và nhấn nút “Delete” để xóa nó: khi đó 2 câu (hoặc đoạn) tương ứng sẽ được xem 
như không phải là dịch của nhau nữa. 
Nếu muốn thêm một phép canh hàng – ví dụ hệ thống cho rằng câu 2 (Anh) 
không liên quan với câu 3 (Việt), nhưng người dùng nhận ra 2 câu này thật ra là 
dịch của nhau, người dùng có thể nhấn và giữ chuột vào ô câu tiếng Anh, kéo rê 
sang ô câu tiếng Việt rồi thả ra. Khi đó một đường thằng nối 2 câu 2-3 cho biết 2 
câu này bây giờ được xem là dịch của nhau. 
 Tài liệu tham khảo 
[1] Johann Gamper, Encoding a Parallel Corpus for Automatic Terminology 
extraction, Proceedings of EACL '99 
[2] Nancy Ide, Greg Priest-Domain and Jean Veronic (1996), Corpus Encoding 
Standard,  
[3] CHANG Baobao, Chinese-English Parallel Corpus Construction and its 
Application, PACLIC 18, December 8th-10th, 2004, Waseda University, Tokyo 
[4] M. Gavrilidou, P. Labropoulou, E. Desipri, V. Giouli, V. Antonopoulos, S. 
Piperidis, Building parallel corpora for eContent professionals, MLR2004: 
PostCOLING Workshop on Multilingual Linguistic Resources, 28 August 2004, 
Geneva, Switzerland 
 [5] William A.Gale, Kenneth W.Church (1991), A program for aligning 
sentences in bilingual corpora. In Proceedings of the 29th Annual Meeting of 
the Association for Computational Linguistics. 
[6] P. Resnik, Noah A. Smithy (2003), The web as parallel corpus. 
[7] J.Y. Nie, J. Chen (2002), Exploiting the Web as Parallel Corpora for 
Cross Languague Information Retrieval, WI02. 
[8] C.C. Yang, K.W. Li (2002), Mining English/Chinese Parallel 
Documents from the World Wide Web. Proceedings of the International 
World Wide Web Conference, Honolulu, Hawaii, May 7-11, 2002 
[9] J. Chen, R. Chau, C.H. Yeh (2004), Discovering Parallel Text from the World Wide 
Web. In Proc. Australasian Workshop on Data Mining and Web Intelligence 
(DMWI2004), Dunedin, New Zealand. CRPIT, 32. Purvis, M., Ed. ACS. 157-161 
[10] Phillip Koehn, Europarl: A Parallel Corpus for Statistical Machine 
Translation 
[11] P. F. Brown, S.A.D. Pietra, V. D. J. Pietra, and R. L. Mercer, “The 
mathematics of machine translation: Parameter estimation”, Computational 
Linguistics, 19: 263-312, 1992. 
[12] J.-Y. Nie, M. Simard, P. Isabelle, and R. Durand. “Cross-language 
information retrieval based on parallel texts and automatic mining of parallel 
texts from the Web,” Proceedings of the 22nd Annual International ACM SIGIR 
Conference on Research and Development in Information Retrieval, pages 74--
81, 1999. 
[13] Mark W. Davis and William C. Ogden. “Quilt: Implementing a large-scale 
cross-language text retrieval system”, The 20th International Conference on 
Research and Development in Information Retrieval, 1997. 
[14] Van B. Dang, Bao-Quoc Ho, “Automatic Construction of English-
Vietnamese Parallel Corpus through Web Mining”, Proceedings of RIVF 2007, 
Vietnam. 
[15] Phạm Đào Minh Vũ, “Khai thác tự động dữ liệu từ Internet để xây dựng kho 
ngữ liệu song ngữ Anh – Việt”,Luận văn cao học, Đại học Khoa học Tự Nhiên TP. 
Hồ Chí Minh, 2007. 
[16] J. Chen, J.Y. Nie. “Automatic construction of parallel English-Chinese 
corpus for cross-language information retrieval,” Proc. ANLP, pp. 21-28, Seattle, 
2000. 
[17] Resnik Philip. “Parallel strands: A preliminary investigation into mining the 
Web for bilingual text,” in Proceedings of the Third Conference of the Association 
for Machine Translation in the Americas, AMTA-98, in Lecture Notes in Artificial 
Intelligence, 1529, Langhorne, PA, October 28-31. 
[18] P. Resnik and N. A. Smith. “The Web as a Parallel Corpus,” Computational 
Linguistics, 2003, 29(3):349–380. 
[19] Ma Xiaoyi, Mark Liberman. “BITS: A method for bilingual text search over 
the web,” Machine Translation Summit VII, September, 1999. 
[20] C.J. van Rijsbergen, S.E. Robertson and M.F. Porter. “New models in 
probabilistic information retrieval,” London: British Library, 1980. (British 
Library Research and Development Report, no. 5587). 

File đính kèm:

  • pdfbao_cao_ky_thuat_xay_dung_kho_ngu_lieu_song_ngu_anh_viet.pdf