Corpora là gì, ngữ liệu văn bản

     
*


Chuyên sâu về Corpus.

Bạn đang xem: Corpora là gì, ngữ liệu văn bản

Lưu Tuấn Anh

Cùng với từ điển, corpus là những tàinguyên ngôn ngữ vô cùng căn bản và cần thiết cho NLP. Từ điển là tập hợp cáctri thức về ngôn ngữ, cách sử dụng và ý nghĩa của từ, thì ngược lại, corpus làdữ liệu về cách sử dụng, cách viết của từ đó trong thực tế.

Corpus có thể chia thành 2 loại chính : corpushẹp và corpus rộng.

Corpus hẹp là corpus được xây dựng 1 cáchcân bằng nhằm phản ánh trung thực tính đa dạng của ngôn ngữ. Ngược lại, corpusrộng là corpus tập hợp rất lớn các văn bản điện tử mà không quan tâm tới sự cânbằng của corpus.

Đối với corpus hẹp, vấn đề lớn nhất là “đểđảm bảo tính đại diện và cân bằng của corpus, thì phải lấy những chủng loạingôn ngữ nào, và tỉ lệ là bao nhiêu”. Không có 1 con số cụ thể và khách quannào về những tỉ lệ này. Vì sự khó khăn của việc xây dựng corpus hẹp, mà phần lớncorpus hiện nay đều là các corpus rộng.

1.1 Các loại corpus

(đã nói ở những phần trước)

1.2 Cấu trúc của corpus

Như đã trình bày ở trên, có 2 hướng khi thiếtkế 1 corpus : 1 là quan tâm và tính toán đến sự cân bằng của corpus, và 1 là tậptrung vào số lượng mà không quan tâm đến sự cân bằng. Tuỳ theo 2 hướng xây dựngnày mà các corpus sẽ có cấu trúc và quá trình xây dựng khác nhau.

Khi xây dựng các corpus hẹp, thường trảiqua các quá trình sau :

1. Tính toán, thiết kế corpus

Đây là quá trình quan trọng nhất quyết định đặc điểm, tính chất của corpus.Trước đó, ta phải kiểm tra những điều sau : (a) mục đích sử dụng corpus, (b)kích thức corpus hay số lượng ngôn ngữ, (c) các chủng loại văn bản được chọn, (d)phương pháp phân tầng, phương pháp tính tỉ suất cấu thành, (e) độ dài các văn bảnsẽ lấy, (f) bản quyền tác giả, phương pháp công khai, và nhiều yếu tố khác.

2. Lấy mẫu (sampling)

Từ tập hợp mẫu ta chọn ra lần lượt từng thành phần (là các văn bản).Quá trình này phải tuân theo tỉ suất cấu thành được thiết lập từ bước 1 để xácđịnh độ dài văn bản, số lượng văn bản ở mỗi tầng. Sau khi xác định được các yếutố này, người ta thường dùng phương pháp chọn ngẫu nhiên các mẫu để xây dựngcác tầng.

3. Xây dựng hình thức (Formalization)

Quá trình gắn thêm các tag cần thiết cho các mẫu.

4. Chú thích (annotation)

Bổ xung thêm thông tin về hình thái, phân tách từ, cấu trúc câu …

5. Sửa, bổ xung thêm các văn bản, thông tinliên quan

1.3 Chú thích (annotation)

Chú thích là quá trình sửa đổi các nội dunggốc (tagging ) hay loại bỏ các nội dung đã thêm vào (tag). Vế thứ 2 có nghĩa làkhi ta loại bỏ các chú thích, ta sẽ thu lại được nội dung gốc ban đầu. Nói cáchkhác, quá trình chú thích không làm mất đi nội dung gốc.

 

Có 2 dạng chú thích chính :

1. Chú thích được ghi cùng nội dung.

2. Chú thích tách biệt khỏi nội dung.

Chúng ta sẽ xem xét ví dụ dưới đây :

“hôm nay trời đẹp.”

Với dạng 1, chú thích ghi cùng nội dung, tasẽ có :

hôm nay trời đẹp.

Nằm trong cụm là danh từ, là tính từ.

Có thể thấy, khi ta bỏ các chú thích đi, tavẫn sẽ nhận lại được câu văn ban đầu.

Với dạng 2, chú thích tách biệt khỏi nộidung, ta sẽ có :

Các ví dụ này do tác giả tạora nhằm làm rõ hơn về khái niệm chú thích, không phải là dạng chú thích chuẩnđược sử dụng trong thực tế.

 

Đối với các chú thích ngữ học, sẽ có nhiềuthông tin hơn được đưa vào. Với mỗi dạng corpus (có lẽ) sẽ có 1 dạng tag khácnhau, vì thế nên đọc kĩ các tài liệu liên quan đến corpus để thao tác đượcchính xác.

Xem thêm: Đô Thị Xanh Là Gì ? Tiêu Chí Đánh Giá Và Ý Nghĩa Của Đô Thị Xanh

1.4 Sử dụng corpus

Corpus được sử dụng trong thống kê ngôn ngữhọc, để quan sát và phân tích các hiện tượng ngôn ngữ. Từ khoảng những năm1990, với sự phát triển vượt bậc của tốc độ máy tính, hàng loạt corpus được làmtự động hay bán tự động đã được ra đời, điều này cũng làm tăng kích thước corpusvà độ chính xác của các thống kê.

Ngoài ra, corpus còn có 1 tác dụng vô cùngquan trọng nữa, là làm tài nguyên cho các máy học (machinelearning) và các hệ chuyêngia, datamining (khai phá dữ liệu) .

1.5 Triển vọng cho corpus

Cùng với sự phát triển vũ bão của internet,các thông tin, văn bản, ngôn ngữ trên internet cũng tăng lên với cấp số nhân. Nếulấy những dữ liệu trên Web tạo thành 1 corpus, ta sẽ tạo ra được những corpus vớikích thước gấp hàng chục, thậm chí hàng trăm lần những corpus đã biết.

Nhưng các corpus từ dữ liệu Web cũng có nhữngvấn đề riêng :

1. Không phải là corpus cân bằng.

2. Những sai sót như sử dụng sai, sai chínhtả … còn nhiều. Ngoài ra không thể không nói đến những nội dung có tính vi phạmpháp luật hoặc vô đạo đức.

3. Không có tính tái hiện khi dữ liệu trênWeb là dữ liệu động, có thể bị xoá bất cứ lúc nào.

 

Mặc dù vẫn còn những vấn đề lớn, nhưng sự hấpdẫn từ những corpus khổng lồ quả thực không thể cưỡng lại. Vấn đề 3 có thể giảiquyết bằng cách lưu lại những trang web đã lấy dữ liệu, vấn đề 1 và 2, nói cáchkhác lại phản ánh được sự biến đổi của ngôn ngữ, cũng như cách sử dụng của ngônngữ trong thực tế. 


Chuyên mục: Tài liệu