NCKH-MỘT SỐ THUẬT TOÁN NHẬN DẠNG VÀ CHUYỂN MÃ TIẾNG VIỆT

Một số thuật toán nhận dạng và chuyển mã tiếng Việt

Tóm tắt: Hiện nay, tiếng Việt có hơn 40 loại bảng mã khác nhau được sử dụng để mã hóacác loại văn bản: từ trang web, các dữ liệu điện tử đến các cơ sở dữ iệu… Việc nhận biết bảngmã và chuyển đổi giữa các bảng mã tiếng Việt là rất cần thiết, không chỉ mang lại lợi ích chocác lập trình viên mà cho cả nhân viên văn phòng, nhân viên xử lý văn bản. Công việc này cũngtạo tiền đề cho các việc xử lý tiếp theo trong tiếng Việt như: kiểm tra phát hiện lỗi chính tả, tóm tắt văn bản, làm từ điển, thậm chí cả dịch máy và xử lý ngôn ngữ tự nhiên. Trong khuôn khổ bài báo này, chúng tôi đưa ra một thuật toán nhận dạng mã để dễ dàng chuyển đổi mã tiếng Việt mà các chương trình hiện nay hầu hết chỉ chuyển mã biết trước mà không nhận dạng được các bảng mã, cũng như không xử lý được các văn bản tiếng Việt có nhiều loại mã trong cùng một văn bản.

Summary: In recent years, there are over 40 Vietnamese codes for encoding on all types of data from websites, databases to documents, and many others. Codes recognization and conversion have so many advantages for not only programmers but office clients and secretaries as well.. It makes premises for advanced Vietnamese processing such as: spell checking, syntact correcting, document abstracting, dictionary constructing, even machine translating and natural language processing.

In this article, we present an algorithrm which can recognize many kinds of Vietnamese codes to make them easy to convert, while almost other programs can only convert some knowncodes and cannot recognize codes or process Vietnamese documents having more than one code.

I. MÃ HOÁ TIẾNG VIỆT TRONG CÔNG NGHỆ THÔNG TIN

Công nghệ thông tin là một ngành non trẻ ở nước ta, với khoảng 20 năm phát triển nhưng nó cũng đang là một ngành có nhiều đóng góp đối với nền kinh tế đất nước. Với chi phí rất ít nhưng nó đem lại lợi nhuận cao, là một hướng đi tắt đón đầu cho các nước đang phát triển bắt kịp với các nước khác. Không những thế công nghệ thông tin làm hiện đại hóa, công nghiệp hóa không chỉ nền sản xuất xã hội, mà còn làm thay đổi bộ mặt đời sống văn hóa tinh thần của toàn xã hội.
Việc đưa tiếng Việt vào máy tính không chỉ để soạn thảo văn bản mà còn xây dựng phát triển các phần mềm có giao diện tiếng Việt, thậm chí xử lý tiếng Việt. Dẫn tới việc xuất hiện các bảng mã tiếng Việt, cho phép soạn thảo và xử lý chúng. Hiện nay, với trên 40 bảng mã khác nhau được sử dụng, nên việc khai thác tài liệu, xử lý dữ liệu rất phức tạp. Các bảng mã tự bản thân cũng phức tạp bởi có loại 1 byte có loại 2 byte; có loại tổ hợp nguyên âm và dấu lại có loại dựng sẵn cho cả nguyên âm lẫn dấu. Nhưng về cơ bản các phụ âm, nguyên âm không dấu đều sử dụng theo mã ASCII. Sự khác nhau chỉ là nguyên âm có dấu.

Download “Một số thuật toán nhận dạng và chuyển mã tiếng Việt”

Báo giá dịch vụ viết thuê luận văn

Luận Văn A-Z  nhận làm trọn gói dịch vụ viết thuê luận văn thạc sĩ, luận án tiến sĩ. Liên hệ ngay dịch vụ viết thuê luận văn của chúng tôi!

UY TÍN - CHUYÊN NGHIỆP - BẢO MẬT

Nhận báo giá Xem thêm

Leave a Reply

Your email address will not be published.

Bạn cần hỗ trợ?