Thứ Sáu, 12 tháng 5, 2017

Xem thêm: Google Translate chỉ v���i thể dịch được 100 ngôn ngữ nhưng cỗ máy mới này sở hữu th��� dịch được hàng nghìn cái

"Máy dịch" là dịch thuật tự động trên máy tính, không sở hữu sự tham gia của con người, phân biệt mang "người dịch". Bây giờ, những công cụ dịch trực tuyến mới chỉ hoạt động sở hữu dưới 100 trong số gần 7.000 ngôn ngữ trên thế giới. 1 khoa học mới mang thể thay đổi điều ấy.

Ước tính hiện có 6.900 ngôn ngữ khác nhau mà con người đang tiêu dùng. Hơn 1 nửa dân số toàn cầu giao tiếp bằng phương pháp dùng các ngôn ngữ phổ biến như tiếng Trung, tiếng Anh, tiếng Hindi, tiếng Tây Ban Nha và tiếng Nga. Thực tế, 95% dân số thế giới chỉ tiêu dùng 100 ngôn ngữ để giao tiếp.

những nhà ngôn ngữ học ước tính rằng khoảng một phần ba số ngôn ngữ trên thế giới chỉ có dưới một.000 người nhắc. Các ngôn ngữ này với thể biến mất trong vòng 100 năm tới, mang đi theo di sản văn hoá độc đáo mà chúng cất đựng: các thành ngữ, những câu truyện cười, những phương thuốc thảo dược và thậm chí là các cảm xúc độc đáo.

Liệu máy học (machine learning) có thể giúp bảo tồn các ngôn ngữ này hay không? Vấn đề là giai đoạn máy dịch dựa vào các bộ dữ liệu rất lớn đã được chú thích. Lượng dữ liệu này bao gồm đa dạng sách, bài báo và trang web đã được dịch sang các ngôn ngữ khác theo cách thủ công. Tập dữ liệu càng to, máy dịch càng tốt.

 Dữ liệu càng lớn, máy dịch càng tốt.

Dữ liệu càng to, máy dịch càng tốt.

>>> Xem thêm: dịch vụ cho thuê máy photocopy giá tốt tại hà nội

Nhưng những bộ dữ liệu khổng lồ này ko tồn tại đối với đa số những ngôn ngữ. Ấy là lý do tại sao máy dịch chỉ hoạt động có 1 phần siêu nhỏ trong số các ngoại ngữ phổ biến nhất. Ví dụ, Google Translate, chỉ làm cho việc được với khoảng 90 ngôn ngữ. Bởi thế một thách thức quan trọng đối sở hữu những nhà ngôn ngữ học là chọn ra bí quyết phân tích tự động những ngôn ngữ ít đa dạng để hiểu rõ hơn về chúng.

vừa rồi, Ehsaneddin Asgari và Hinrich Schutze tại Đại học Ludwig-Maximilian ở Munich (Đức) nói rằng họ đã khiến được điều đấy.

bí quyết tiếp cận của họ tập trung vào những yếu tố quan trọng của tất cả ngôn ngữ, từ ấy tạo ra một bước đệm cho máy dịch.

khoa học mới này dựa trên một văn bản duy nhất đã được dịch sang ít nhất 2.000 ngôn ngữ khác nhau. Ấy chính là Kinh thánh. Họ đã tạo ra 1 cơ sở dữ liệu được gọi là Parallel Bible Corpus, bao gồm bản dịch Tân Ước của một.169 ngôn ngữ. Bộ dữ liệu này không đủ lớn cho máy dịch như của Google hay một số nền tảng khác. Do đó, Asgari và Schutze đã đưa ra 1 phương pháp tiếp cận khác dựa trên phương pháp thức thời gian xuất hiện (tense - thì/thời) trong các ngôn ngữ khác nhau.

tất cả những ngôn ngữ dùng những từ, cụm từ cụ thể để thể hiện những thì. Do đó, thủ thuật mới là xác định thủ công các tín hiệu này bằng phổ biến ngôn ngữ và sau ấy sử dụng kỹ thuật khai thác dữ liệu (data-mining) vào các bản dịch khác nhằm chọn kiếm từ hay chuỗi ký tự đóng vai trò tương đương.

Ý tưởng ban đầu của Asgari và Schutze là chọn đa số những từ này trong bản dịch tiếng Anh của Kinh Thánh. Nhưng sở hữu 1 chút thay đổi, Asgari và Schutze không bắt đầu bằng tiếng Anh. Bởi vì đó là một ngôn ngữ tương đối cũ với rộng rãi ví như ngoại lệ, khiến việc "học" trở nên khó khăn.

Thay vào đấy, họ bắt đầu bằng một bộ ngôn ngữ Creole, vốn được vững mạnh từ nhiều ngôn ngữ khác nhau. Ngôn ngữ Creole trẻ hơn, ít bị tác động của lịch sử hơn. Mặt khác nó chứa những dấu hiệu phải chăng hơn về chức năng của từ ngữ (cụ thể ở đây là thì).

khoa học này cho phép các nhà nghiên cứu tạo ra những bản đồ cho thấy những ngôn ngữ tiêu dùng cấu trúc thì tương tự nhau có liên quan đến nhau như thế nào (xem sơ đồ dưới).

Sơ đồ về các thì ở các ngôn ngữ khác nhau
>>> sở hữu thể bạn quan tâm: cho thuê máy photo tại hưng yên uy tín
Sơ đồ về những thì ở các ngôn ngữ khác nhau

ấy là công việc thú vị. Asgari và Schutze đã phát triển 1 cách tính toán để phân tích cách con người dùng thì quá khứ, hiện tại và tương lai trong hơn 1.000 ngôn ngữ.

Đột phá này với ứng dụng quan trọng. Bản đồ về thì của ngôn ngữ cho phép những nhà nghiên cứu nhanh chóng mua ra mối quan hệ giữa các ngôn ngữ và phương pháp chúng được kết nối. Điều đấy với thể được tiêu dùng để hiểu rõ hơn về sự tiến hóa của ngôn ngữ.

Ngôn ngữ học tính toán đã mang tác động sâu sắc tới sự hiểu biết của chúng ta về ngôn ngữ, sự khác biệt của các ngôn ngữ trên thế giới và cách để máy móc với thể hiểu chúng. Lĩnh vực mới nổi này mang thể giúp tự động dịch nhiều ngôn ngữ trực tiếp sang những ngôn ngữ khác dưới dạng văn bản hoặc giọng đề cập.

>>> cho thuê máy photo tại hải phòng giá tốt

0 nhận xét:

Đăng nhận xét