Giải mã ngôn ngữ cổ đại với mô hình AI từ Google DeepMind
Đội ngũ phát triển AI hàng đầu của Google, DeepMind, vừa giới thiệu một mô hình AI mới hỗ trợ các nhà sử học hiểu sâu hơn về văn bản cổ. Được đặt tên là Aeneas, đây là mô hình AI đầu tiên trên thế giới có khả năng phân tích ngữ cảnh các bản khắc cổ.
Trong một bài đăng blog, DeepMind giải thích rằng Aeneas giúp các nhà sử học thực hiện hàng loạt công việc khó khăn như:
-Giải mã, xác định nguồn gốc và phục hồi các văn bản cổ bị phân mảnh
-Tìm kiếm văn bản tương đồng về từ ngữ, cú pháp hoặc công thức chuẩn hóa trong hàng nghìn bản khắc Latinh
-Xử lý dữ liệu đa phương thức (multimodal input) và lấp đầy khoảng trống trong văn bản
Mô hình AI này hiện được huấn luyện chủ yếu trên tiếng Latinh, nhưng có thể áp dụng cho các ngôn ngữ, văn tự cổ khác. Trong khi các nhà sử học thường phải dựa vào chuyên môn và tài liệu chuyên ngành để so sánh văn bản, Aeneas có thể tự động hóa quá trình này, tiết kiệm thời gian đáng kể.
Từ Ithaca đến Aeneas: AI "thám hiểm" lịch sử
Aeneas được đặt theo tên người anh hùng trong thần thoại Hy Lạp-La Mã, tiếp nối thành công từ Ithaca – mô hình AI được ta mắt trước đó của DeepMind chuyên giải mã chữ viết Hy Lạp cổ.
"Aeneas tiến xa hơn một bước, giúp các nhà sử học diễn giải, đặt văn bản vào bối cảnh, tìm ý nghĩa cho những mảnh ghép rời rạc, từ đó vẽ nên bức tranh lịch sử cổ đại toàn diện hơn"
Mô hình này biến mỗi văn bản thành một "dấu vân tay lịch sử", bao gồm thông tin về nội dung, ngôn ngữ, nguồn gốc và mối liên hệ với các bản khắc khác. Nó phát hiện những liên kết sâu giúp định vị văn bản trong bối cảnh rộng hơn. Dữ liệu huấn luyện của Aeneas gồm hơn 176.000 bản khắc Latinh, là kết quả làm việc hàng thập kỷ của giới sử học.
Hiệu suất vượt trội & ứng dụng thực tế
Theo DeepMind, Aeneas hoạt động chính xác hơn các mô hình AI đa năng khác khi phân loại văn bản theo niên đại. Hiện tại, phiên bản tương tác của Aeneas đã mở miễn phí cho ba nhóm đối tượng sau:
-Nhà nghiên cứu
-Sinh viên & giảng viên
-Chuyên gia bảo tàng
Mã nguồn và dataset cũng được công khai trên GitHub của DeepMind .
Aeneas là một trong nhiều công cụ AI của Google tập trung vào bảo tồn di sản. Đầu tháng này, hãng cũng cập nhật Woolaroo – công cụ thử nghiệm giúp người dùng học các ngôn ngữ bản địa có nguy cơ biến mất.