Facebook đang đổ rất nhiều thời gian và tiền bạc vào việc tăng cường trải nghiệm thực tế, bao gồm cả việc xây dựng kính AR của riêng mình với Ray-Ban. Hiện tại, những thiết bị này chỉ có thể ghi lại và chia sẻ hình ảnh, nhưng công ty cho ra mắt những thiết bị như vậy sẽ để sử dụng vào việc gì trong tương lai?
Một dự án nghiên cứu mới do nhóm AI của Facebook dẫn đầu cho thấy phạm vi tham vọng của công ty. Họ tưởng tượng đến việc các hệ thống AI liên tục phân tích cuộc sống của mọi người bằng cách: ghi lại những gì họ thấy, làm và nghe để giúp họ thực hiện các công việc hàng ngày. Các nhà nghiên cứu của Facebook đã vạch ra một loạt kỹ năng mà họ muốn các hệ thống này phát triển, bao gồm “trí nhớ theo từng giai đoạn” (trả lời các câu hỏi như “tôi đã để chìa khóa ở đâu?”) Và “phân cực âm thanh hình ảnh” (nhớ xem ai đã nói gì, khi nào).
Hiện tại, các nhiệm vụ nêu trên chưa thể đạt được một cách đáng tin cậy bởi bất kỳ hệ thống AI nào và Facebook nhấn mạnh rằng đây là một dự án nghiên cứu chứ không phải là một sự phát triển thương mại. Tuy nhiên, rõ ràng là công ty coi những chức năng như thế này là tương lai của điện toán AR. Nhà khoa học nghiên cứu về AI của Facebook Kristen Grauman nói với The Verge: “Chắc chắn rồi, khi nghĩ về tăng cường trải nghiệm thực tế và những gì chúng ta có thể làm với nó, có nhiều khả năng chúng ta sẽ tận dụng loại nghiên cứu này”.
Những tham vọng như vậy có ý nghĩa rất lớn về quyền riêng tư. Các chuyên gia về quyền riêng tư đã lo lắng về cách kính AR của Facebook cho phép người đeo bí mật ghi lại hoạt động của mọi người ở nơi công cộng. Những lo ngại như vậy sẽ chỉ trở nên trầm trọng hơn nếu các phiên bản phần cứng trong tương lai không chỉ ghi lại cảnh quay mà còn phân tích và phiên âm nó, biến người đeo thành máy giám sát đi bộ.
Tên dự án nghiên cứu của Facebook là Ego4D, đề cập đến việc phân tích video góc nhìn thứ nhất, hay còn gọi là “tập trung”. Nó bao gồm hai thành phần chính: một tập dữ liệu mở về video hướng tâm và một loạt các điểm chuẩn mà Facebook cho rằng các hệ thống AI sẽ có thể giải quyết trong tương lai.
Bộ dữ liệu hiện tại là bộ dữ liệu lớn nhất từng được tạo ra và Facebook đã hợp tác với 13 trường đại học trên khắp thế giới để thu thập nó. Tổng cộng, khoảng 3.205 giờ cảnh quay đã được ghi lại bởi 855 người tham gia sống ở 9 quốc gia khác nhau. Các trường đại học, thay Facebook chịu trách nhiệm thu thập dữ liệu. Những người tham gia, một số người đã được trả tiền, đeo máy ảnh GoPro và kính AR để quay video về những hoạt động không theo chủ đích. Bao gồm từ công việc xây dựng đến nướng bánh, chơi với thú cưng và giao lưu với bạn bè. Tất cả các cảnh quay đều được các trường đại học khử nhận dạng, bao gồm việc làm mờ khuôn mặt của những người ngoài cuộc và xóa mọi thông tin nhận dạng cá nhân.
Grauman nói rằng tập dữ liệu này là “bộ dữ liệu đầu tiên của loại hình này cả về quy mô và tính đa dạng”. Cô nói, dự án có thể so sánh gần nhất chứa 100 giờ cảnh quay của người thứ nhất được quay hoàn toàn trong nhà bếp. “Chúng tôi đã mở rộng tầm mắt của những hệ thống AI này không chỉ là các nhà bếp ở Vương quốc Anh và Sicily, mà còn với các cảnh quay từ] Ả Rập Saudi, Tokyo, Los Angeles và Colombia.”
Thành phần thứ hai của Ego4D là một loạt các điểm chuẩn hoặc nhiệm vụ mà Facebook muốn các nhà nghiên cứu trên khắp thế giới thử và giải quyết bằng cách sử dụng các hệ thống AI được đào tạo trên tập dữ liệu của mình. Công ty mô tả những điều này là:
Ký ức theo giai đoạn: Điều gì? Đã xảy ra khi nào(ví dụ: “Tôi đã để chìa khóa ở đâu?”)?
Dự báo: Tôi có khả năng làm gì tiếp theo (ví dụ: “Chờ đã, bạn đã thêm muối vào công thức này”)?
Thao tác tay và đồ vật: Tôi đang làm gì (ví dụ: “Dạy tôi cách chơi trống”)?
Phân cực âm thanh-hình ảnh: Ai nói gì khi nào (ví dụ: “Chủ đề chính trong giờ học là gì?”)?
Tương tác xã hội: Ai đang tương tác với ai (ví dụ: “Giúp tôi nghe rõ hơn người đang nói chuyện với tôi tại nhà hàng ồn ào này”)?
Hiện nay, các hệ thống AI sẽ thấy rằng việc giải quyết bất kỳ vấn đề nào trong số này là vô cùng khó khăn, nhưng việc tạo bộ dữ liệu và điểm chuẩn là những phương pháp đã được thử nghiệm và thử nghiệm để thúc đẩy sự phát triển trong lĩnh vực AI.
Thật vậy, việc tạo ra một tập dữ liệu cụ thể và một cuộc thi hàng năm liên quan, được gọi là ImageNet, thường được cho là đã khởi đầu cho sự bùng nổ AI gần đây. Các bộ dữ liệu của ImagetNet bao gồm các bức ảnh về rất nhiều đối tượng mà các nhà nghiên cứu đã đào tạo hệ thống AI để xác định. Vào năm 2012, bài viết chiến thắng trong cuộc thi đã sử dụng một phương pháp học sâu đặc biệt để đánh bại các đối thủ trong quá khứ, mở đầu cho kỷ nguyên nghiên cứu hiện tại.
Facebook đang hy vọng dự án Ego4D của mình sẽ có tác dụng tương tự đối với thế giới tăng cường trải nghiệm thực tế. Công ty cho biết một ngày nào đó các hệ thống được đào tạo trên Ego4D có thể không chỉ được sử dụng trong máy ảnh đeo được mà còn cả rô bốt trợ lý tại nhà, cũng dựa vào máy ảnh góc nhìn thứ nhất để điều hướng thế giới xung quanh.
Grauman nói: “Dự án có cơ hội thực sự trong việc thúc đẩy công việc trong lĩnh vực này theo cách mà chưa thực sự có thể thực hiện được. “Để chuyển lĩnh vực của chúng tôi từ khả năng phân tích ảnh và video do con người chụp với mục đích rất đặc biệt, sang luồng hình ảnh góc nhìn thứ nhất linh hoạt, liên tục mà các hệ thống AR, rô bốt, thì cần phải hiểu trong bối cảnh hoạt động liên tục.”
Mặc dù những nhiệm vụ mà Facebook vạch ra chắc chắn có vẻ thiết thực nhưng sự quan tâm của công ty đối với lĩnh vực này sẽ khiến nhiều người lo lắng. Hồ sơ của Facebook về quyền riêng tư là rất tồi tệ, bao gồm các vụ rò rỉ dữ liệu và 5 tỷ đô la tiền phạt từ FTC. Nó cũng đã được chứng minh nhiều lần rằng công ty coi trọng sự tăng trưởng và mức độ tương tác cao hơn mức độ hạnh phúc của người dùng trong nhiều lĩnh vực. Với điều này, thật đáng lo ngại rằng các điểm chuẩn trong dự án Ego4D này không bao gồm các biện pháp bảo vệ quyền riêng tư nổi bật. Ví dụ: nhiệm vụ “phân cực âm thanh-hình ảnh” (phiên âm những gì người khác nói) không bao giờ đề cập đến việc xóa dữ liệu về những người không muốn được ghi lại.
Khi được hỏi về những vấn đề này, người phát ngôn của Facebook nói với The Verge rằng họ hy vọng rằng các biện pháp bảo vệ quyền riêng tư sẽ được giới thiệu sâu hơn. Người phát ngôn cho biết: “Chúng tôi hy vọng rằng trong phạm vi các công ty sử dụng bộ dữ liệu và điểm chuẩn này để phát triển các ứng dụng thương mại, họ sẽ phát triển các biện pháp bảo vệ cho các ứng dụng đó. “Ví dụ: trước khi kính AR có thể nâng cao giọng nói của ai đó, có thể có một giao thức mà họ tuân theo để yêu cầu kính của người khác cho phép hoặc họ có thể giới hạn phạm vi của thiết bị để nó chỉ có thể nhận âm thanh từ những người có người mà tôi đang trò chuyện hoặc người đang ở gần tôi. ” Hiện tại, những biện pháp bảo vệ như vậy chỉ đang là giả thuyết.
Theo The Verge