Dùng AI diệt virus không cần mẫu nhận diện - từ ý tưởng đến hiện thực

Do your best, the rest will come !

Ứng dụng AI (trí tuệ nhân tạo) để diệt virus không cần mẫu nhận diện đang là giải pháp tối ưu, giúp doanh nghiệp và người dùng cá nhân đối phó với những nguy cơ mã độc ngày càng tinh vi.

Thế giới mạng đang phải gồng mình đối mặt với những đợt tấn công không ngừng của phần mềm độc hại. Theo Statista, số cuộc tấn công bằng mã độc năm 2019 lên tới 9,9 tỷ, trong khi số mã độc xuất hiện mỗi ngày đã lên tới con số hàng triệu. Thiệt hại do mã độc gây ra cho người sử dụng toàn cầu cũng đã lên tới hàng trăm tỷ USD mỗi năm.

Chỉ tính riêng ở Việt Nam, năm 2019 đã có trên 80 triệu lượt máy tính bị nhiễm mã độc, gây thiệt hại hơn 20.000 tỷ đồng (trên 900 triệu USD). Đây là những con số cho thấy sức tàn phá rất lớn của mã độc với nền kinh tế

“Nguồn lợi khổng lồ thu được thông qua các vụ tấn công mã hóa dữ liệu tống tiền, theo dõi người dùng, ăn cắp thông tin tài khoản... đã khiến việc chế tạo và phát tán mã độc trở thành một ngành công nghiệp cực kỳ phát triển”, ông Vũ Ngọc Sơn - Phó chủ tịch mảng chống mã độc của Bkav - chia sẻ.

Đây thực sự là thách thức với nhà sản xuất phần mềm diệt virus, nhưng cũng chính là cơ hội để các hãng sản xuất có thể cạnh tranh, thể hiện sức mạnh về công nghệ diệt virus. Các phần mềm có công nghệ tốt, cập nhật nhanh, xử lý virus gọn gàng sẽ có cơ hội để chiếm lĩnh thị trường và sự tin tưởng của người dùng.

Trong không gian văn phòng mở - nơi mọi người có thể giao tiếp mà không gặp bất kỳ trở ngại nào, một nhóm hơn 50 nhà nghiên cứu đang miệt mài trước các màn hình máy tính đầy những con số, im lặng và rất tập trung.

“Đây là bộ não của trung tâm nghiên cứu, phát triển công nghệ trí tuệ nhân tạo AI Scanner của Bkav. Họ là những chuyên gia hàng đầu, có kinh nghiệm lâu năm về virus máy tính và các giải pháp phòng chống”, ông Nguyễn Tiến Đạt - Giám đốc trung tâm nghiên cứu mã độc tại Bkav - chia sẻ.

Mục tiêu của các nhà nghiên cứu là ứng dụng công nghệ trí tuệ nhân tạo để có thể phát hiện hàng triệu mẫu virus mỗi ngày mà không cần thu thập mẫu virus mới và cập nhật mẫu nhận diện. Nhóm nghiên cứu luôn có sự phối hợp chặt chẽ với khoảng 400 kỹ sư, kỹ thuật viên đến từ Trung tâm hỗ trợ kỹ thuật khách hàng Bkav Pro, cùng với đó là sự trợ giúp về chuyên môn đến từ Viện Nghiên cứu về trí tuệ nhân tạo AI của Tập đoàn Bkav.

Khi một cuộc tấn công được phát hiện và báo cáo về, các chuyên gia phân tích sẽ lấy mẫu (một bản copy của mã độc), từ đó giải mã, phân tích để tìm ra cách mã độc xâm nhập vào một hệ thống, cách thức nó nhân bản giữa các đối tượng lây nhiễm, tấn công, phá hoại, đánh cắp thông tin người dùng…. Đó được gọi là các hành vi của mã độc.

Để thu thập được mẫu virus nhiều nhất có thể, các nhà nghiên cứu sử dụng hệ thống bẫy mẫu tự động có tên Honey Pot. Đây là hệ thống thu thập mẫu virus trên Internet hoàn toàn tự động. Cách thức hoạt động của hệ thống này là chủ động tạo ra đối tượng lây nhiễm ưa thích của virus như các máy tính không có phần mềm diệt virus bảo vệ, không được cập nhật bản vá lỗ hổng, không có tường lửa bảo vệ…

Các máy tính này được kết nối với Internet và giám sát chặt chẽ để phát hiện virus bị dính bẫy. Các mẫu virus thu được từ hệ thống Honey Pot nhanh chóng được chuyển tới máy phân loại. Tại đây, máy phân loại sẽ giúp loại bỏ những mẫu cũ, mẫu rác và lọc ra các mẫu virus mới.

Sẽ thật tuyệt nếu chúng ta có thể đơn giản giải mã phần mềm độc hại, mổ xẻ các hành vi của nó và sử dụng trí tuệ nhân tạo để chấm điểm, phần mềm nào điểm hành vi nguy hiểm cao sẽ được kết luận là mã độc, cần xử lý. Tuy nhiên, cuộc chiến giữa hacker và chuyên gia an ninh mạng luôn trường kỳ.

Hacker luôn ý thức trang bị cho mã độc những đoạn mã làm khó công việc phân tích mổ xẻ của đội ngũ chuyên gia. Đó là các kỹ thuật đánh lạc hướng như mã hóa mã nguy hiểm để che giấu hành vi xâm nhập và chỉ giải mã lên bộ nhớ để thực thi mỗi khi mã độc được kích hoạt. Một kỹ thuật khác là mã độc sẽ kiểm tra, dò tìm, nếu nhận thấy đang thực thi trong môi trường giả lập thì sẽ không bộc lộ hành vi.

Tinh vi hơn, mã độc thậm chí xâm nhập vào máy tính, không bộc lộ bất kỳ hành vi nào nguy hiểm, nằm vùng một thời gian đủ dài, sau đó mới thực hiện các hành vi phá hoại. Những kỹ thuật này biến đổi liên tục, đòi hỏi các công nghệ phân tích cũng phải biến đổi theo để thích ứng.

Thông thường, công nghệ trí tuệ nhân tạo được tích hợp trong phần mềm có thể nhận biết tốt các mã độc có hành vi rõ ràng vì điểm nguy hiểm ở mức cao, dễ phân biệt với phần mềm sạch. Tuy nhiên, khi các hành vi nguy hiểm không rõ ràng, hoặc được sử dụng kỹ thuật “chia để trị” - thay vì chứa hết hành vi trong một file thực thi, hacker chia nhỏ thành nhiều file khác nhau, mỗi file chỉ đảm nhiệm một vài hành vi tưởng chừng không liên quan - điểm hành vi nguy hiểm ứng với mỗi file giảm xuống mức thấp, tương đương điểm số của một phần mềm bình thường, sẽ dễ dàng qua mặt phần mềm diệt virus.

Trong trường hợp này, nếu phần mềm sử dụng trí tuệ nhân tạo cố gắng hạ ngưỡng nguy hiểm xuống thấp để phát hiện file mã độc đã được chia nhỏ hành vi thì sẽ phát sinh lỗi nhận nhầm (false positive) với các phần mềm sạch khác.

“Chúng tôi phải phân tích hàng trăm triệu mẫu virus khác nhau, sử dụng deep learning để xây dựng thành công mô hình phát hiện mã độc tối ưu, đảm bảo khả năng nhận diện được mã độc chính xác ở mức cao nhất, trong khi tỷ lệ nhận diện nhầm được hạ xuống gần như bằng 0”, ông Nguyễn Tiến Đạt chia sẻ.

Khó khăn lớn nhất đặt ra là phải phân tích hàng trăm triệu mẫu virus để đưa vào học máy, và các nhà nghiên cứu đã tìm ra cách mới để làm điều này. Một hệ thống phân tích hành vi mã độc hoàn toàn tự động đã được xây dựng. Hệ thống này có thể thực hiện gần như tất cả công đoạn trước đây phải làm thủ công như giải mã virus, phân tích virus, tổng hợp các hành vi…

Thật may mắn, không giống như con người, máy tính không bao giờ mệt mỏi, lại rất cẩn thận, không bỏ sót bất cứ thông tin nào. Những công đoạn lấy mẫu, phân tích, học máy được lặp đi lặp lại hàng triệu lần mỗi ngày mà không nhàm chán, giúp các nhà nghiên cứu từng bước điều chỉnh, hoàn thiện mô hình phát hiện mã độc.

Tuy nhiên, vượt qua thách thức về công nghệ nhận diện, một vấn đề khác lại được đặt ra với các nhà nghiên cứu: Ứng dụng trí tuệ nhân tạo luôn gắn liền với năng lực tính toán lớn, điều chỉ có ở các máy chủ chuyên dụng. Nếu muốn tận dụng năng lực tính toán của máy chủ, thông thường phần mềm diệt virus trên máy tính của người sử dụng sẽ phải chuyển các file nghi ngờ về máy chủ để phân tích, sau đó tiếp nhận kết quả và xử lý nếu phát hiện virus.

Tuy nhiên, một lượng lớn file nghi ngờ phát sinh mỗi ngày sẽ gây ra chiếm dụng băng thông của người dùng. Chưa kể virus có thể ngắt kết nối giữa máy tính và máy chủ của nhà sản xuất phần mềm diệt virus và vô hiệu hóa tính năng này.

Để giải quyết, các nhà nghiên cứu tại Bkav nghĩ đến một ý tưởng mới: Đưa trí tuệ nhân tạo xử lý trên chính máy tính của người dùng, không cần gửi file nghi ngờ về máy chủ, giúp tiết kiệm băng thông và đảm bảo xử lý theo thời gian thực.

“Làm thế nào để có thể dùng năng lực tính toán của những máy tính thông thường thay thế cho siêu máy tính chuyên dụng mà không làm ảnh hưởng hiệu năng của máy là bài toán không đơn giản. Trong khi đó, 96% khách hàng của Bkav là người dùng cá nhân, như vậy hàng triệu máy tính sẽ có năng lực tính toán khác nhau và nhiệm vụ của phần mềm là phải tương thích toàn bộ. Đây là thách thức vô cùng lớn với những nhà nghiên cứu của Bkav”, ông Nguyễn Tiến Đạt chia sẻ với Zing.

Theo giám đốc trung tâm nghiên cứu mã độc tại Bkav, đây không phải là bài toán dễ vượt qua. “Chúng tôi đã phải nghiên cứu nhiều tháng, thậm chí đập đi xây lại nhiều lần và cũng gặp thất bại nhiều nhất”, ông Đạt nói.

Với triết lý không bỏ sót bất kỳ mã độc nào trong khi vẫn phải đảm bảo máy tính hoạt động ổn định, nhẹ nhàng, những nhà nghiên cứu của Bkav đã dành nhiều giờ làm việc để có thể đạt được sự cân bằng này. Cuối cùng, họ cũng đã thành công.

Ông Đạt cho biết: “Với thuật toán tối ưu, chúng tôi đã biến việc phân tích và xử lý virus bằng trí tuệ nhân tạo gần như trong suốt với người dùng, không gây ảnh hưởng tới hiệu năng của máy”.

Công nghệ trí tuệ nhân tạo thông minh (Smart AI) đã có thể xử lý ngay ở máy tính mà không đòi hỏi gửi file về server, đảm bảo tính bảo vệ thời gian thực, không có độ trễ, đặc biệt trong trường hợp máy tính bị virus tấn công và mất kết nối mạng.

Điều này đã đánh dấu bước phát triển mới của phần mềm diệt virus Bkav Pro. Công nghệ này ngay lập tức đã được bộ phận phát triển sản phẩm triển khai, tích hợp vào phiên bản mới nhất của Bkav Pro 2020. Toàn bộ khách hàng sử dụng Bkav Pro đều được nâng cấp tự động phiên bản mới ngay khi sản phẩm ra mắt mà không phải mất thêm chi phí.

Thống kê từ hệ thống giám sát virus của Bkav cho thấy, sau hơn 2 tháng ra mắt sản phẩm mới ứng dụng công nghệ trí tuệ nhân tạo, mỗi ngày trung bình phần mềm Bkav Pro phát hiện được 1,128 triệu mẫu virus mới mà không cần cập nhật mẫu nhận diện, tỷ lệ chính xác lên đến 99,97%, gần như tuyệt đối.

“Đây là kết quả tuyệt vời mà đội ngũ nhà nghiên cứu muốn dành tặng khách hàng của Bkav. Chúng tôi vẫn đang tiếp tục nghiên cứu để có thể mở rộng, ứng dụng trí tuệ nhân tạo trong nâng cao chất lượng dịch vụ chăm sóc, hỗ trợ khách hàng” ông Vũ Ngọc Sơn cho biết thêm.

An ninh mạng là một lĩnh vực công nghệ cao. Phần mềm diệt virus luôn đòi hỏi phải có những công nghệ cao cấp nhất, giúp người dùng được bảo vệ một cách toàn diện, chủ động trước mọi nguy cơ khi tham gia internet. Bkav 2020 với công nghệ trí tuệ nhân tạo diệt virus không cần cập nhật mẫu nhận diện mở ra một xu hướng mới trong cuộc chiến chống virus máy tính. Ở đó phần mềm diệt virus có thể hoàn toàn chủ động trong phòng chống virus, không bị chậm trễ mỗi khi virus mới xuất hiện.