Google cung cấp bộ dữ liệu siêu dữ liệu miễn phí với các thuật toán AI và học máy học sâu ít chi tiết để phân loại hình ảnh nhanh chóng và hiệu quả trong TensorFlow và PyTorch

Tech / Google cung cấp bộ dữ liệu siêu dữ liệu miễn phí với các thuật toán AI và học máy học sâu ít chi tiết để phân loại hình ảnh nhanh chóng và hiệu quả trong TensorFlow và PyTorch 2 phút đọc

Google Pixel 5?



Google có công bố sự sẵn có của nhiều bộ dữ liệu bao gồm các hình ảnh thiên nhiên đa dạng nhưng hạn chế. Gã khổng lồ tìm kiếm tự tin rằng dữ liệu có sẵn công khai sẽ thúc đẩy tốc độ Học máy và trí tuệ nhân tạo đồng thời giảm thời gian đào tạo các mô hình AI trên một lượng dữ liệu tối thiểu. Google đang gọi sáng kiến ​​mới là 'Tập dữ liệu siêu miễn phí' sẽ giúp các mô hình AI 'học' trên ít dữ liệu hơn. ‘Ít ảnh chụp’ của công ty được tối ưu hóa để đảm bảo AI học các lớp mới chỉ từ một vài hình ảnh đại diện.

Hiểu được nhu cầu đào tạo nhanh các mô hình AI và Machine Learning với ít bộ dữ liệu hơn, Google đã ra mắt ‘Meta-Dataset’, một bộ sưu tập hình ảnh nhỏ sẽ giúp giảm lượng dữ liệu cần thiết để cải thiện độ chính xác của thuật toán. Công ty tuyên bố rằng sử dụng kỹ thuật phân loại hình ảnh ít lần chụp, các mô hình AI và ML sẽ có được những hiểu biết tương tự từ số lượng hình ảnh đại diện ít hơn rất nhiều.



Google AI công bố tập dữ liệu siêu dữ liệu: Một tập dữ liệu tập dữ liệu để học ít:

Deep Learning cho AI và Machine Learning đã phát triển theo cấp số nhân trong một thời gian khá dài. Tuy nhiên, yêu cầu cốt lõi là sự sẵn có của dữ liệu chất lượng cao và số lượng lớn cũng vậy. Một lượng lớn dữ liệu đào tạo được chú thích thủ công thường rất khó mua và đôi khi cũng có thể không đáng tin cậy. Hiểu được rủi ro của các tập dữ liệu lớn, Google đã công bố sự sẵn có của một bộ sưu tập các tập dữ liệu meta.



Xuyên qua ' Meta-Dataset: Một tập dữ liệu gồm các tập dữ liệu để học cách học từ một vài ví dụ ”(Trình bày tại ICLR 2020 ). Về cơ bản, Google đang cung cấp 10 bộ dữ liệu về hình ảnh tự nhiên có sẵn công khai và miễn phí để sử dụng. Các bộ dữ liệu này bao gồm ImageNet, CUB-200-2011, Fungi, các ký tự viết tay và hình tượng trưng. Mã là công cộng và bao gồm một sổ tay chứng minh cách Meta-Dataset có thể được sử dụng trong TensorFlow và PyTorch .



Phân loại ít cảnh quay vượt ra ngoài đào tạo tiêu chuẩn và mô hình học sâu . Nó cần tổng quát hóa cho các lớp hoàn toàn mới tại thời điểm thử nghiệm. Nói cách khác, những hình ảnh được sử dụng trong quá trình thử nghiệm không được nhìn thấy trong quá trình đào tạo. Trong phân loại vài cảnh, tập huấn luyện chứa các lớp hoàn toàn tách biệt với những lớp sẽ xuất hiện tại thời điểm thử nghiệm. Mỗi nhiệm vụ kiểm tra chứa một bộ hỗ trợ một số hình ảnh được gắn nhãn mà từ đó mô hình có thể tìm hiểu về các lớp mới và bộ truy vấn ví dụ mà mô hình sau đó được yêu cầu phân loại.

Tập siêu dữ liệu là một thành phần lớn, trong đó nghiên cứu mô hình tổng quát hóa cho các bộ dữ liệu hoàn toàn mới , từ đó không có hình ảnh của bất kỳ lớp học nào được nhìn thấy trong đào tạo. Điều này bổ sung cho thách thức tổng quát hóa khó khăn đối với các lớp mới vốn có trong thiết lập học tập vài lần.

Meta-Dataset giúp học sâu cho các mô hình AI và máy học như thế nào?

Meta-Dataset đại diện cho tiêu chuẩn có tổ chức quy mô lớn nhất cho phân loại hình ảnh nhiều lần, tập dữ liệu chéo cho đến nay. Nó cũng giới thiệu một thuật toán lấy mẫu để tạo ra các nhiệm vụ có các đặc điểm và độ khó khác nhau, bằng cách thay đổi số lượng lớp trong mỗi nhiệm vụ, số lượng ví dụ có sẵn trên mỗi lớp, giới thiệu sự mất cân bằng của lớp và, đối với một số bộ dữ liệu, thay đổi mức độ giống nhau giữa các lớp của mỗi nhiệm vụ.



Meta-Dataset thực sự đưa ra những thách thức mới đối với phân loại một vài cảnh quay. Nghiên cứu của Google vẫn còn sơ bộ và có rất nhiều cơ sở để đề cập. Tuy nhiên, gã khổng lồ tìm kiếm đã tuyên bố rằng các nhà nghiên cứu đang đạt được thành công. Một số ví dụ đáng chú ý bao gồm việc sử dụng bài tập điều hòa , tinh vi hơn điều chỉnh siêu tham số , đến ' đường siêu cơ sở 'Kết hợp các lợi ích của đào tạo trước và học tập tổng hợp, và cuối cùng là sử dụng lựa chọn tính năng để chuyên biệt hóa một đại diện phổ quát cho mỗi nhiệm vụ.

Thẻ Google