Cuộc chiến đánh dấu dữ liệu trong ngành AI: từ cạnh tranh khả năng tính toán đến cuộc đua chất lượng dữ liệu
Gần đây, một sự kiện đáng chú ý đã xảy ra trong lĩnh vực trí tuệ nhân tạo: một công ty truyền thông xã hội nổi tiếng đã chi 14,8 tỷ USD để mua gần một nửa cổ phần của công ty gán nhãn dữ liệu Scale AI. Hành động này đã gây ra phản ứng lớn tại Silicon Valley, khiến người ta không khỏi tự hỏi: Tại sao việc gán nhãn dữ liệu lại trở nên quý giá như vậy?
Trong khi đó, một dự án blockchain khác sắp phát hành token là SaharaLabsAI vẫn đang đối mặt với những nghi ngờ về "khái niệm quảng cáo, thiếu thực chất". Sự tương phản rõ rệt này, thị trường thực sự đã bỏ qua yếu tố quan trọng nào?
Đầu tiên, chúng ta cần nhận ra rằng việc gán nhãn dữ liệu có giá trị và tiềm năng hơn việc tập hợp khả năng tính toán phân tán. Mặc dù câu chuyện về việc sử dụng tài nguyên GPU nhàn rỗi để thách thức các nhà cung cấp dịch vụ điện toán đám mây lớn nghe có vẻ hấp dẫn, nhưng thực tế khả năng tính toán về bản chất là một hàng hóa tiêu chuẩn hóa, sự khác biệt chính nằm ở giá cả và khả năng tiếp cận. Lợi thế về giá có vẻ như có thể tìm thấy không gian sống trong sự độc quyền của các ông lớn, nhưng khả năng tiếp cận bị giới hạn bởi vị trí địa lý, độ trễ mạng và mức độ tham gia của người dùng. Một khi các công ty lớn giảm giá hoặc tăng cung, lợi thế này sẽ nhanh chóng biến mất.
So với đó, đánh dấu dữ liệu là một lĩnh vực cần sự thông minh và phán đoán chuyên nghiệp của con người. Mỗi đánh dấu chất lượng cao đều kết tinh kiến thức chuyên môn độc đáo, bối cảnh văn hóa và kinh nghiệm nhận thức, không thể đơn giản chuẩn hóa và sao chép như khả năng tính toán của GPU. Ví dụ, một đánh dấu chẩn đoán hình ảnh ung thư chính xác cần trực giác chuyên môn của bác sĩ ung thư có kinh nghiệm; một phân tích tâm lý thị trường tài chính sâu sắc không thể thiếu kinh nghiệm thực chiến của các nhà giao dịch dày dạn kinh nghiệm. Sự khan hiếm và tính không thể thay thế tự nhiên này mang lại cho đánh dấu dữ liệu lợi thế cạnh tranh không thể so sánh với khả năng tính toán.
Gần đây, một công ty công nghệ lớn đã chính thức thông báo mua lại 49% cổ phần của công ty gán nhãn dữ liệu Scale AI với giá 14,8 tỷ USD, đây là khoản đầu tư lớn nhất trong lĩnh vực AI năm nay. Đáng chú ý hơn, người sáng lập trẻ tuổi và CEO của Scale AI sẽ đồng thời đảm nhận vai trò lãnh đạo phòng thí nghiệm nghiên cứu "Siêu trí tuệ" mới được thành lập của gã khổng lồ công nghệ này.
Doanh nhân 25 tuổi này đã thành lập Scale AI vào năm 2016 khi còn là một sinh viên bỏ học tại Đại học Stanford, và hiện nay công ty mà anh dẫn dắt đã được định giá lên tới 30 tỷ USD. Danh sách khách hàng của Scale AI được coi là "đội hình siêu sao" trong lĩnh vực AI: bao gồm nhiều tổ chức nghiên cứu AI nổi tiếng, các nhà sản xuất ô tô, gã khổng lồ công nghệ và các cơ quan chính phủ. Công ty chuyên cung cấp dịch vụ gán nhãn dữ liệu chất lượng cao cho việc đào tạo mô hình AI, với hơn 300.000 nhân viên gán nhãn đã qua đào tạo chuyên nghiệp.
Khi phần lớn mọi người vẫn đang tranh luận về hiệu suất của mô hình AI của công ty nào là tốt hơn, thì những người dẫn đầu ngành thực sự đã âm thầm chuyển chiến trường đến nguồn dữ liệu. Một cuộc "chiến tranh ngầm" về quyền lực lãnh đạo tương lai của AI đã bắt đầu.
Sự thành công của Scale AI đã tiết lộ một thực tế bị bỏ qua: ở giai đoạn hiện tại, khả năng tính toán không còn là tài nguyên khan hiếm, kiến trúc mô hình cũng đã trở nên đồng nhất, điều thực sự quyết định giới hạn thông minh của AI chính là những dữ liệu chất lượng cao được xử lý cẩn thận. Các công ty công nghệ lớn chi tiền khổng lồ để mua lại không chỉ là một công ty gia công, mà là "quyền khai thác dầu" của thời đại AI.
Tuy nhiên, sự độc quyền luôn dẫn đến sự chống đối. Cũng giống như nền tảng tính toán phân phối cố gắng lật đổ dịch vụ điện toán đám mây tập trung, Sahara AI đang cố gắng sử dụng công nghệ blockchain để hoàn toàn định hình lại quy tắc phân phối giá trị của việc gán nhãn dữ liệu. Vấn đề cốt lõi của mô hình gán nhãn dữ liệu truyền thống không nằm ở công nghệ, mà nằm ở những thiếu sót trong thiết kế cơ chế khuyến khích.
Lấy lĩnh vực y tế làm ví dụ, một bác sĩ có thể mất hàng giờ để đánh dấu hình ảnh y tế, nhưng chỉ nhận được một khoản thù lao rất ít, trong khi mô hình AI được đào tạo từ những dữ liệu này có thể có giá trị lên đến hàng tỷ đô la, bác sĩ lại không thể chia sẻ được lợi nhuận từ đó. Mô hình phân phối giá trị không công bằng này đã hạn chế nghiêm trọng ý chí cung cấp dữ liệu chất lượng cao.
Và dưới sự hỗ trợ của công nghệ blockchain và kinh tế token, những người đánh dấu dữ liệu không còn là "công nhân dữ liệu" giá rẻ, mà là những "cổ đông" thực sự của mạng lưới mô hình ngôn ngữ AI. Rõ ràng, ưu thế của công nghệ Web3 trong việc cải tạo quan hệ sản xuất, phù hợp với các tình huống đánh dấu dữ liệu hơn so với lĩnh vực khả năng tính toán.
Thú vị là, Sahara AI đúng vào thời điểm công ty công nghệ lớn này công bố việc mua lại với giá trên trời đã chuẩn bị phát hành token, đây là sự trùng hợp hay được sắp xếp một cách tinh vi? Theo quan điểm của tôi, điều này thực sự phản ánh một bước ngoặt quan trọng của thị trường: dù là công ty công nghệ truyền thống hay dự án blockchain, tất cả đã chuyển từ "đọ khả năng tính toán" sang giai đoạn mới "cạnh tranh về chất lượng dữ liệu".
Khi các ông lớn truyền thống cố gắng xây dựng rào cản dữ liệu bằng lợi thế vốn, lĩnh vực Web3 đang khám phá một thử nghiệm "dân chủ hóa dữ liệu" có tính bao trùm hơn thông qua kinh tế token. Kết quả của cuộc chiến gán nhãn dữ liệu này có thể quyết định hướng phát triển tương lai của công nghệ AI.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
6 thích
Phần thưởng
6
5
Đăng lại
Chia sẻ
Bình luận
0/400
rug_connoisseur
· 8giờ trước
148 tỷ chỉ có vậy?
Xem bản gốcTrả lời0
MetamaskMechanic
· 8giờ trước
Đầu tư lên tới 14.8 tỷ đô la Mỹ, thật sự có thể đánh dấu dữ liệu?
Xem bản gốcTrả lời0
SellLowExpert
· 8giờ trước
Ôi, 14,8 tỷ muốn mua gì cũng khó, mua cái này à?
Xem bản gốcTrả lời0
GreenCandleCollector
· 8giờ trước
148 tỷ? Điên cuồng quá rồi.
Xem bản gốcTrả lời0
MagicBean
· 8giờ trước
Giao dịch tiền điện tử giao dịch nhiều rồi lại đến giao dịch ai rồi, ai ơi.
Cuộc chiến gán nhãn dữ liệu AI: Từ cạnh tranh khả năng tính toán đến cuộc đua chất lượng
Cuộc chiến đánh dấu dữ liệu trong ngành AI: từ cạnh tranh khả năng tính toán đến cuộc đua chất lượng dữ liệu
Gần đây, một sự kiện đáng chú ý đã xảy ra trong lĩnh vực trí tuệ nhân tạo: một công ty truyền thông xã hội nổi tiếng đã chi 14,8 tỷ USD để mua gần một nửa cổ phần của công ty gán nhãn dữ liệu Scale AI. Hành động này đã gây ra phản ứng lớn tại Silicon Valley, khiến người ta không khỏi tự hỏi: Tại sao việc gán nhãn dữ liệu lại trở nên quý giá như vậy?
Trong khi đó, một dự án blockchain khác sắp phát hành token là SaharaLabsAI vẫn đang đối mặt với những nghi ngờ về "khái niệm quảng cáo, thiếu thực chất". Sự tương phản rõ rệt này, thị trường thực sự đã bỏ qua yếu tố quan trọng nào?
Đầu tiên, chúng ta cần nhận ra rằng việc gán nhãn dữ liệu có giá trị và tiềm năng hơn việc tập hợp khả năng tính toán phân tán. Mặc dù câu chuyện về việc sử dụng tài nguyên GPU nhàn rỗi để thách thức các nhà cung cấp dịch vụ điện toán đám mây lớn nghe có vẻ hấp dẫn, nhưng thực tế khả năng tính toán về bản chất là một hàng hóa tiêu chuẩn hóa, sự khác biệt chính nằm ở giá cả và khả năng tiếp cận. Lợi thế về giá có vẻ như có thể tìm thấy không gian sống trong sự độc quyền của các ông lớn, nhưng khả năng tiếp cận bị giới hạn bởi vị trí địa lý, độ trễ mạng và mức độ tham gia của người dùng. Một khi các công ty lớn giảm giá hoặc tăng cung, lợi thế này sẽ nhanh chóng biến mất.
So với đó, đánh dấu dữ liệu là một lĩnh vực cần sự thông minh và phán đoán chuyên nghiệp của con người. Mỗi đánh dấu chất lượng cao đều kết tinh kiến thức chuyên môn độc đáo, bối cảnh văn hóa và kinh nghiệm nhận thức, không thể đơn giản chuẩn hóa và sao chép như khả năng tính toán của GPU. Ví dụ, một đánh dấu chẩn đoán hình ảnh ung thư chính xác cần trực giác chuyên môn của bác sĩ ung thư có kinh nghiệm; một phân tích tâm lý thị trường tài chính sâu sắc không thể thiếu kinh nghiệm thực chiến của các nhà giao dịch dày dạn kinh nghiệm. Sự khan hiếm và tính không thể thay thế tự nhiên này mang lại cho đánh dấu dữ liệu lợi thế cạnh tranh không thể so sánh với khả năng tính toán.
Gần đây, một công ty công nghệ lớn đã chính thức thông báo mua lại 49% cổ phần của công ty gán nhãn dữ liệu Scale AI với giá 14,8 tỷ USD, đây là khoản đầu tư lớn nhất trong lĩnh vực AI năm nay. Đáng chú ý hơn, người sáng lập trẻ tuổi và CEO của Scale AI sẽ đồng thời đảm nhận vai trò lãnh đạo phòng thí nghiệm nghiên cứu "Siêu trí tuệ" mới được thành lập của gã khổng lồ công nghệ này.
Doanh nhân 25 tuổi này đã thành lập Scale AI vào năm 2016 khi còn là một sinh viên bỏ học tại Đại học Stanford, và hiện nay công ty mà anh dẫn dắt đã được định giá lên tới 30 tỷ USD. Danh sách khách hàng của Scale AI được coi là "đội hình siêu sao" trong lĩnh vực AI: bao gồm nhiều tổ chức nghiên cứu AI nổi tiếng, các nhà sản xuất ô tô, gã khổng lồ công nghệ và các cơ quan chính phủ. Công ty chuyên cung cấp dịch vụ gán nhãn dữ liệu chất lượng cao cho việc đào tạo mô hình AI, với hơn 300.000 nhân viên gán nhãn đã qua đào tạo chuyên nghiệp.
Khi phần lớn mọi người vẫn đang tranh luận về hiệu suất của mô hình AI của công ty nào là tốt hơn, thì những người dẫn đầu ngành thực sự đã âm thầm chuyển chiến trường đến nguồn dữ liệu. Một cuộc "chiến tranh ngầm" về quyền lực lãnh đạo tương lai của AI đã bắt đầu.
Sự thành công của Scale AI đã tiết lộ một thực tế bị bỏ qua: ở giai đoạn hiện tại, khả năng tính toán không còn là tài nguyên khan hiếm, kiến trúc mô hình cũng đã trở nên đồng nhất, điều thực sự quyết định giới hạn thông minh của AI chính là những dữ liệu chất lượng cao được xử lý cẩn thận. Các công ty công nghệ lớn chi tiền khổng lồ để mua lại không chỉ là một công ty gia công, mà là "quyền khai thác dầu" của thời đại AI.
Tuy nhiên, sự độc quyền luôn dẫn đến sự chống đối. Cũng giống như nền tảng tính toán phân phối cố gắng lật đổ dịch vụ điện toán đám mây tập trung, Sahara AI đang cố gắng sử dụng công nghệ blockchain để hoàn toàn định hình lại quy tắc phân phối giá trị của việc gán nhãn dữ liệu. Vấn đề cốt lõi của mô hình gán nhãn dữ liệu truyền thống không nằm ở công nghệ, mà nằm ở những thiếu sót trong thiết kế cơ chế khuyến khích.
Lấy lĩnh vực y tế làm ví dụ, một bác sĩ có thể mất hàng giờ để đánh dấu hình ảnh y tế, nhưng chỉ nhận được một khoản thù lao rất ít, trong khi mô hình AI được đào tạo từ những dữ liệu này có thể có giá trị lên đến hàng tỷ đô la, bác sĩ lại không thể chia sẻ được lợi nhuận từ đó. Mô hình phân phối giá trị không công bằng này đã hạn chế nghiêm trọng ý chí cung cấp dữ liệu chất lượng cao.
Và dưới sự hỗ trợ của công nghệ blockchain và kinh tế token, những người đánh dấu dữ liệu không còn là "công nhân dữ liệu" giá rẻ, mà là những "cổ đông" thực sự của mạng lưới mô hình ngôn ngữ AI. Rõ ràng, ưu thế của công nghệ Web3 trong việc cải tạo quan hệ sản xuất, phù hợp với các tình huống đánh dấu dữ liệu hơn so với lĩnh vực khả năng tính toán.
Thú vị là, Sahara AI đúng vào thời điểm công ty công nghệ lớn này công bố việc mua lại với giá trên trời đã chuẩn bị phát hành token, đây là sự trùng hợp hay được sắp xếp một cách tinh vi? Theo quan điểm của tôi, điều này thực sự phản ánh một bước ngoặt quan trọng của thị trường: dù là công ty công nghệ truyền thống hay dự án blockchain, tất cả đã chuyển từ "đọ khả năng tính toán" sang giai đoạn mới "cạnh tranh về chất lượng dữ liệu".
Khi các ông lớn truyền thống cố gắng xây dựng rào cản dữ liệu bằng lợi thế vốn, lĩnh vực Web3 đang khám phá một thử nghiệm "dân chủ hóa dữ liệu" có tính bao trùm hơn thông qua kinh tế token. Kết quả của cuộc chiến gán nhãn dữ liệu này có thể quyết định hướng phát triển tương lai của công nghệ AI.