Cách mạng dữ liệu AI: Dữ liệu trên chuỗi trở thành chìa khóa để trí tuệ nhân tạo vượt qua các rào cản.

Cuộc cách mạng tiếp theo của ngành AI: Từ cuộc đua khả năng tính toán đến cơ sở hạ tầng dữ liệu

Khi quy mô tham số của các mô hình trí tuệ nhân tạo vượt qua hàng ngàn tỷ, khả năng tính toán được đo bằng hàng trăm triệu triệu phép toán mỗi giây, một nút thắt cốt lõi bị bỏ qua đang nổi lên - dữ liệu. Cuộc cách mạng tiếp theo trong ngành công nghiệp AI sẽ không còn được thúc đẩy bởi kiến trúc mô hình hay khả năng tính toán của chip, mà phụ thuộc vào việc làm thế nào để biến đổi dữ liệu hành vi con người bị phân mảnh thành vốn có thể xác minh, có cấu trúc và sẵn sàng cho AI. Sự nhận thức này không chỉ tiết lộ mâu thuẫn cấu trúc hiện tại trong sự phát triển của AI mà còn phác thảo một bức tranh hoàn toàn mới về "Thời đại DataFi" - trong thời đại này, dữ liệu không còn là sản phẩm phụ của công nghệ, mà trở thành yếu tố sản xuất cốt lõi có thể đo lường, có thể giao dịch và có thể gia tăng giá trị như điện, khả năng tính toán.

Từ cuộc cạnh tranh khả năng tính toán đến nạn đói dữ liệu: Mâu thuẫn cấu trúc của ngành công nghiệp AI

Sự phát triển của AI lâu nay được thúc đẩy bởi hai trụ cột "mô hình - Khả năng tính toán". Kể từ cuộc cách mạng học sâu, tham số mô hình đã tăng vọt từ hàng triệu lên hàng nghìn tỷ, nhu cầu về khả năng tính toán tăng trưởng theo cấp số nhân. Theo dữ liệu cho thấy, chi phí để đào tạo một mô hình ngôn ngữ lớn tiên tiến đã vượt quá 100 triệu USD, trong đó 90% được sử dụng cho việc thuê cụm GPU. Tuy nhiên, khi ngành công nghiệp tập trung vào "mô hình lớn hơn" và "chip nhanh hơn", thì khủng hoảng cung cấp dữ liệu đang âm thầm đến gần.

"Dữ liệu hữu cơ" do con người tạo ra đã chạm đến trần tăng trưởng. Lấy dữ liệu văn bản làm ví dụ, tổng số lượng văn bản chất lượng cao có thể thu thập công khai trên internet (sách, tài liệu, tin tức) khoảng 10^12 từ, trong khi việc đào tạo một mô hình với 100 tỷ tham số cần tiêu tốn khoảng 10^13 từ – điều này có nghĩa là nguồn dữ liệu hiện có chỉ có thể hỗ trợ việc đào tạo 10 mô hình có quy mô tương đương. Thậm chí nghiêm trọng hơn, dữ liệu lặp lại và nội dung chất lượng thấp chiếm hơn 60%, làm giảm thêm nguồn cung dữ liệu hiệu quả. Khi mô hình bắt đầu "nuốt" dữ liệu do chính nó tạo ra (như bài viết AI, hình ảnh do AI tạo ra), sự suy giảm hiệu suất của mô hình do "ô nhiễm dữ liệu" đã trở thành mối lo ngại trong ngành.

Nguồn gốc của sự mâu thuẫn này nằm ở chỗ: Ngành công nghiệp AI lâu nay xem dữ liệu là "tài nguyên miễn phí", chứ không phải là "tài sản chiến lược" cần được chăm sóc cẩn thận. Mô hình và Khả năng tính toán đã hình thành một hệ thống thị trường trưởng thành - Khả năng tính toán được định giá theo FLOPS trên nền tảng đám mây, mô hình có giao diện API tính phí theo số lần gọi - nhưng việc sản xuất, làm sạch, xác minh và giao dịch dữ liệu vẫn còn ở thời kỳ "hoang dã". Mười năm tới của AI sẽ là mười năm của "cơ sở hạ tầng dữ liệu", và dữ liệu trên chuỗi của mạng mã hóa chính là chìa khóa để giải quyết tình huống này.

Dữ liệu trên chuỗi: "Cơ sở dữ liệu hành vi con người" mà AI cần nhất

Trong bối cảnh khan hiếm dữ liệu, dữ liệu trên chuỗi của mạng lưới tiền mã hóa đang thể hiện giá trị không thể thay thế. So với dữ liệu trên internet truyền thống (như bài đăng trên mạng xã hội, đánh giá thương mại điện tử), dữ liệu trên chuỗi có tính xác thực của "sự phối hợp động lực" tự nhiên - mỗi giao dịch, mỗi tương tác hợp đồng, mỗi hành vi của địa chỉ ví đều gắn liền với vốn thực tế và không thể bị thay đổi. Điều này có thể được định nghĩa là "dữ liệu hành vi phối hợp động lực con người tập trung nhất trên internet", cụ thể thể hiện qua ba chiều:

tín hiệu "ý định" của thế giới thực

Dữ liệu ghi lại trên chuỗi không phải là những bình luận mang tính cảm xúc hay những cú nhấp chuột tùy tiện, mà là hành vi quyết định được bỏ phiếu bằng tiền thật. Ví dụ, một ví tiền đổi tài sản trên một DEX, thế chấp và vay mượn trên nền tảng cho vay, hoặc đăng ký tên miền trên dịch vụ tên miền, đều phản ánh trực tiếp đánh giá giá trị của dự án, sở thích rủi ro và chiến lược phân bổ vốn của người dùng. Dữ liệu "được đảm bảo bằng vốn" này có giá trị rất cao trong việc huấn luyện khả năng ra quyết định của AI (như dự đoán tài chính, phân tích thị trường). Ngược lại, dữ liệu trên internet truyền thống tràn ngập "tiếng ồn" - như lượt thích giả mạo trên mạng xã hội, bình luận giả mạo trên nền tảng thương mại điện tử, những dữ liệu này không chỉ không thể huấn luyện ra mô hình AI đáng tin cậy mà còn có thể dẫn dắt sai lầm cho việc đánh giá của mô hình.

Chuỗi hành vi có thể truy xuất

Tính minh bạch của blockchain giúp hành vi của người dùng có thể được truy vết hoàn toàn. Lịch sử giao dịch của một địa chỉ ví, các giao thức đã tương tác, sự thay đổi tài sản nắm giữ, tạo thành một "chuỗi hành vi" liên kết. Ví dụ, thông qua việc phân tích các hoạt động của một địa chỉ trong các giao thức DeFi từ năm 2020 đến nay, AI có thể xác định chính xác rằng nó là "nhà đầu tư lâu dài", "nhà giao dịch chênh lệch" hay "người cung cấp thanh khoản", và từ đó xây dựng hồ sơ người dùng. Dữ liệu hành vi có cấu trúc này chính là "mẫu suy diễn con người" hiếm nhất hiện nay của các mô hình AI.

Truy cập "không cần giấy phép" của hệ sinh thái mở

Khác với tính khép kín của dữ liệu doanh nghiệp truyền thống (như hồ sơ giao dịch ngân hàng, dữ liệu người dùng thương mại điện tử), dữ liệu trên chuỗi là mở và không cần cấp phép. Bất kỳ nhà phát triển nào cũng có thể lấy dữ liệu gốc thông qua trình duyệt blockchain hoặc API dữ liệu, điều này cung cấp nguồn dữ liệu "không có rào cản" cho việc huấn luyện mô hình AI. Tuy nhiên, tính mở này cũng mang lại thách thức: dữ liệu trên chuỗi tồn tại dưới dạng "nhật ký sự kiện" (như sự kiện Transfer ERC-20 của Ethereum, sự kiện Swap của sàn giao dịch), là "tín hiệu gốc" không có cấu trúc, cần được làm sạch, chuẩn hóa, liên kết mới có thể được mô hình AI sử dụng. Hiện tại, tỷ lệ "chuyển đổi cấu trúc" của dữ liệu trên chuỗi chưa đến 5%, một lượng lớn tín hiệu có giá trị cao bị chôn vùi trong hàng tỷ sự kiện phân mảnh.

Hyperdata Network:"Hệ điều hành" cho dữ liệu trên chuỗi

Để giải quyết vấn đề phân mảnh dữ liệu trên chuỗi, ngành công nghiệp đã đề xuất Hyperdata Network - một "hệ điều hành thông minh trên chuỗi" được thiết kế đặc biệt cho AI. Mục tiêu cốt lõi của nó là chuyển đổi các tín hiệu trên chuỗi phân tán thành dữ liệu sẵn sàng cho AI có cấu trúc, có thể xác minh và có thể kết hợp theo thời gian thực.

Bản thảo:Tiêu chuẩn dữ liệu mở, để AI "hiểu" thế giới trên chuỗi

Một trong những vấn đề lớn nhất của dữ liệu trên chuỗi là "định dạng lộn xộn" - các định dạng nhật ký sự kiện của các chuỗi khối khác nhau (như Ethereum, Solana, Avalanche) rất khác nhau, và cấu trúc dữ liệu của các phiên bản khác nhau của cùng một giao thức cũng có thể thay đổi. Manuscript, như một tiêu chuẩn schema dữ liệu mở, đã thống nhất định nghĩa và phương thức mô tả dữ liệu trên chuỗi. Ví dụ, nó đã chuẩn hóa "hành vi đặt cọc của người dùng" thành dữ liệu có cấu trúc bao gồm các trường như staker_address, protocol_id, amount, timestamp, reward_token, đảm bảo rằng các mô hình AI không cần điều chỉnh cho các định dạng dữ liệu của các chuỗi hoặc giao thức khác nhau, mà có thể "hiểu" trực tiếp logic kinh doanh đứng sau dữ liệu.

Giá trị tiêu chuẩn hóa này nằm ở việc giảm chi phí ma sát trong phát triển AI. Giả sử một đội ngũ muốn đào tạo "Mô hình dự đoán hành vi người dùng DeFi", cách tiếp cận truyền thống yêu cầu kết nối API của nhiều chuỗi như Ethereum, Polygon, v.v. và viết các kịch bản phân tích khác nhau; trong khi đó, dựa trên Manuscript, tất cả dữ liệu trên chuỗi đã được xử lý theo tiêu chuẩn thống nhất, các nhà phát triển có thể gọi trực tiếp các dữ liệu có cấu trúc như "Ghi chép về người dùng staking" "Ghi chép về cung cấp tính thanh khoản", rút ngắn đáng kể thời gian đào tạo mô hình.

Yêu cầu cốt lõi của mô hình AI đối với dữ liệu là "đáng tin cậy" - nếu dữ liệu huấn luyện bị can thiệp hoặc ô nhiễm, đầu ra của mô hình sẽ không có giá trị. Cơ chế AVS (Active Validator Set) của Ethereum có thể đảm bảo tính xác thực của dữ liệu. AVS là thành phần mở rộng của lớp đồng thuận Ethereum, bao gồm hơn 600.000 nút xác thực được ký quỹ ETH, những nút này chịu trách nhiệm xác thực tính toàn vẹn và độ chính xác của dữ liệu trên chuỗi. Khi xử lý một sự kiện trên chuỗi, các nút AVS sẽ xác thực chéo giá trị băm của dữ liệu, thông tin chữ ký và trạng thái trên chuỗi, đảm bảo rằng dữ liệu cấu trúc đầu ra hoàn toàn nhất quán với dữ liệu trên chuỗi gốc.

Cơ chế xác minh của "bảo đảm kinh tế học mã hóa" này giải quyết vấn đề niềm tin của việc xác minh tập trung dữ liệu truyền thống. Ví dụ, nếu một công ty AI sử dụng dữ liệu trên chuỗi do một tổ chức tập trung cung cấp, họ cần tin tưởng rằng tổ chức đó không làm sai lệch dữ liệu; trong khi đó, khi sử dụng Hyperdata Network, tính xác thực của dữ liệu được bảo chứng bởi mạng lưới người xác minh phi tập trung, và bất kỳ hành vi làm sai lệch nào cũng sẽ kích hoạt cơ chế trừng phạt của hợp đồng thông minh (như trừ ETH đã đặt cọc).

Lớp khả năng tính toán dữ liệu có lưu lượng cao

Mô hình AI, đặc biệt là các ứng dụng AI tương tác thời gian thực (như robot giao dịch, dịch vụ khách hàng thông minh), cần nguồn cung cấp dữ liệu với độ trễ thấp và băng thông cao. Bằng cách tối ưu hóa thuật toán nén dữ liệu và giao thức truyền tải, thực hiện xử lý thời gian thực hàng trăm nghìn sự kiện trên chuỗi mỗi giây. Ví dụ, khi xảy ra một giao dịch lớn trên một DEX, hệ thống có thể hoàn thành việc trích xuất dữ liệu, chuẩn hóa và xác minh trong vòng 1 giây, và gửi tín hiệu "giao dịch lớn" đã được cấu trúc tới các mô hình AI đã đăng ký, giúp chúng điều chỉnh chiến lược giao dịch kịp thời.

Đằng sau khả năng thông lượng cao là kiến trúc mô-đun - tách biệt lưu trữ dữ liệu và tính toán, lưu trữ dữ liệu được đảm nhận bởi mạng nút phân tán, trong khi tính toán được thực hiện thông qua Rollup ngoài chuỗi, tránh được nút thắt cổ chai hiệu suất của chính blockchain. Thiết kế này cho phép hệ thống hỗ trợ nhu cầu dữ liệu thời gian thực cho các ứng dụng AI quy mô lớn, chẳng hạn như cung cấp dịch vụ dữ liệu trên chuỗi đồng thời cho một lượng lớn đại lý giao dịch.

Thời đại DataFi: Khi dữ liệu trở thành "vốn" có thể giao dịch

Mục tiêu cuối cùng của Mạng lưới Hyperdata là thúc đẩy ngành AI bước vào kỷ nguyên DataFi - dữ liệu không còn là "tài liệu đào tạo" thụ động, mà là "vốn" chủ động, có thể được định giá, giao dịch và gia tăng giá trị. Giống như điện được định giá theo kilowatt, khả năng tính toán được định giá theo FLOPS, dữ liệu cũng phải được chấm điểm, xếp hạng và định giá. Việc hiện thực hóa tầm nhìn này phụ thuộc vào việc chuyển đổi dữ liệu thành bốn thuộc tính cốt lõi:

Cấu trúc: từ "tín hiệu gốc" đến "tài sản có thể sử dụng"

Dữ liệu trên chuỗi chưa qua xử lý giống như "dầu thô", cần phải được tinh chế để trở thành "xăng". Thông qua chuẩn hóa, nó được chuyển đổi thành dữ liệu có cấu trúc, ví dụ như việc phân tách "địa chỉ ví A vào thời điểm T gửi X token cho giao thức B" thành dữ liệu đa chiều bao gồm hồ sơ người dùng, thuộc tính giao thức, loại tài sản và dấu thời gian. Cấu trúc này cho phép dữ liệu có thể được các mô hình AI gọi trực tiếp, giống như gọi API.

Có thể kết hợp: "Khối Lego" của dữ liệu

Trong Web3, "tính có thể kết hợp" đã thúc đẩy sự bùng nổ của DeFi (chẳng hạn như sự đổi mới kết hợp của các giao thức khác nhau). Áp dụng khái niệm này vào lĩnh vực dữ liệu: dữ liệu có cấu trúc có thể được kết hợp tự do như những viên gạch Lego. Ví dụ, các nhà phát triển có thể kết hợp "hồ sơ đặt cọc của người dùng" (từ giao thức đặt cọc) với "dữ liệu biến động giá" (từ oracle), "số lượng đề cập trên mạng xã hội" (từ API nền tảng xã hội) để đào tạo "mô hình dự đoán tâm lý thị trường DeFi". Tính có thể kết hợp này mở rộng đáng kể ranh giới ứng dụng của dữ liệu, khiến cho sự đổi mới AI không còn bị giới hạn bởi một nguồn dữ liệu đơn lẻ.

Có thể xác minh: "Đảm bảo tín dụng" của dữ liệu

Dữ liệu có cấu trúc được xác thực sẽ tạo ra một "dấu vân tay dữ liệu" (giá trị băm) duy nhất và được lưu trữ trên blockchain. Bất kỳ ứng dụng AI hoặc nhà phát triển nào sử dụng dữ liệu đó đều có thể xác nhận tính xác thực của dữ liệu bằng cách xác minh giá trị băm. Sự "có thể xác minh" này khiến dữ liệu có thuộc tính tín dụng - ví dụ, một tập dữ liệu được gán nhãn là "tín hiệu giao dịch chất lượng cao" có thể được truy xuất độ chính xác lịch sử của nó thông qua hồ sơ giá trị băm trên blockchain, người dùng không cần phải tin tưởng vào nhà cung cấp tập dữ liệu, chỉ cần xác thực dấu vân tay dữ liệu là có thể đánh giá chất lượng dữ liệu.

có thể chuyển đổi: "biến giá trị dữ liệu"

Trong kỷ nguyên DataFi, các nhà cung cấp dữ liệu có thể trực tiếp biến dữ liệu cấu trúc thành tài sản thông qua Mạng Hyperdata. Ví dụ, một nhóm đã phát triển "tín hiệu cảnh báo lỗ hổng hợp đồng thông minh" bằng cách phân tích dữ liệu trên chuỗi, có thể đóng gói tín hiệu này thành dịch vụ API và tính phí theo số lần gọi; người dùng thông thường cũng có thể ủy quyền chia sẻ dữ liệu trên chuỗi ẩn danh của mình để nhận phần thưởng token dữ liệu. Trong hệ sinh thái, giá trị của dữ liệu được xác định bởi cung và cầu trên thị trường - tín hiệu giao dịch có độ chính xác cao có thể được định giá cao hơn, trong khi dữ liệu hành vi người dùng cơ bản có thể được tính phí theo lần.

Kết luận: Cách mạng dữ liệu, mười năm tiếp theo của AI

Khi chúng ta nói về tương lai của AI, thường thì chúng ta tập trung vào "mức độ thông minh" của mô hình mà bỏ qua "mảnh đất dữ liệu" hỗ trợ cho sự thông minh đó. Mạng lưới Hyperdata tiết lộ một sự thật cốt lõi: sự tiến hóa của AI, bản chất là sự tiến hóa của hạ tầng dữ liệu. Từ "hạn chế" của dữ liệu do con người tạo ra đến "khám phá giá trị" của dữ liệu trên chuỗi, từ "hỗn loạn" của tín hiệu phân mảnh đến "có trật tự" của dữ liệu có cấu trúc, từ "tài nguyên miễn phí" của dữ liệu đến "tài sản vốn" của DataFi, loại hạ tầng mới này đang định hình lại logic cơ bản của ngành công nghiệp AI.

Trong kỷ nguyên DataFi này, dữ liệu sẽ trở thành cầu nối giữa AI và thế giới thực - các đại lý giao dịch cảm nhận tâm lý thị trường thông qua dữ liệu trên chuỗi, các dApp tự chủ tối ưu hóa dịch vụ thông qua dữ liệu hành vi người dùng, trong khi người dùng bình thường thì nhận được lợi nhuận liên tục thông qua việc chia sẻ dữ liệu. Cũng như mạng lưới điện đã thúc đẩy cách mạng công nghiệp, Khả năng tính toán mạng đã thúc đẩy cách mạng internet, Mạng lưới Hyperdata đang thúc đẩy "cuộc cách mạng dữ liệu" của AI.

Các ứng dụng AI-native thế hệ tiếp theo không chỉ cần mô hình hoặc ví, mà còn cần dữ liệu có thể lập trình, không cần tin tưởng và có tín hiệu cao. Khi dữ liệu cuối cùng được trao giá trị xứng đáng, AI mới có thể thực sự giải phóng sức mạnh để thay đổi thế giới.

ETH1.68%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 4
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
ContractCollectorvip
· 08-10 03:27
Đừng vội vàng cuộn dữ liệu, hãy xem giao ngay và hợp đồng trước đã.
Xem bản gốcTrả lời0
DeFiCaffeinatorvip
· 08-10 01:16
Không phải thật sự có người tin vào bẫy dữ liệu hóa vốn này chứ.
Xem bản gốcTrả lời0
FudVaccinatorvip
· 08-10 01:16
Dữ liệu Người khai thác đào lên
Xem bản gốcTrả lời0
SchroedingersFrontrunvip
· 08-10 01:12
Ái chà, đói quá, đói thành một cuộc khủng hoảng dữ liệu rồi.
Xem bản gốcTrả lời0
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)