الثورة القادمة في صناعة الذكاء الاصطناعي: من قوة الحوسبة إلى بنية البيانات التحتية
مع تجاوز حجم معلمات نماذج الذكاء الاصطناعي تريليون، فإن قوة الحوسبة تقاس بمئات الألف مليار عملية في الثانية، فإن عنق الزجاجة الأساسي الذي تم تجاهله بدأ يظهر - البيانات. ستكون الثورة التالية في صناعة الذكاء الاصطناعي مدفوعة ليس بهياكل النماذج أو قوة حوسبة الرقائق، ولكنها تعتمد على كيفية تحويل البيانات السلوكية البشرية المجزأة إلى رأس مال يمكن التحقق منه ومهيكل ومستعد للذكاء الاصطناعي. هذه الرؤية لا تكشف فقط عن التناقض الهيكلي الحالي في تطوير الذكاء الاصطناعي، بل ترسم أيضًا صورة جديدة لعصر "DataFi" - في هذا العصر، لم تعد البيانات منتجًا ثانويًا للتكنولوجيا، بل أصبحت عنصرًا أساسيًا في الإنتاج قابلًا للقياس، وقابلًا للتداول، وقابلًا للتعزيز مثل الكهرباء وقوة الحوسبة.
من قوة الحوسبة إلى المجاعة البيانات: التناقضات الهيكلية في صناعة الذكاء الاصطناعي
يتم دفع تطوير الذكاء الاصطناعي على المدى الطويل بواسطة "نموذج - قوة الحوسبة". منذ ثورة التعلم العميق، ارتفعت معلمات النموذج من ملايين إلى تريليونات، واحتياجات قوة الحوسبة تتزايد بشكل أسي. تشير البيانات إلى أن تكلفة تدريب نموذج لغة كبير متقدم قد تجاوزت 100 مليون دولار، حيث يتم تخصيص 90% منها لاستئجار مجموعات وحدات معالجة الرسوميات. ومع ذلك، عندما يركز القطاع على "نموذج أكبر" و"رقائق أسرع"، فإن أزمة جانب العرض للبيانات تتسلل بهدوء.
لقد وصلت "البيانات العضوية" التي ينتجها البشر إلى سقف النمو. على سبيل المثال، تبلغ الكمية الإجمالية للبيانات النصية عالية الجودة المتاحة على الإنترنت (الكتب، الأبحاث، الأخبار) حوالي 10^12 كلمة، بينما يتطلب تدريب نموذج يحتوي على تريليون معلمة حوالي 10^13 كلمة من البيانات - مما يعني أن مجموعة البيانات الحالية يمكن أن تدعم تدريب 10 نماذج بنفس الحجم فقط. والأسوأ من ذلك، أن البيانات المتكررة والمحتوى منخفض الجودة يشكل أكثر من 60%، مما يقلص من إمدادات البيانات الفعّالة. عندما تبدأ النماذج في "ابتلاع" البيانات التي تنتجها بنفسها (مثل المقالات المكتوبة بواسطة الذكاء الاصطناعي، والصور التي تُنتج بواسطة الذكاء الاصطناعي)، أصبحت "تلوث البيانات" الناتج عن ذلك تدهور أداء النماذج مصدر قلق في الصناعة.
تعود جذور هذا التناقض إلى: أن صناعة الذكاء الاصطناعي لطالما اعتبرت البيانات "موارد مجانية" على المدى الطويل، بدلاً من كونها "أصول استراتيجية" تحتاج إلى رعاية دقيقة. لقد شكلت النماذج وقوة الحوسبة نظام سوق ناضج - حيث يتم تسعير قوة الحوسبة على المنصات السحابية حسب FLOPS، ويتم فرض رسوم على النماذج من خلال واجهات برمجة التطبيقات حسب عدد الاستدعاءات - ولكن لا يزال إنتاج البيانات وتنظيفها والتحقق منها وتداولها في "عصر همجي". ستكون السنوات العشر القادمة للذكاء الاصطناعي هي "سنوات بنية البيانات التحتية"، وبيانات الشبكة المشفرة على السلسلة هي المفتاح لحل هذه المعضلة.
البيانات على السلسلة: "قاعدة بيانات السلوك البشري" التي تحتاجها AI أكثر
في ظل أزمة البيانات، تُظهر البيانات على الشبكة المشفرة قيمة لا يمكن تعويضها. مقارنةً ببيانات الإنترنت التقليدية (مثل منشورات وسائل التواصل الاجتماعي، وتعليقات التجارة الإلكترونية)، تتمتع البيانات على السلسلة بصدق "محاذاة الحوافز" بشكل طبيعي - كل معاملة، وكل تفاعل عقد، وسلوك كل عنوان محفظة يرتبط مباشرة برأس المال الحقيقي، ولا يمكن تغييرها. يمكن تعريف ذلك بأنه "بيانات سلوك محاذاة الحوافز البشرية الأكثر تركيزًا على الإنترنت"، ويتجلى ذلك في ثلاثة أبعاد:
إشارة "نية" من العالم الحقيقي
البيانات المسجلة على السلسلة ليست تعليقات عاطفية أو نقرات عشوائية، بل هي سلوكيات اتخاذ قرار تصوت بأموال حقيقية. على سبيل المثال، تصرف محفظة في تبادل الأصول على DEX، أو رهن وإقراض في منصة الإقراض، أو تسجيل اسم نطاق في خدمة أسماء النطاقات، يعكس مباشرة حكم المستخدم على قيمة المشروع، وتفضيلاته للمخاطر، واستراتيجيات تخصيص الأموال. هذه البيانات التي "تدعمها رؤوس الأموال" لها قيمة عالية في تدريب قدرة اتخاذ القرارات للذكاء الاصطناعي (مثل التنبؤ المالي، وتحليل السوق). بالمقابل، فإن البيانات في الإنترنت التقليدي مليئة بـ"الضوضاء" - مثل الإعجابات الوهمية على وسائل التواصل الاجتماعي، وتعليقات الشراء الوهمية على منصات التجارة الإلكترونية، هذه البيانات لا يمكن أن تدرب نماذج ذكاء اصطناعي موثوقة، بل على العكس، يمكن أن تضلل نماذج الحكم.
سلسلة السلوك القابلة للتتبع
تضمن شفافية البلوكشين إمكانية تتبع سلوك المستخدم بشكل كامل. تاريخ المعاملات الخاصة بعنوان محفظة، البروتوكولات التي تم التفاعل معها، وتغيرات الأصول المحتفظ بها، تشكل سلسلة سلوك متماسكة. على سبيل المثال، من خلال تحليل العمليات التي تمت من عنوان معين في بروتوكولات DeFi منذ عام 2020 حتى الآن، يمكن للذكاء الاصطناعي تحديد بدقة ما إذا كان "مستثمراً على المدى الطويل" أو "متداولاً في الأرباح" أو "مزود سيولة"، ومن ثم بناء صورة المستخدم. هذه البيانات السلوكية المنظمة هي ما يعتبر عينة "التفكير البشري" الأكثر ندرة في نماذج الذكاء الاصطناعي الحالية.
الوصول غير المصرح به في النظام البيئي المفتوح
بخلاف البيانات التقليدية للشركات (مثل سجلات معاملات البنوك، وبيانات مستخدمي التجارة الإلكترونية) التي تتميز بالانغلاق، فإن البيانات على السلسلة مفتوحة ولا تتطلب إذنًا. يمكن لأي مطور الوصول إلى البيانات الأصلية من خلال متصفح blockchain أو واجهة برمجة تطبيقات البيانات، مما يوفر مصدر بيانات "بلا حواجز" لتدريب نماذج الذكاء الاصطناعي. ومع ذلك، فإن هذه الانفتاح يأتي أيضًا مع تحديات: البيانات على السلسلة موجودة في شكل "سجلات أحداث" (مثل حدث نقل ERC-20 على إيثيريوم، أو أحداث Swap في البورصات)، وهي "إشارات خام" غير منظمة، تحتاج إلى التنظيف، والتوحيد، والربط ليتم استخدامها من قبل نماذج الذكاء الاصطناعي. حاليًا، معدل "تحويل البيانات الهيكلية" على السلسلة أقل من 5%، مما يعني أن العديد من الإشارات ذات القيمة العالية مدفونة في مليارات الأحداث المجزأة.
Hyperdata Network: نظام "تشغيل" البيانات على السلسلة
لحل مشكلة تجزئة البيانات على السلسلة، اقترحت الصناعة شبكة Hyperdata - "نظام تشغيل ذكي على السلسلة" مصمم خصيصًا للذكاء الاصطناعي. الهدف الرئيسي هو تحويل الإشارات الموزعة على السلسلة إلى بيانات جاهزة للذكاء الاصطناعي، وهي هيكلية، وقابلة للتحقق، وقابلة للتجميع في الوقت الفعلي.
المخطوطة: معيار البيانات المفتوحة، ليتمكن الذكاء الاصطناعي من "فهم" عالم البلوكتشين
أحد أكبر نقاط الألم في بيانات السلسلة هو "فوضى التنسيق" - حيث أن تنسيق سجلات الأحداث يختلف بين سلاسل الكتل المختلفة (مثل إيثيريوم، سولانا، أفالانش)، وقد يتغير هيكل بيانات الإصدارات المختلفة من نفس البروتوكول. Manuscript كمعيار مفتوح لنموذج البيانات، موحد تعريف البيانات على السلسلة وطريقة وصفها. على سبيل المثال، قام بتوحيد "سلوك المراهنة من المستخدمين" ليصبح بيانات هيكلية تتضمن حقول staker_address و protocol_id و amount و timestamp و reward_token، مما يضمن أن نموذج الذكاء الاصطناعي يمكنه "فهم" منطق العمل وراء البيانات مباشرة دون الحاجة إلى التكيف مع تنسيقات بيانات سلاسل أو بروتوكولات مختلفة.
تتمثل قيمة هذا التوحيد في خفض تكاليف الاحتكاك في تطوير الذكاء الاصطناعي. افترض أن فريقًا يريد تدريب "نموذج توقع سلوك مستخدمي DeFi"، تتطلب الطريقة التقليدية توصيل API لعدة سلاسل مثل Ethereum وPolygon، وكتابة نصوص تحليلية مختلفة؛ بينما بناءً على Manuscript، تم معالجة جميع البيانات على السلسلة وفقًا لمعايير موحدة، يمكن للمطورين استدعاء "سجلات المراهنة الخاصة بالمستخدمين" و"سجلات تقديم السيولة" من البيانات الهيكلية مباشرة، مما يقلل بشكل كبير من فترة تدريب النموذج.
المتطلبات الأساسية لنموذج الذكاء الاصطناعي للبيانات هي "موثوق بها" - إذا تم التلاعب ببيانات التدريب أو تلويثها، فإن مخرجات النموذج ستكون بلا قيمة. من خلال آلية AVS (مجموعة المدققين النشطين) في إيثريوم يمكن ضمان صحة البيانات. AVS هو مكون موسع لطبقة إجماع إيثريوم، يتكون من أكثر من 600,000 عقدة مدققة مضمونة بـ ETH، وهذه العقد مسؤولة عن التحقق من صحة وسلامة البيانات على السلسلة. عند معالجة حدث على السلسلة، تقوم عقد AVS بالتحقق المتبادل من قيم تجزئة البيانات، ومعلومات التوقيع، وحالة السلسلة، للتأكد من أن البيانات المهيكلة الناتجة تتطابق تمامًا مع البيانات الأصلية على السلسلة.
تعمل آلية التحقق من "ضمان الاقتصاد المشفر" هذه على حل مشكلة الثقة في التحقق المركزي التقليدي للبيانات. على سبيل المثال، إذا استخدمت شركة ذكاء اصطناعي بيانات على السلسلة مقدمة من مؤسسة مركزية، فإنها تحتاج إلى الثقة في أن تلك المؤسسة لم تعدل البيانات؛ بينما باستخدام شبكة Hyperdata، يتم تأكيد صحة البيانات بواسطة شبكة من المدققين اللامركزيين، وأي محاولة تعديل ستؤدي إلى تفعيل آلية العقوبة لعقد ذكي (مثل خصم ETH المرهونة).
طبقة توفر البيانات عالية السعة
تحتاج نماذج الذكاء الاصطناعي، وخاصة تطبيقات الذكاء الاصطناعي التفاعلية في الوقت الفعلي (مثل روبوتات التداول، وخدمات العملاء الذكية)، إلى إمدادات بيانات ذات تأخير منخفض و throughput عالي. من خلال تحسين خوارزميات ضغط البيانات وبروتوكولات النقل، يتم تحقيق معالجة في الوقت الفعلي لعشرات الآلاف من أحداث السلسلة في الثانية. على سبيل المثال، عندما تحدث صفقة كبيرة في أحد DEX، يمكن للنظام إكمال استخراج البيانات، والتوحيد، والتحقق في غضون ثانية واحدة، ودفع "إشارة الصفقة الكبيرة" المهيكلة إلى نماذج الذكاء الاصطناعي المشتركين، مما يمكنها من تعديل استراتيجيات التداول في الوقت المناسب.
خلف القدرة العالية على المعالجة هي بنية معمارية معيارية - تفصل بين تخزين البيانات والحوسبة، حيث يتحمل شبكة العقد الموزعة تخزين البيانات، بينما يتم تحقيق الحوسبة من خلال الـ Rollup خارج السلسلة، مما يتجنب اختناقات الأداء الخاصة بسلسلة الكتل. تسمح هذه التصميمات للنظام بدعم متطلبات البيانات في الوقت الحقيقي لتطبيقات الذكاء الاصطناعي واسعة النطاق، مثل تقديم خدمات بيانات على السلسلة عبر الإنترنت في نفس الوقت لوكلاء المعاملات العديدة.
عصر DataFi: عندما تصبح البيانات "رأسمال" قابل للتداول
الهدف النهائي لشبكة Hyperdata هو دفع صناعة الذكاء الاصطناعي إلى عصر DataFi - لم تعد البيانات "مواد تدريب" سلبية، بل أصبحت "رأسمال" نشطًا يمكن تسعيره وتداوله وزيادة قيمته. تمامًا كما يتم تسعير الكهرباء بالكيلووات، يتم تسعير قوة الحوسبة بFLOPS، ويجب أيضًا تقييم البيانات وتصنيفها وتقديرها. يعتمد تحقيق هذه الرؤية على تحويل البيانات إلى أربعة خصائص أساسية:
هيكلية: من "الإشارة الأولية" إلى "الأصول القابلة للاستخدام"
البيانات غير المعالجة على السلسلة تشبه "النفط الخام"، تحتاج إلى التكرير لتصبح "البنزين". من خلال التقييس، يتم تحويلها إلى بيانات هيكلية، على سبيل المثال، تفكيك "عنوان المحفظة A في الوقت T أودع X من الرموز في البروتوكول B" إلى بيانات متعددة الأبعاد تحتوي على صورة المستخدم، وخصائص البروتوكول، ونوع الأصول، وطابع زمني. تجعل هذه الهيكلة البيانات قابلة للاستدعاء مباشرة بواسطة نماذج الذكاء الاصطناعي، تمامًا كما هو الحال مع استدعاء واجهة API.
قابلة للتجميع: "ليغو" البيانات
في Web3، "القابلية للتجميع" أدت إلى انفجار DeFi (مثل الابتكارات المجمعة من بروتوكولات مختلفة). لنستعرض هذه الفكرة في مجال البيانات: يمكن أن تتجمع البيانات المهيكلة بحرية مثل قطع ليغو. على سبيل المثال، يمكن للمطورين دمج "سجلات إيداع المستخدمين" (من بروتوكول الإيداع) مع "بيانات تقلب الأسعار" (من الأوراق المالية)، و"معدل الإشارات الاجتماعية" (من واجهة برمجة تطبيقات وسائل التواصل الاجتماعي) لتدريب "نموذج توقع مشاعر سوق DeFi". هذه القابلية للتجميع توسع بشكل كبير حدود استخدام البيانات، مما يجعل الابتكار الذكاء الاصطناعي خارج نطاق الاعتماد على مصدر بيانات واحد.
قابل للتحقق: "تأييد الائتمان" للبيانات
من خلال البيانات المهيكلة التي تم التحقق منها، يتم إنشاء "بصمة بيانات" فريدة (قيمة هاش) وتخزينها على البلوكشين. يمكن لأي تطبيق ذكاء اصطناعي أو مطور يستخدم هذه البيانات التحقق من صحة البيانات من خلال التحقق من قيمة الهاش. هذه "القابلية للتحقق" تمنح البيانات خصائص الائتمان - على سبيل المثال، يمكن تتبع الدقة التاريخية لمجموعة بيانات تم وضع علامة عليها "إشارة تداول عالية الجودة" من خلال سجلات الهاش على البلوكشين، حيث لا يحتاج المستخدم إلى الثقة بمزود مجموعة البيانات، بل يمكنه فقط التحقق من بصمة البيانات لتحديد جودة البيانات.
قابل للتحقيق: "تحقيق قيمة البيانات"
في عصر DataFi، يمكن لمزودي البيانات تحويل البيانات الهيكلية إلى قيمة مالية مباشرة من خلال شبكة Hyperdata. على سبيل المثال، قام فريق بتطوير "إشارة تحذير من ثغرات العقود الذكية" من خلال تحليل البيانات على السلسلة، ويمكنهم تعبئة هذه الإشارة في خدمة API، مع تحصيل رسوم بناءً على عدد مرات الاستدعاء؛ يمكن للمستخدمين العاديين أيضًا تفويض مشاركة بياناتهم المجهولة على السلسلة، والحصول على مكافآت رمزية للبيانات. في النظام البيئي، يتم تحديد قيمة البيانات من خلال العرض والطلب في السوق - قد يتم تسعير إشارات التداول ذات الدقة العالية بشكل أعلى، في حين قد يتم محاسبة البيانات الأساسية لسلوك المستخدمين بحسب الاستخدام.
الخاتمة: ثورة البيانات، العقد القادم للذكاء الاصطناعي
عندما نتحدث عن مستقبل الذكاء الاصطناعي، غالبًا ما نركز على "مستوى ذكاء" النموذج، ونتجاهل "التربة البيانات" التي تدعم الذكاء. يكشف Hyperdata Network عن حقيقة أساسية: إن تطور الذكاء الاصطناعي هو في جوهره تطور البنية التحتية للبيانات. من "محدودية" البيانات التي ينتجها الإنسان إلى "اكتشاف القيمة" للبيانات على السلسلة، من "الفوضى" للإشارات المتناثرة إلى "النظام" للبيانات المهيكلة، من "الموارد المجانية" للبيانات إلى "الأصول الرأسمالية" لـ DataFi، فإن هذه البنية التحتية الجديدة تعيد تشكيل منطق صناعة الذكاء الاصطناعي.
في عصر DataFi هذا، ستصبح البيانات جسرًا يربط بين الذكاء الاصطناعي والعالم الحقيقي - حيث يدرك وكلاء التداول من خلال البيانات على السلسلة مشاعر السوق، وتقوم التطبيقات الذاتية بتحسين الخدمات من خلال بيانات سلوك المستخدم، بينما يحصل المستخدمون العاديون على عوائد مستمرة من خلال مشاركة البيانات. تمامًا كما أن شبكة الطاقة أدت إلى الثورة الصناعية، فإن قوة الحوسبة أدت إلى ثورة الإنترنت، فإن شبكة Hyperdata تعمل على إحداث "ثورة البيانات" في الذكاء الاصطناعي.
تحتاج تطبيقات الذكاء الاصطناعي من الجيل التالي ليس فقط إلى النماذج أو المحفظات، ولكن أيضًا إلى بيانات قابلة للبرمجة وعالية الإشارة وغير موثوقة. عندما يتم أخيرًا منح البيانات قيمتها المستحقة، يمكن للذكاء الاصطناعي حقًا تحرير القوة التي تغير العالم.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 14
أعجبني
14
4
إعادة النشر
مشاركة
تعليق
0/400
ContractCollector
· 08-10 03:27
لا تتعجل في جمع البيانات، ابدأ أولاً بنظر في الفوري والعقود.
ثورة بيانات الذكاء الاصطناعي: البيانات داخل السلسلة تصبح المفتاح لتجاوز العقبات في الذكاء الاصطناعي
الثورة القادمة في صناعة الذكاء الاصطناعي: من قوة الحوسبة إلى بنية البيانات التحتية
مع تجاوز حجم معلمات نماذج الذكاء الاصطناعي تريليون، فإن قوة الحوسبة تقاس بمئات الألف مليار عملية في الثانية، فإن عنق الزجاجة الأساسي الذي تم تجاهله بدأ يظهر - البيانات. ستكون الثورة التالية في صناعة الذكاء الاصطناعي مدفوعة ليس بهياكل النماذج أو قوة حوسبة الرقائق، ولكنها تعتمد على كيفية تحويل البيانات السلوكية البشرية المجزأة إلى رأس مال يمكن التحقق منه ومهيكل ومستعد للذكاء الاصطناعي. هذه الرؤية لا تكشف فقط عن التناقض الهيكلي الحالي في تطوير الذكاء الاصطناعي، بل ترسم أيضًا صورة جديدة لعصر "DataFi" - في هذا العصر، لم تعد البيانات منتجًا ثانويًا للتكنولوجيا، بل أصبحت عنصرًا أساسيًا في الإنتاج قابلًا للقياس، وقابلًا للتداول، وقابلًا للتعزيز مثل الكهرباء وقوة الحوسبة.
من قوة الحوسبة إلى المجاعة البيانات: التناقضات الهيكلية في صناعة الذكاء الاصطناعي
يتم دفع تطوير الذكاء الاصطناعي على المدى الطويل بواسطة "نموذج - قوة الحوسبة". منذ ثورة التعلم العميق، ارتفعت معلمات النموذج من ملايين إلى تريليونات، واحتياجات قوة الحوسبة تتزايد بشكل أسي. تشير البيانات إلى أن تكلفة تدريب نموذج لغة كبير متقدم قد تجاوزت 100 مليون دولار، حيث يتم تخصيص 90% منها لاستئجار مجموعات وحدات معالجة الرسوميات. ومع ذلك، عندما يركز القطاع على "نموذج أكبر" و"رقائق أسرع"، فإن أزمة جانب العرض للبيانات تتسلل بهدوء.
لقد وصلت "البيانات العضوية" التي ينتجها البشر إلى سقف النمو. على سبيل المثال، تبلغ الكمية الإجمالية للبيانات النصية عالية الجودة المتاحة على الإنترنت (الكتب، الأبحاث، الأخبار) حوالي 10^12 كلمة، بينما يتطلب تدريب نموذج يحتوي على تريليون معلمة حوالي 10^13 كلمة من البيانات - مما يعني أن مجموعة البيانات الحالية يمكن أن تدعم تدريب 10 نماذج بنفس الحجم فقط. والأسوأ من ذلك، أن البيانات المتكررة والمحتوى منخفض الجودة يشكل أكثر من 60%، مما يقلص من إمدادات البيانات الفعّالة. عندما تبدأ النماذج في "ابتلاع" البيانات التي تنتجها بنفسها (مثل المقالات المكتوبة بواسطة الذكاء الاصطناعي، والصور التي تُنتج بواسطة الذكاء الاصطناعي)، أصبحت "تلوث البيانات" الناتج عن ذلك تدهور أداء النماذج مصدر قلق في الصناعة.
تعود جذور هذا التناقض إلى: أن صناعة الذكاء الاصطناعي لطالما اعتبرت البيانات "موارد مجانية" على المدى الطويل، بدلاً من كونها "أصول استراتيجية" تحتاج إلى رعاية دقيقة. لقد شكلت النماذج وقوة الحوسبة نظام سوق ناضج - حيث يتم تسعير قوة الحوسبة على المنصات السحابية حسب FLOPS، ويتم فرض رسوم على النماذج من خلال واجهات برمجة التطبيقات حسب عدد الاستدعاءات - ولكن لا يزال إنتاج البيانات وتنظيفها والتحقق منها وتداولها في "عصر همجي". ستكون السنوات العشر القادمة للذكاء الاصطناعي هي "سنوات بنية البيانات التحتية"، وبيانات الشبكة المشفرة على السلسلة هي المفتاح لحل هذه المعضلة.
البيانات على السلسلة: "قاعدة بيانات السلوك البشري" التي تحتاجها AI أكثر
في ظل أزمة البيانات، تُظهر البيانات على الشبكة المشفرة قيمة لا يمكن تعويضها. مقارنةً ببيانات الإنترنت التقليدية (مثل منشورات وسائل التواصل الاجتماعي، وتعليقات التجارة الإلكترونية)، تتمتع البيانات على السلسلة بصدق "محاذاة الحوافز" بشكل طبيعي - كل معاملة، وكل تفاعل عقد، وسلوك كل عنوان محفظة يرتبط مباشرة برأس المال الحقيقي، ولا يمكن تغييرها. يمكن تعريف ذلك بأنه "بيانات سلوك محاذاة الحوافز البشرية الأكثر تركيزًا على الإنترنت"، ويتجلى ذلك في ثلاثة أبعاد:
إشارة "نية" من العالم الحقيقي
البيانات المسجلة على السلسلة ليست تعليقات عاطفية أو نقرات عشوائية، بل هي سلوكيات اتخاذ قرار تصوت بأموال حقيقية. على سبيل المثال، تصرف محفظة في تبادل الأصول على DEX، أو رهن وإقراض في منصة الإقراض، أو تسجيل اسم نطاق في خدمة أسماء النطاقات، يعكس مباشرة حكم المستخدم على قيمة المشروع، وتفضيلاته للمخاطر، واستراتيجيات تخصيص الأموال. هذه البيانات التي "تدعمها رؤوس الأموال" لها قيمة عالية في تدريب قدرة اتخاذ القرارات للذكاء الاصطناعي (مثل التنبؤ المالي، وتحليل السوق). بالمقابل، فإن البيانات في الإنترنت التقليدي مليئة بـ"الضوضاء" - مثل الإعجابات الوهمية على وسائل التواصل الاجتماعي، وتعليقات الشراء الوهمية على منصات التجارة الإلكترونية، هذه البيانات لا يمكن أن تدرب نماذج ذكاء اصطناعي موثوقة، بل على العكس، يمكن أن تضلل نماذج الحكم.
سلسلة السلوك القابلة للتتبع
تضمن شفافية البلوكشين إمكانية تتبع سلوك المستخدم بشكل كامل. تاريخ المعاملات الخاصة بعنوان محفظة، البروتوكولات التي تم التفاعل معها، وتغيرات الأصول المحتفظ بها، تشكل سلسلة سلوك متماسكة. على سبيل المثال، من خلال تحليل العمليات التي تمت من عنوان معين في بروتوكولات DeFi منذ عام 2020 حتى الآن، يمكن للذكاء الاصطناعي تحديد بدقة ما إذا كان "مستثمراً على المدى الطويل" أو "متداولاً في الأرباح" أو "مزود سيولة"، ومن ثم بناء صورة المستخدم. هذه البيانات السلوكية المنظمة هي ما يعتبر عينة "التفكير البشري" الأكثر ندرة في نماذج الذكاء الاصطناعي الحالية.
الوصول غير المصرح به في النظام البيئي المفتوح
بخلاف البيانات التقليدية للشركات (مثل سجلات معاملات البنوك، وبيانات مستخدمي التجارة الإلكترونية) التي تتميز بالانغلاق، فإن البيانات على السلسلة مفتوحة ولا تتطلب إذنًا. يمكن لأي مطور الوصول إلى البيانات الأصلية من خلال متصفح blockchain أو واجهة برمجة تطبيقات البيانات، مما يوفر مصدر بيانات "بلا حواجز" لتدريب نماذج الذكاء الاصطناعي. ومع ذلك، فإن هذه الانفتاح يأتي أيضًا مع تحديات: البيانات على السلسلة موجودة في شكل "سجلات أحداث" (مثل حدث نقل ERC-20 على إيثيريوم، أو أحداث Swap في البورصات)، وهي "إشارات خام" غير منظمة، تحتاج إلى التنظيف، والتوحيد، والربط ليتم استخدامها من قبل نماذج الذكاء الاصطناعي. حاليًا، معدل "تحويل البيانات الهيكلية" على السلسلة أقل من 5%، مما يعني أن العديد من الإشارات ذات القيمة العالية مدفونة في مليارات الأحداث المجزأة.
Hyperdata Network: نظام "تشغيل" البيانات على السلسلة
لحل مشكلة تجزئة البيانات على السلسلة، اقترحت الصناعة شبكة Hyperdata - "نظام تشغيل ذكي على السلسلة" مصمم خصيصًا للذكاء الاصطناعي. الهدف الرئيسي هو تحويل الإشارات الموزعة على السلسلة إلى بيانات جاهزة للذكاء الاصطناعي، وهي هيكلية، وقابلة للتحقق، وقابلة للتجميع في الوقت الفعلي.
المخطوطة: معيار البيانات المفتوحة، ليتمكن الذكاء الاصطناعي من "فهم" عالم البلوكتشين
أحد أكبر نقاط الألم في بيانات السلسلة هو "فوضى التنسيق" - حيث أن تنسيق سجلات الأحداث يختلف بين سلاسل الكتل المختلفة (مثل إيثيريوم، سولانا، أفالانش)، وقد يتغير هيكل بيانات الإصدارات المختلفة من نفس البروتوكول. Manuscript كمعيار مفتوح لنموذج البيانات، موحد تعريف البيانات على السلسلة وطريقة وصفها. على سبيل المثال، قام بتوحيد "سلوك المراهنة من المستخدمين" ليصبح بيانات هيكلية تتضمن حقول staker_address و protocol_id و amount و timestamp و reward_token، مما يضمن أن نموذج الذكاء الاصطناعي يمكنه "فهم" منطق العمل وراء البيانات مباشرة دون الحاجة إلى التكيف مع تنسيقات بيانات سلاسل أو بروتوكولات مختلفة.
تتمثل قيمة هذا التوحيد في خفض تكاليف الاحتكاك في تطوير الذكاء الاصطناعي. افترض أن فريقًا يريد تدريب "نموذج توقع سلوك مستخدمي DeFi"، تتطلب الطريقة التقليدية توصيل API لعدة سلاسل مثل Ethereum وPolygon، وكتابة نصوص تحليلية مختلفة؛ بينما بناءً على Manuscript، تم معالجة جميع البيانات على السلسلة وفقًا لمعايير موحدة، يمكن للمطورين استدعاء "سجلات المراهنة الخاصة بالمستخدمين" و"سجلات تقديم السيولة" من البيانات الهيكلية مباشرة، مما يقلل بشكل كبير من فترة تدريب النموذج.
المتطلبات الأساسية لنموذج الذكاء الاصطناعي للبيانات هي "موثوق بها" - إذا تم التلاعب ببيانات التدريب أو تلويثها، فإن مخرجات النموذج ستكون بلا قيمة. من خلال آلية AVS (مجموعة المدققين النشطين) في إيثريوم يمكن ضمان صحة البيانات. AVS هو مكون موسع لطبقة إجماع إيثريوم، يتكون من أكثر من 600,000 عقدة مدققة مضمونة بـ ETH، وهذه العقد مسؤولة عن التحقق من صحة وسلامة البيانات على السلسلة. عند معالجة حدث على السلسلة، تقوم عقد AVS بالتحقق المتبادل من قيم تجزئة البيانات، ومعلومات التوقيع، وحالة السلسلة، للتأكد من أن البيانات المهيكلة الناتجة تتطابق تمامًا مع البيانات الأصلية على السلسلة.
تعمل آلية التحقق من "ضمان الاقتصاد المشفر" هذه على حل مشكلة الثقة في التحقق المركزي التقليدي للبيانات. على سبيل المثال، إذا استخدمت شركة ذكاء اصطناعي بيانات على السلسلة مقدمة من مؤسسة مركزية، فإنها تحتاج إلى الثقة في أن تلك المؤسسة لم تعدل البيانات؛ بينما باستخدام شبكة Hyperdata، يتم تأكيد صحة البيانات بواسطة شبكة من المدققين اللامركزيين، وأي محاولة تعديل ستؤدي إلى تفعيل آلية العقوبة لعقد ذكي (مثل خصم ETH المرهونة).
طبقة توفر البيانات عالية السعة
تحتاج نماذج الذكاء الاصطناعي، وخاصة تطبيقات الذكاء الاصطناعي التفاعلية في الوقت الفعلي (مثل روبوتات التداول، وخدمات العملاء الذكية)، إلى إمدادات بيانات ذات تأخير منخفض و throughput عالي. من خلال تحسين خوارزميات ضغط البيانات وبروتوكولات النقل، يتم تحقيق معالجة في الوقت الفعلي لعشرات الآلاف من أحداث السلسلة في الثانية. على سبيل المثال، عندما تحدث صفقة كبيرة في أحد DEX، يمكن للنظام إكمال استخراج البيانات، والتوحيد، والتحقق في غضون ثانية واحدة، ودفع "إشارة الصفقة الكبيرة" المهيكلة إلى نماذج الذكاء الاصطناعي المشتركين، مما يمكنها من تعديل استراتيجيات التداول في الوقت المناسب.
خلف القدرة العالية على المعالجة هي بنية معمارية معيارية - تفصل بين تخزين البيانات والحوسبة، حيث يتحمل شبكة العقد الموزعة تخزين البيانات، بينما يتم تحقيق الحوسبة من خلال الـ Rollup خارج السلسلة، مما يتجنب اختناقات الأداء الخاصة بسلسلة الكتل. تسمح هذه التصميمات للنظام بدعم متطلبات البيانات في الوقت الحقيقي لتطبيقات الذكاء الاصطناعي واسعة النطاق، مثل تقديم خدمات بيانات على السلسلة عبر الإنترنت في نفس الوقت لوكلاء المعاملات العديدة.
عصر DataFi: عندما تصبح البيانات "رأسمال" قابل للتداول
الهدف النهائي لشبكة Hyperdata هو دفع صناعة الذكاء الاصطناعي إلى عصر DataFi - لم تعد البيانات "مواد تدريب" سلبية، بل أصبحت "رأسمال" نشطًا يمكن تسعيره وتداوله وزيادة قيمته. تمامًا كما يتم تسعير الكهرباء بالكيلووات، يتم تسعير قوة الحوسبة بFLOPS، ويجب أيضًا تقييم البيانات وتصنيفها وتقديرها. يعتمد تحقيق هذه الرؤية على تحويل البيانات إلى أربعة خصائص أساسية:
هيكلية: من "الإشارة الأولية" إلى "الأصول القابلة للاستخدام"
البيانات غير المعالجة على السلسلة تشبه "النفط الخام"، تحتاج إلى التكرير لتصبح "البنزين". من خلال التقييس، يتم تحويلها إلى بيانات هيكلية، على سبيل المثال، تفكيك "عنوان المحفظة A في الوقت T أودع X من الرموز في البروتوكول B" إلى بيانات متعددة الأبعاد تحتوي على صورة المستخدم، وخصائص البروتوكول، ونوع الأصول، وطابع زمني. تجعل هذه الهيكلة البيانات قابلة للاستدعاء مباشرة بواسطة نماذج الذكاء الاصطناعي، تمامًا كما هو الحال مع استدعاء واجهة API.
قابلة للتجميع: "ليغو" البيانات
في Web3، "القابلية للتجميع" أدت إلى انفجار DeFi (مثل الابتكارات المجمعة من بروتوكولات مختلفة). لنستعرض هذه الفكرة في مجال البيانات: يمكن أن تتجمع البيانات المهيكلة بحرية مثل قطع ليغو. على سبيل المثال، يمكن للمطورين دمج "سجلات إيداع المستخدمين" (من بروتوكول الإيداع) مع "بيانات تقلب الأسعار" (من الأوراق المالية)، و"معدل الإشارات الاجتماعية" (من واجهة برمجة تطبيقات وسائل التواصل الاجتماعي) لتدريب "نموذج توقع مشاعر سوق DeFi". هذه القابلية للتجميع توسع بشكل كبير حدود استخدام البيانات، مما يجعل الابتكار الذكاء الاصطناعي خارج نطاق الاعتماد على مصدر بيانات واحد.
قابل للتحقق: "تأييد الائتمان" للبيانات
من خلال البيانات المهيكلة التي تم التحقق منها، يتم إنشاء "بصمة بيانات" فريدة (قيمة هاش) وتخزينها على البلوكشين. يمكن لأي تطبيق ذكاء اصطناعي أو مطور يستخدم هذه البيانات التحقق من صحة البيانات من خلال التحقق من قيمة الهاش. هذه "القابلية للتحقق" تمنح البيانات خصائص الائتمان - على سبيل المثال، يمكن تتبع الدقة التاريخية لمجموعة بيانات تم وضع علامة عليها "إشارة تداول عالية الجودة" من خلال سجلات الهاش على البلوكشين، حيث لا يحتاج المستخدم إلى الثقة بمزود مجموعة البيانات، بل يمكنه فقط التحقق من بصمة البيانات لتحديد جودة البيانات.
قابل للتحقيق: "تحقيق قيمة البيانات"
في عصر DataFi، يمكن لمزودي البيانات تحويل البيانات الهيكلية إلى قيمة مالية مباشرة من خلال شبكة Hyperdata. على سبيل المثال، قام فريق بتطوير "إشارة تحذير من ثغرات العقود الذكية" من خلال تحليل البيانات على السلسلة، ويمكنهم تعبئة هذه الإشارة في خدمة API، مع تحصيل رسوم بناءً على عدد مرات الاستدعاء؛ يمكن للمستخدمين العاديين أيضًا تفويض مشاركة بياناتهم المجهولة على السلسلة، والحصول على مكافآت رمزية للبيانات. في النظام البيئي، يتم تحديد قيمة البيانات من خلال العرض والطلب في السوق - قد يتم تسعير إشارات التداول ذات الدقة العالية بشكل أعلى، في حين قد يتم محاسبة البيانات الأساسية لسلوك المستخدمين بحسب الاستخدام.
الخاتمة: ثورة البيانات، العقد القادم للذكاء الاصطناعي
عندما نتحدث عن مستقبل الذكاء الاصطناعي، غالبًا ما نركز على "مستوى ذكاء" النموذج، ونتجاهل "التربة البيانات" التي تدعم الذكاء. يكشف Hyperdata Network عن حقيقة أساسية: إن تطور الذكاء الاصطناعي هو في جوهره تطور البنية التحتية للبيانات. من "محدودية" البيانات التي ينتجها الإنسان إلى "اكتشاف القيمة" للبيانات على السلسلة، من "الفوضى" للإشارات المتناثرة إلى "النظام" للبيانات المهيكلة، من "الموارد المجانية" للبيانات إلى "الأصول الرأسمالية" لـ DataFi، فإن هذه البنية التحتية الجديدة تعيد تشكيل منطق صناعة الذكاء الاصطناعي.
في عصر DataFi هذا، ستصبح البيانات جسرًا يربط بين الذكاء الاصطناعي والعالم الحقيقي - حيث يدرك وكلاء التداول من خلال البيانات على السلسلة مشاعر السوق، وتقوم التطبيقات الذاتية بتحسين الخدمات من خلال بيانات سلوك المستخدم، بينما يحصل المستخدمون العاديون على عوائد مستمرة من خلال مشاركة البيانات. تمامًا كما أن شبكة الطاقة أدت إلى الثورة الصناعية، فإن قوة الحوسبة أدت إلى ثورة الإنترنت، فإن شبكة Hyperdata تعمل على إحداث "ثورة البيانات" في الذكاء الاصطناعي.
تحتاج تطبيقات الذكاء الاصطناعي من الجيل التالي ليس فقط إلى النماذج أو المحفظات، ولكن أيضًا إلى بيانات قابلة للبرمجة وعالية الإشارة وغير موثوقة. عندما يتم أخيرًا منح البيانات قيمتها المستحقة، يمكن للذكاء الاصطناعي حقًا تحرير القوة التي تغير العالم.