#أحدث الأخبار مع #بيلجروس،الرجل١٩-٠٤-٢٠٢٥علومالرجلتسريبات تكشف تجارب Meta السرية لتحسين نماذج Llamaكشفت وثائق داخلية من شركة Meta، أُفرج عنها ضمن قضية قانونية، عن تفاصيل تجارب سرّية تُعرف باسم Ablation، تهدف إلى تحسين أداء نماذج الذكاء الاصطناعي الخاصة بها، وأبرزها Llama، وإحدى هذه التجارب تضمنت استبدال جزء من بيانات التدريب بكتب مقرصنة من مكتبة LibGen. Ablation ولماذا تستخدمه Meta؟ في الذكاء الاصطناعي، يشير Ablation إلى إزالة مكونات معينة من النموذج أو بياناته، لمعرفة تأثيرها على الأداء، وقد أظهرت الوثائق أن Meta استخدمت هذا الأسلوب لتقييم تأثير أنواع محددة من الكتب على أداء نموذج Llama. في تجربتين منفصلتين، تم إضافة كتب في مجالي العلوم والخيال العلمي، ثم في تجربة أخرى، أضيفت فقط كتب خيالية، وفي كلتا الحالتين، تحسّن أداء النموذج بشكل واضح في اختبارات مرجعية، مثل BooIQ وSIQA، بنسبة وصلت إلى 6%. لماذا تخفي الشركات هذه النتائج؟ بحسب خبراء، فإن سبب التكتم يعود إلى البعد القانوني والاقتصادي، إذ إن كشف نوع البيانات المؤثرة قد يفتح الباب أمام مطالبات بالتعويض من مؤلفي المحتوى الأصلي، وكما يقول نيك فينسنت: "نشر هذه النتائج يعني إعطاء المبدعين دليلاً على القيمة الفعلية التي ساهموا بها في تطوير هذه النماذج". وتُعد تجربة Meta مثالًا بارزًا ضمن القضية الجارية Kadrey v. Meta، حيث يواجه عمالقة التقنية اتهامات بانتهاك حقوق النشر، من خلال استخدام المحتوى المنشور لتدريب النماذج. ويؤكد "فينسنت" أن الأدلة على استخدام محتوى محدد وتحقيق فوائد منه، يمكن أن تُضعف حجج الشركات التقنية في هذه القضايا. Llama يتطور بصمت.. ولكن بثمن أشارت الوثائق إلى أن أداء Llama تحسن في اختبار BooIQ بنسبة 4.5% عند إضافة كتب علمية وخيالية، ووصل التحسن إلى 6% عند استخدام الكتب الخيالية فقط. هذه النسبة تعني، في السياق العملي، أن النموذج أصبح قادرًا على الإجابة على مئات الأسئلة الإضافية بشكل صحيح. وكمثال فإن الإجابة على سؤال: "هل يمكن للألف والبشر التزاوج في عالم سيد الخواتم؟"، تستلزم معرفة عميقة بعالم تولكين، وهو دليل على أهمية محتوى الكتب الأصلي في تدريب النماذج. دعوات لمحاسبة الشركات وتقنين البيانات يرى كثير من الباحثين أن هذه التسريبات يمكن أن تُمهد الطريق نحو بناء آليات لتعويض صنّاع المحتوى المستخدم في تدريب الذكاء الاصطناعي، بما يحقق التوازن بين الابتكار والحقوق الفكرية. ويعلّق بيل جروس، المدير التنفيذي لشركة ProRata: "المبدعون يستحقون أن يُدفع لهم مرتين: مرة عند استخدام أعمالهم، ومرة عند الاعتماد عليها في نتائج النماذج".
الرجل١٩-٠٤-٢٠٢٥علومالرجلتسريبات تكشف تجارب Meta السرية لتحسين نماذج Llamaكشفت وثائق داخلية من شركة Meta، أُفرج عنها ضمن قضية قانونية، عن تفاصيل تجارب سرّية تُعرف باسم Ablation، تهدف إلى تحسين أداء نماذج الذكاء الاصطناعي الخاصة بها، وأبرزها Llama، وإحدى هذه التجارب تضمنت استبدال جزء من بيانات التدريب بكتب مقرصنة من مكتبة LibGen. Ablation ولماذا تستخدمه Meta؟ في الذكاء الاصطناعي، يشير Ablation إلى إزالة مكونات معينة من النموذج أو بياناته، لمعرفة تأثيرها على الأداء، وقد أظهرت الوثائق أن Meta استخدمت هذا الأسلوب لتقييم تأثير أنواع محددة من الكتب على أداء نموذج Llama. في تجربتين منفصلتين، تم إضافة كتب في مجالي العلوم والخيال العلمي، ثم في تجربة أخرى، أضيفت فقط كتب خيالية، وفي كلتا الحالتين، تحسّن أداء النموذج بشكل واضح في اختبارات مرجعية، مثل BooIQ وSIQA، بنسبة وصلت إلى 6%. لماذا تخفي الشركات هذه النتائج؟ بحسب خبراء، فإن سبب التكتم يعود إلى البعد القانوني والاقتصادي، إذ إن كشف نوع البيانات المؤثرة قد يفتح الباب أمام مطالبات بالتعويض من مؤلفي المحتوى الأصلي، وكما يقول نيك فينسنت: "نشر هذه النتائج يعني إعطاء المبدعين دليلاً على القيمة الفعلية التي ساهموا بها في تطوير هذه النماذج". وتُعد تجربة Meta مثالًا بارزًا ضمن القضية الجارية Kadrey v. Meta، حيث يواجه عمالقة التقنية اتهامات بانتهاك حقوق النشر، من خلال استخدام المحتوى المنشور لتدريب النماذج. ويؤكد "فينسنت" أن الأدلة على استخدام محتوى محدد وتحقيق فوائد منه، يمكن أن تُضعف حجج الشركات التقنية في هذه القضايا. Llama يتطور بصمت.. ولكن بثمن أشارت الوثائق إلى أن أداء Llama تحسن في اختبار BooIQ بنسبة 4.5% عند إضافة كتب علمية وخيالية، ووصل التحسن إلى 6% عند استخدام الكتب الخيالية فقط. هذه النسبة تعني، في السياق العملي، أن النموذج أصبح قادرًا على الإجابة على مئات الأسئلة الإضافية بشكل صحيح. وكمثال فإن الإجابة على سؤال: "هل يمكن للألف والبشر التزاوج في عالم سيد الخواتم؟"، تستلزم معرفة عميقة بعالم تولكين، وهو دليل على أهمية محتوى الكتب الأصلي في تدريب النماذج. دعوات لمحاسبة الشركات وتقنين البيانات يرى كثير من الباحثين أن هذه التسريبات يمكن أن تُمهد الطريق نحو بناء آليات لتعويض صنّاع المحتوى المستخدم في تدريب الذكاء الاصطناعي، بما يحقق التوازن بين الابتكار والحقوق الفكرية. ويعلّق بيل جروس، المدير التنفيذي لشركة ProRata: "المبدعون يستحقون أن يُدفع لهم مرتين: مرة عند استخدام أعمالهم، ومرة عند الاعتماد عليها في نتائج النماذج".