artificial intelligenceNeuralTechأخبار تقنيةتقنيةتكنولوجياشروحاتمراجعات تقنيةمقالات معلوماتية

البيانات التركيبية هي البديل الآمن ومنخفض التكلفة للبيانات الحقيقية التي نحتاجها

البيانات التركيبية هي البديل الآمن ومنخفض التكلفة للبيانات الحقيقية التي نحتاجها

المحتوى مقدم من آي بي إم و TNW.

يتعلم الأطفال التحدث من خلال سماع الآخرين – معظمهم من آبائهم – يصدرون أصواتًا بشكل متكرر. ببطء ، من خلال التكرار واكتشاف الأنماط ، يبدأ الأطفال في ربط هذه الأصوات بالمعنى. من خلال الكثير من الممارسة ، تمكنوا في النهاية من إنتاج أصوات مماثلة يمكن أن يفهمها البشر من حولهم.

تعمل خوارزميات التعلم الآلي كثيرًا بنفس الطريقة ، ولكن بدلاً من وجود اثنين من الآباء لنسخهم ، يستخدمون البيانات المصنفة بشق الأنفس من قبل الآلاف من البشر الذين يتعين عليهم مراجعة البيانات يدويًا وإخبار الآلة بما تعنيه.

تحياتي البشر

اشترك في النشرة الإخبارية لدينا الآن للحصول على ملخص أسبوعي لقصص الذكاء الاصطناعي المفضلة لدينا في صندوق الوارد الخاص بك.

ومع ذلك ، فإن هذه العملية الشاقة والمستهلكة للوقت ليست هي المشكلة الوحيدة مع بيانات العالم الحقيقي المستخدمة لتدريب خوارزميات التعلم الآلي.

خذ كشف الاحتيال في مطالبات التأمين. لكي تكون الخوارزمية قادرة بدقة على تمييز حالة الاحتيال بصرف النظر عن المطالبات المشروعة ، فإنها تحتاج إلى رؤية كليهما. الآلاف والآلاف من كليهما. ولأن أنظمة الذكاء الاصطناعي غالبًا ما يتم توفيرها من قبل أطراف ثالثة – لذلك لا تديرها شركة التأمين نفسها – يجب منح هذه الأطراف الثالثة الوصول إلى كل تلك البيانات الحساسة. يمكنك الوصول إلى حيث يتجه ذلك ، لأن الأمر نفسه ينطبق على سجلات الرعاية الصحية والبيانات المالية.

أكثر مقصورة على فئة معينة ، ولكن بنفس القدر من القلق ، يتم تدريب جميع الخوارزميات على النصوص والصور ومقاطع الفيديو. بجانب من أسئلة حقوق التأليف والنشرعديدة أبدى منشئو المحتوى عدم موافقتهم مع عملهم الذي يتم امتصاصه في مجموعة بيانات للتدريب آلة قد تأخذ (جزءًا من) وظيفتهم في النهاية. وهذا على افتراض أن إبداعاتهم ليست عنصرية أو إشكالية من نواحٍ أخرى – وهذا بدوره قد يؤدي إلى مخرجات إشكالية.

أيضًا ، ماذا لو لم تكن هناك بيانات كافية متاحة لتدريب الذكاء الاصطناعي على جميع الاحتمالات؟ في 2016 تقرير مؤسسة RAND، حسب المؤلفون عدد الأميال ، “أسطول مكون من 100 مركبة تسير على مدار 24 ساعة في اليوم ، 365 يومًا في السنة ، بمتوسط ​​سرعة 25 ميلًا في الساعة” يجب أن يقودها لإظهار أن معدل فشلهم (مما أدى إلى الوفيات أو الإصابات) أقل بشكل موثوق من تلك التي بين البشر. إجابتهم؟ 500 سنة و 11 مليار ميل.

ليس عليك أن تكون عبقريًا فائق الذكاء لتكتشف أن العملية الحالية ليست مثالية. فماذا يمكننا أن نفعل؟ كيف يمكننا إنشاء بيانات كافية تحترم الخصوصية وغير إشكالية وتغطي جميع الاحتمالات وتسميات دقيقة؟ لقد خمنت ذلك: المزيد من الذكاء الاصطناعي.

يمكن للبيانات المزيفة أن تساعد أنظمة الذكاء الاصطناعي في التعامل مع البيانات الحقيقية

حتى قبل تقرير مؤسسة RAND ، كان من الواضح تمامًا للشركات التي تعمل على القيادة الذاتية أنها كانت غير مجهزة بشكل محزن لجمع بيانات كافية لتدريب الخوارزميات بشكل موثوق للقيادة بأمان تحت أي ظرف أو ظرف.

خذ وايمو ، شركة القيادة الذاتية لشركة Alphabet. بدلاً من الاعتماد على سياراتهم في العالم الحقيقي ، قاموا بإنشاء عالم محاكى تمامًا ، حيث يمكن للسيارات المحاكية ذات المستشعرات المحاكاة أن تتجول بلا نهاية ، وتجمع بيانات حقيقية على طريقتها المحاكية. حسب الشركةبحلول عام 2020 ، جمعت بيانات عن 15 مليار ميل من القيادة المحاكاة – مقارنةً بالقيادة الواقعية التي تبلغ 20 مليون ميل.

المزيد من الطرق لإنتاج البيانات التركيبية تكتسب أرضية.

في لغة الذكاء الاصطناعي ، يُطلق على هذا اسم البيانات التركيبية ، أو “البيانات القابلة للتطبيق على موقف معين لا يتم الحصول عليه عن طريق القياس المباشر ،” إذا كنت ترغب في الحصول على معلومات تقنية. أو بشكل أقل تقنيًا: تنتج أنظمة الذكاء الاصطناعي بيانات مزيفة حتى تتمكن أنظمة الذكاء الاصطناعي الأخرى من التعرف على العالم الحقيقي بوتيرة أسرع.

مثال واحد هو Task2Sim، نموذج ذكاء اصطناعي تم إنشاؤه بواسطة MIT-IBM Watson AI Lab الذي ينشئ بيانات تركيبية لفصول التدريب. بدلاً من تعليم المصنف التعرف على كائن واحد في كل مرة ، يقوم النموذج بإنشاء صور يمكن استخدامها لتعليم مهام متعددة. ال قابلية التوسع لهذا النوع من النماذج يجعل جمع البيانات أقل استهلاكا للوقت وأقل تكلفة للشركات المتعطشة للبيانات.

إضافة إلى ذلك ، قال روجيريو فيريس ، الباحث في شركة IBM والذي شارك في تأليف الورقة حول Task2Sim ،

يكمن جمال الصور التركيبية في أنه يمكنك التحكم في معلماتها – الخلفية والإضاءة وطريقة وضع الكائنات.

بفضل كل المخاوف المذكورة أعلاه ، تضخم إنتاج جميع أنواع البيانات التركيبية خلال السنوات القليلة الماضية ، مع العشرات من الشركات الناشئة في هذا المجال تزدهر وجمع مئات الملايين من الدولارات في الاستثمار.

تتراوح البيانات التركيبية التي تم إنشاؤها من “البيانات البشرية” مثل السجلات الصحية أو المالية إلى الصور المركبة لمجموعة متنوعة من الوجوه البشرية – إلى مجموعات بيانات أكثر تجريدًا مثل البيانات الجينومية ، التي تحاكي بنية الحمض النووي.

كيف تصنع بيانات مزيفة حقًا

هناك طريقتان يحدث توليد البيانات التركيبية ، وأكثرها شيوعًا وراسخة تسمى GAN أو شبكات الخصومة التوليدية.

في GAN ، يتم وضع اثنين من أنظمة الذكاء الاصطناعي ضد بعضهما البعض. ينتج أحد الذكاء الاصطناعي مجموعة بيانات تركيبية ، بينما يحاول الآخر تحديد ما إذا كانت البيانات التي تم إنشاؤها أصلية. تعود ردود الفعل من الحلقات الأخيرة إلى “التدريب” السابق لتصبح أكثر دقة في إنتاج بيانات مزيفة مقنعة. ربما تكون قد رأيت واحدة من بين العديد هذا- X- غير موجود مواقع الويب – التي تتراوح من الأشخاص إلى القطط إلى المباني – والتي تنشئ صورها بناءً على شبكات GAN.

يمكن أن تمنح البيانات التركيبية اللاعبين الأصغر فرصة لقلب الطاولة.

في الآونة الأخيرة ، تكتسب المزيد من الطرق لإنتاج البيانات التركيبية. يُعرف الأول باسم نماذج الانتشار، حيث يتم تدريب أنظمة الذكاء الاصطناعي على إعادة بناء أنواع معينة من البيانات بينما يتم إضافة المزيد والمزيد من الضوضاء – البيانات التي تفسد بيانات التدريب تدريجيًا – إلى بيانات العالم الحقيقي. في النهاية ، يمكن تغذية الذكاء الاصطناعي ببيانات عشوائية ، والتي تعمل مرة أخرى في تنسيق تم تدريبه عليه في الأصل.

البيانات المزيفة مثل البيانات الحقيقية بدون الحقيقة

تقدم البيانات التركيبية ، مهما كان إنتاجها ، عددًا من المزايا الملموسة للغاية على استخدام بيانات العالم الحقيقي. بادئ ذي بدء ، من الأسهل جمع المزيد منه ، لأنك لست مضطرًا للاعتماد على البشر في إنشائه. ثانيًا ، تأتي البيانات التركيبية مصنفة بشكل مثالي ، لذلك لا داعي للاعتماد على مراكز البيانات كثيفة العمالة (أحيانًا بشكل غير صحيح) لتسمية البيانات. ثالثًا ، يمكن أن تحمي الخصوصية وحقوق النشر ، حيث أن البيانات تركيبية. وأخيرًا ، وربما الأهم من ذلك ، يمكن أن تقلل النتائج المتحيزة.

نظرًا لأن الذكاء الاصطناعي يلعب دورًا أكبر في التكنولوجيا والمجتمع ، فإن التوقعات حول البيانات التركيبية هي تفاؤل. وقدر جارتنر ذلك بشكل مشهور 60٪ من بيانات التدريب ستكون بيانات تركيبية بحلول عام 2024. محلل السوق تقدر Cognilytica السوق من توليد البيانات الاصطناعية عند 110 مليون دولار في عام 2021 ، وتنمو إلى 1.15 مليار دولار بحلول عام 2027.

سميت البيانات بالسلع الأكثر قيمة في العصر الرقمي. لقد جلس التكنولوجيا الكبيرة على جبال من بيانات المستخدم التي أعطتها ميزة على المنافسين الأصغر في مجال الذكاء الاصطناعي. يمكن أن تمنح البيانات التركيبية اللاعبين الأصغر فرصة لقلب الطاولة.

كما قد تظن ، فإن السؤال الكبير المتعلق بالبيانات التركيبية يدور حول ما يسمى بالإخلاص – أو مدى تطابقها مع بيانات العالم الحقيقي. هيئة المحلفين لا تزال خارجة عن هذا ، ولكن البحث يبدو أن تظهر أن الجمع بين البيانات التركيبية والبيانات الحقيقية يعطي نتائج سليمة إحصائيًا. في هذا العام ، أظهر باحثون من MIT و MIT-IBM AI Watson Lab أن مصنف الصور الذي تم اختباره مسبقًا على البيانات التركيبية مع البيانات الحقيقية ، بالإضافة إلى مُصنِّف صور مدرَّب حصريًا على بيانات حقيقية.

بشكل عام ، تبدو أضواء التوقف الاصطناعية والواقعية خضراء اللون من أجل هيمنة البيانات التركيبية في المستقبل القريب في تدريب نماذج الذكاء الاصطناعي الصديقة للخصوصية والأكثر أمانًا ، ومع ذلك ، فإن مستقبلًا محتملاً لأنظمة الذكاء الاصطناعي الأكثر ذكاءً بالنسبة لنا هو في الأفق. .

 

البيانات التركيبية هي البديل الآمن ومنخفض التكلفة للبيانات الحقيقية التي نحتاجها

#البيانات #التركيبية #هي #البديل #الآمن #ومنخفض #التكلفة #للبيانات #الحقيقية #التي #نحتاجها