Technical question
تخيل يجيك سؤال مثل هذا في المقابلة يبغاك تستخرج بيانات اليوزر بعد ٦٠ يوم من تسجيل اليوزر في الموقع عشان تعرف نشاطاته في اخر ٦٠ يوم وتحللها
البيانات في json format
في المقابلات الشخصية انت تبي تطلع قدراتك كيف انك تقدر تبني وتظهر قدراتك في ML lifecycle من البداية حتى النهاية.
في هذا الثريد شرحت لكم بعض النقاط بتساعدكم باذن الله في المقابلات
اليوم راح نتكلم عن ال backpropagation
هو خوارزمية تستخدم في مرحلة التدريب في ال neural network
كيف يعمل وش فكرته بالضبط ؟
خلو ناخذ مثال جملة اليوم الطقس جميل
اختبار الفرضية:
الـ hypothesis testing والـ p-value أساسيان في الإحصاء ويستخدمان لتحديد إذا كانت البيانات تحتوي على دليل كافٍ يشير إلى وجود فرق أو تأثير.
ثريد🧵
بنتكلم اليوم عن RELU و Sigmoid.
طبعًا، بالبداية لازم نعرف وناخذ فكرة عن الـ activation function لأن RELU و Sigmoid نوع من أنواع الـ activation function.
اليوم بنتكلم عن Data Pipelines
باختصار هي عملية تاخذ البيانات وتجمعها وتحولها وتحطها في Batch و stream processing عشان تعالجها في جداول محددة وفي وقت فعلي وهذا الشي يساعد عالم البيانات والمحللين من تحليل البيانات وتصورها على حسب الغرض
اليوم بنتكلم عن (Gaussian Mixture Model - GMM)
وش يعني ومتى نستخدمه ؟
اول شي GMM هو unsupervised learning يستخدم في لما عندك بيانات كبيره ومعقدة وفيها أنماط غير واضحة
فيه تقنيتين خورازميات كويسة وتساعد كثير في حالات
عندك DFS و BFS
DFS Deep first search
وهذي التقنية تستخدم في البحث بالعمق ويتم تطبيقها عن طريق stack او recursion
يعني خذ مثال:
City A
City B
City C
City E
في #التعلم _الآلة، نستخدم نماذج رياضية للتنبؤ. هذه النماذج تتعلم من البيانات. لكن أحيانًا، ممكن تتعلم النماذج “بشكل مفرط” وتبدأ في حفظ البيانات بدال من فهم patterns. نواجة مشكلة ال overfitting وهنا فيه تكنيك بيساعدنا نتفادى المشكله هذي الي هو Regularization
ثريد 🧵
اليوم بنتكلم باختصار عن نموذج Transformer، باستخدام الجملة “أنا أحب الذكاء الاصطناعي” بطريقة بسيطة.
مهم جدا فهم Transforner خصوصا مع تطور النماذج اللغوية الكبيره مثل Chatgpt وغيرها
تقنية RAG وهي تعرف بـ”استرجاع وتوليد الإجابات” (Retrieval-Augmented Generation)، من التقنيات الهامة جدًا وابي طلب كبير حاليًا. هذه التقنية تساعد في استرجاع الإجابات من المستندات بناءً على الأسئلة المطروحة؛ يعني انك لما تطرح سؤال، تقوم بالبحث في المستندات لاستخلاص الجواب المناسب.
في عالم البيانات، يوجد ما يسمى بـ interpretation “تفسيرات الاحتمالات”، وهي مهمة في حالة استخدام الاحتمالات. عندنا:
•Frequentist الاحتمال التكراري.
•Bayesian النهج البيزي.
ما هو (PCA)؟
(PCA) هو طريقة لتبسيط البيانات المعقدة. تخيل أن عندك الكثير من البيانات، وهي معقدة جدًا وصعب فهمها دفعة واحدة. هنا يجي دور PCA في البحث عن أهم جزء من هذه البيانات.
وجد الباحثون أن XGBoost يتفوق على نماذج التعلم العميق في التعامل مع مجموعات البيانات الجدولية المتنوعة. كما تسلط الدراسة الضوء على قوة hybrid ensemble ، بالجمع بين XGBoost والتعلم العميق للحصول على أفضل النتائج.
رابط الورقة البحثية:
لما يكون عندك مودل راح اكيد تحتاج تخليه يعمل بشكل أفضل لاحتياجاتك الخاصة. الان بنستعرض بعض الطرق باختصار :
1.اول شي (Quantization) يخلي المودل أسرع وأصغر :
تخيل أن المودل حقك مثل حقيبة ظهر كبيرة مليانه بالكتب. الكمية هي مثل استبدال الكتب الثقيلة بنسخ مختصرة وأخف وزنًا.
تقنية “two pointers” تعتبر تقنية مهمة في عالم تحليل البيانات وهي سؤال شائع في المقابلات الوظيفية، وفكرتها ببساطة تتمثل في عملية بحث فعالة داخل سلسلة أو مصفوفات لضمان عدم حدوث تصادم بين الزوجين أو النقطتين.
ورقة بحثية جديدة تناقش النماذج اللغوية الضخمة بوصفها مُحركات (compilers). طيب وش معنى الشي هذا؟
بيكون هناك إطار عمل اسمه “think and execute” وفقًا لما ورد في الورقة.
لما تطرح سؤال، راح يقوم بإنشاء pseudocode وبعدين يتم تنفيذه (execute).
ثريد 🧵
اليوم بنتكلم عن Adversarial Validation
تخيل ان عندك مودل وتبي تنشره وتسوي له deploy من اهم الاشياء الي لازم يتم تطبيقها وتعرف اذا المودل حقك بيصير كويس في ال production حلو إنك تطبق شي اسمه Adversarial Validation
الفرق بين +=و join في البايثون
خلو نبدا في +=
المثال الي في صورة يسوي سلسلة نصية جديدة لتحتوي عل نتيجة ويستخدم += يضيف سلسلة نصية ثانية لكن هذي مشكلة لانه يستهلك ذاكرة في كل مرة. يعني الان لو عندك كلمات كثيرة وفي كل تكرار راح يتم إنشاء سلاسل نصية مؤقتة وهذا يستهلك ذاكرة
يُعتبر الـ Gradient Descent من أفضل خوارزميات التحسين (optimization algorithms). تخيل أنك على تلة مغطاة بالضباب وأنت تنزل من التلة إلى الوادي أدناه. طبعاً في هذه الحالة، ماراح تنزل بشكل سريع لأن الضباب يحد من رؤيتك وقد تتعرض للسقوط والإصابة البليغة.
في ورقة بحثية تتحدث عن دمج Reinforcement learning مع النماذج اللغوية الكبيرة (LLM). هذا الدمج راح يجعل الLLM أكثر تفاعلية بسبب أن Reinforcement learning (RL) يعلم النماذج كيفية اتخاذ القرارات بناءً على التجربة والخطأ والتعلم من التفاعلات لتحقيق أهداف معينة من خلال feedback.
تختلف طريقة تسليم الأكواد من علماء البيانات إلى مهندسي تشغيل الآلة التعليمية (ML Ops) بشكل كبير.
المفترض والمعروف انه مايكون فيه تسليم بالاصل اذا الهدف هو التوسع والأتمتة
لكن انك توصل إلى المستوى هذا ماهو بالسهل. الي يصير ثلاث حالات عشان توصل للطريقة المثالية:
الان في حالة feature engineer الاغلب يعرف انك لما تبني موديل راح تحتاج في احد الخطوات تسوي شي اسمه feature engineer وهو باختصار انك تصنع features جديدة او تستخدم features موجودة في البيانات عشان تحسن الموديل عندك وترفع من دقته
MixTral من النماذج الكبيرة الي حاليا تنافس GPT ومميز جدا والي يميزه استخدامه Flash attention و sliding window attention وهذي اعطت MixTral المزايا الي بنتكلم عنها الان
@passionategirlN
صحيح والتركيز يكون على الاحصاء و probability جدا مهم
لان مع تطور AI وجالس يكوش على كل شي لكن الاحصاء و probability راح تساعدك في فهم البيانات شي حتى الان ماوصل له AI وهذا راح يخليك المميز
فيه مكتبة جدا مفيده تقدر تستخدمها لو بتسوي genAi مشروع.
الان نعرف فيه النماذج اللغوية الكبيره واغلبها اكون عباره عن تشات بوت تستخدم لما احاول تسوي تشات مع دوكمنت او غيرها من use cases
ثريد 🧵
فيه مكاتب في البايثون تعتبر standard library جاهزه للاستخدام مباشرة وميزة المكاتب هذي تغطي كثير من جوانب البرمجة المختلفة، من تلاعب بالملفات الى التعامل مع البيانات المعقدة من دون احتاج الى مكاتب خارجية.
في مؤتمر ليب، أُعلن عن افتتاح مركز بيانات جديد لأمازون في السعودية، وهذا خبر رائع جدًا. AWS SageMaker
وهذا خبر ممتاز لان AWS safemaker يتميز باشياء كثيرة
ورقة بحثية تتكلم عن اداة AutoCrawler راح تساعد في جمع البيانات الويب المتنوعة والمتغيرة للنماذج اللغوية الكبيرة
الي يميز AutoCrawler الاتمتة الي هي راح تستخدم منهجية من الأعلى الى الأسفل والعودة للخلف لصقل فهمه لمحتوى HTML
وبالاضافة الى تصحيح الأخطاء من خلال الرجوع
لو في المقابلة الان انه يبغاك تسوي churn يعني تشوف اذا اليوزر ما سوا login اخر ثلاثين يوم. التحدي هنا كيف راح تستخدم بيانات اليوزر ونشاطاته من ثلاث جداول
User signups
User Logins
User Information
Technical question
تخيل يجيك سؤال مثل هذا في المقابلة يبغاك تستخرج بيانات اليوزر بعد ٦٠ يوم من تسجيل اليوزر في الموقع عشان تعرف نشاطاته في اخر ٦٠ يوم وتحللها
البيانات في json format
ورقة بحثية تشير البحوث إلى أن أحدث LLMs مابعد وصل إلى مستوى المهارة الي يظهره البشر في مهام البرمجة المتعلقة بالفيزياء.
طبعا من خلال هندسة الطلاب اداء GPT-4 افضل من GPT-3
اليوم بنتكلم عن كيفية عمل البحث الدلالي (semantic search) والخطوات المتبعة فيه.
هذه المعرفة مهمة جدًا، خاصة في زمن النماذج اللغوية الكبيرة (LLM) والدردشات الآلية (chatbots). من المهم أن يكون لكل الشخص فهم واضح لهذه العمليات.
واحدة من معادلات الاحتمالات
(Probability) المستخدمة في تعلم الآلة (machine learning) تُعرف باسم الإنتروبيا (Entropy).
فكرتها تقوم على تقييم النقاء (purity) وعدم النقاء (impurity).
من مميزات AWS انه يوفر شي اسمه Elastic inference.
فايدة Elastic inference انه يوفر المرونة ان يتيح لك العدد المناسب من GPU في الموديل حقك في amazon sagemaker
فيه نموذج جديد “Mixtral of Experts” نموذج ذكاء اصطناعي جديد يتميز بكفاءته وسرعته العالية مقارنة بالنماذج اللغوية الكبيرة الأخرى مثل GPT-3. يعتمد هذا النموذج على نهج Mixtral of Experts، بمعنى انه يستخدم أجزاء مختلفة من النموذج لمهام مختلفة.
ثريد 🧵
في مجال الذكاء الاصطناعي، تعتبر عملية Embedding خطوة أساسية لفهم النصوص. هذي العملية تحول الكلمات إلى أرقام تخلي العملية اسهل على الكمبيوتر معالجتها. التحويل هذا يمكن النماذج من التعلم من النصوص وأداء مهام متعلقة باللغة. الآن بنتكلم عنها خطوة بخطوة وكيف تصير.
واحدة من معادلات الاحتمالات
(Probability) المستخدمة في تعلم الآلة (machine learning) تُعرف باسم الإنتروبيا (Entropy).
فكرتها تقوم على تقييم النقاء (purity) وعدم النقاء (impurity).
ثريد عن self attention
خلو ناخذ مثال الجملة هذي " قرأ الولد الكتاب في المكتبة "
الي بيصير الان طبعا بعد خطوات tokenization وال embedding تكلمت عنها سابقا
الفرق بين One-Hot Encoding و Label Encoding
اول شي راح نبدا مع One-Hot Encoding
يحول كل مستوى تصنيفي إلى متغير ثنائي جديد (0 أو 1).
متى يستخدم؟
. يستخدم لما يكون عندك في قيم تصنيفية مثل الألوان، أسماء المدن
LLM tokenizer مهم جدا ويساعد في تجنب مشاكل كثيره مثل الهلوسة وغيرها
في المدونة هذي شرحتها بالتفصيل كيف تسوي tokenizer في النماذج اللغوية الكبيرة وباللغة العربية
فيه مشكلة في التعلم الالي اسمها data leakage وهذا الشي يصير لما الموديل يحصل على معلومات مفترض انه مايوصل لها خلال مرحلة التدريب يعني مثل بيانات الاختبار
لا تحمل هم رزقك أو كيفية وصوله إليك، فقد أخبرنا الله سبحانه وتعالى بأن الرزق مقدر ومكتوب بيده، فقال تعالى: ﴿وَفِي السَّمَاءِ رِزْقُكُمْ وَمَا تُوعَدُونَ﴾، مما يعني أن كل ما هو خير لنا في الدنيا وما وُعدنا به في الآخرة محفوظ ومضمون بأمره.
مثال بسيط في الذكاء الاصطناعي في الأمن السيبراني ، يمكن للباحث استخدام NLP لبناء مضاد للفيروسات باستخدام HEX لاكتشاف العينات المتشابهه. على سبيل المثال ، يمكن يكون فيه نموذج A ثم يضيفون MD5 / SHA-256. طيب لو كان هناك تغيير في الملف أو نسخة أخرى؟
ال Class imbalance في #تعلم_الآلة
تخيل أن عندك مجموعة من الأطفال في فصل دراسي ولازم تختار قائد للفصل. إذا اخترنا القائد فقط لأن أغلب الأطفال يحبون الألعاب الرياضية وهو يحبها أيضًا، احتمال نختار القائد الأفضل إذا كان هناك طفل آخر يحب العلوم ولديه مهارات قيادية جيدة.
غرض التضمين (embedding): تمثل هذي التضمينات (embeddings) الكلمات بطريقة تسمح للنموذج (model) بمعالجتها، بحيث تلتقط معنى كل كلمة بشكل رقمي. يعني الكلمة تتحول الى vector بشكل رقمي عشان الكمبيوتر يفهمها
Bagging
فكر في ال bagging كانك تقوم بإنشاء فريق بحيث تشوف كل عضو (model) إلى جزء مختلف من المشكلة (البيانات). كل عضو في الفريق يتخذ قراره الخاص، ثم يصوت الفريق عشان يوصل إلى قرار نهائي. طبعا يتم تدريب ال models بطريقه parallel processing
بحيث كل model يتم تدريبه بشكل فردي
ثريد 🧵
اليوم بنتكلم باختصار عن نموذج Transformer، باستخدام الجملة “أنا أحب الذكاء الاصطناعي” بطريقة بسيطة.
مهم جدا فهم Transforner خصوصا مع تطور النماذج اللغوية الكبيره مثل Chatgpt وغيرها
لما تبني مشروع generative AI خل نقول مثال تبي تستخدم open source LLM وتبني chatbot غالبا ماراح تعاني من مشكلة ال hallucination وهي ان راح يعطيك جواب يختلف عن السؤال الي سالته.
تحت احد افضل الطرق والابحاث لتخفيف مشكله الهلوسة:
ثريد 🧵
الترتيب (Sort) شيء مهم جدًا في عالم البيانات وتحليلها. لما تقوم بعملية الترتيب بشكل صحيح في بياناتك، هذا بيحسن أداءها واسترجاعها ويجعل تحليلها أبسط.
#GenerativeAI