Machine Learning Algorithm ที่ใช้บ่อยๆ

2 min read2 days ago

MATLAB BKK CENTER

Random Forest

Random Forest เป็นอัลกอริทึ่มที่พัฒนาต่อยอดจากอัลกอริทึ่มพื้นฐานอย่าง Decision Tree ที่มีการใช้ต้นไม้ในการตัดสินใจ โดยในการสร้างต้นไม้ที่ใช้ในการตัดสินใจขึ้นนั้น จะอาศัยหลักการสร้างกฏสำหรับการแบ่งต้นไม้ออกเป็นกิ่งๆ และจัดให้ข้อมูลที่มีเงื่อนไขตรงตามที่กำหนดถูกจัดอยู่ในใบของแต่ละกิ่งที่ได้รับการแบ่งข้างต้น

Decision Trees

เป็น model แบบ rule-based คือ สร้างกฎ if-else จากค่าของแต่ละ feature โดยไม่มีสมการมากำกับความสัมพันธ์ระหว่าง feature & target

Gradient Boosting Machine (GBM)

เริ่มต้นด้วยการฝึกฝนแบบจำลองแผนผังการตัดสินใจและกำหนดน้ำหนักที่เท่ากันให้กับการสังเกตทุกครั้ง หลังจากต้นไม้ต้นแรกได้รับการประเมินความถูกต้องแล้ว น้ำหนักสำหรับการสังเกตต่างๆ จะถูกปรับ การสังเกตที่จำแนกได้ง่ายมีน้ำหนักลดลง ในขณะที่การสังเกตที่จำแนกได้ยากจะมีน้ำหนักเพิ่มขึ้น ต้นไม้ต้นที่สองถูกสร้างขึ้นโดยใช้น้ำหนักที่ปรับแล้ว โดยมีจุดประสงค์เพื่อให้การคาดคะเนของต้นไม้ต้นที่สองมีความแม่นยำมากกว่าการคาดคะเนของต้นไม้ต้นแรก

K-Means Clustering

วิธีการหนึ่งใน Data mining อยู่ในกลุ่มของ Unsupervised Learning หรือแปลตรงๆคือการเรียนรู้แบบไม่ต้องสอน (Supervised Learning ต้องสอนก่อนต้องจับ Train และต้อง Test เป็นต้น) โดยหน้าที่หลักของ K-means คือการแบ่งกลุ่ม แบบ Clustering ซึ่งการแบ่งกลุ่มในลักษณะนี้จะใช้พื้นฐานทางสถิติ ซึ่งแน่นอนว่าต้องมีตัวเลขประกอบ อย่างน้อย 2 ตัวแปรขึ้นไป

K-Nearest Neighbors (KNN)

ป็นวิธีการแบ่งคลาสสำหรับใช้จัดหมวดหมู่ข้อมูล (Classification) โดยมีหลักการนำข้อมูลอื่นๆมาเปรียบเทียบกับตัวข้อมูลที่สนใจ ว่ามีความใกล้เคียงกันมากแค่ไหน

Naive Bayes

ารแบ่งกลุ่มที่เราต้องการโดยใช้ความน่าจะเป็นที่ชื่อว่า Naive bayes ยกตัวอย่างเช่น เราต้องการแบ่งกลุ่มว่าคนไข้ที่เข้ามานั้นเป็นไข้หวัดใหญ่หรือไม่ ซึ่งเราจะต้องถามอาการคนไข้มาให้ได้มากที่สุดว่าอาการเป็นอย่างไร แล้วเราถึงจะคาดคะเนจากข้อมูลอาการที่ได้ว่ามีความน่าจะเป็น ไข้หวัดใหญ่เท่าไหร่ เช่นความน่าจะเป็น 95% เป็นต้น ซึ่งความน่าจะเป็นดังกล่าว เราจะใช้ Naive Bayes ในการหาค่าความน่าจะเป็นนั่นเอง

Logistic Regression

คือโมเดลที่ต่อยอดมาจากสมการ Linear Equation เนื่องจากสมการเส้นตรงหรือ Linear Regression ไม่สามารถแก้ไขปัญหาบางอย่างได้

ยกตัวอย่างเช่น ถ้าหากเราถามคำถามกับผู้คนในห้องสมุดว่าเขาใช้เวลาในการอ่านหนังสือมาแล้วเท่าไหร่ (X) จากกลุ่มตัวอย่าง 5 คน และเราไปถามคำถามเขาเพิ่มว่า ณ ตอนนี้เขาต้องการพักหรือไม่?

Support Vector Machine (SVM)

เป็น Linear Classifier แบบ Binary (แบ่งแยกข้อมูลได้ 2 ประเภท) ข้อได้เปรียบของ SVM คือมีประสิทธิภาพในการจำแนกข้อมูลที่มีมิติจำนวนมากได้ นอกจากนี้การใช้ฟังก์ชันเคอร์เนล (Kernel Function) ยังช่วยให้สามารถจำแนกข้อมูลที่มีความคลุมเครือได้อย่างมีประสิทธิภาพ หลักการของ SVM คือการหา Hyperplane ทีที่สามารถแบ่งจุดข้อมูลออกเป็น 2 Class ด้วยระยะห่างที่มากที่สุด (Maximum Margin)

Regression

ป็นเทคนิคทางสถิติที่จะนำข้อมูลที่เก็บไว้ในอดีตมาทำนายแนวโน้มข้อมูลที่จะเกิดขึ้นในอนาคต (Prediction/Forecasting) โดยใช้รูปแบบสมการเชิงเส้น (Linear)

เราสามารถติดตามหรือหากมีความสนใจ สามารถลงทะเบียนได้ใน Course Data Science Roadmap ซึ่งอบรมออนไลน์ 8 สัปดาห์ เรียนว่าเจาะลึกพร้อมตัวอย่างการประยุกต์ใช้ สามารถติดต่อสอบถามไปทาง Admin Facebook Page :(20) Matlab bkk center | Facebook

สามารถติดตามเนื้อหาความรู้ต่างๆ โดยเฉพาะการใช้ประยุกต์ใช้กับโปรแกรม Matlab ได้ที่ Facebook Page :(20) Matlab bkk center | Facebook

#กำลังเปิดรับลงทะเบียน

Machine Learning for #Predictive #Maintenance Course

NEURAL NETWORK AND DEEP LEARNING COMPLETE COURSE :

ใครอยากเรียนรู้จากตัวอย่างการ Apply จาก #ProjectMachinelearning ต้องไม่พลาด

#Matlab Code ร่วมแชร์ความรู้ สาระผ่านกลุ่ม ->

(กลุ่ม Facebook Matlab Bkk AI & Data science & Other Classroom)>

https://web.facebook.com/groups/403881684322230/

#matlabbkk

#datascience

#MachineLearning

#รับเขียนโปรแกรมMatlab #ทุกApplication