Dạ thưa thầy, em xin phép hỏi khi nào mình cần chọn dạng chuẩn hóa hợp lý ạ, liệu 1 dạng chuẩn hóa có thể áp dụng cho tất cả các thuộc tính của dữ liệu không ạ
Dạ thầy cho em hỏi là sao mình chỉ chuẩn hóa thuộc tính income mà không chuẩn hóa thuộc tính age ạ ? vì em thấy thuộc age cũng lớn nên em chưa hiểu. Em cảm ơn thầy nhiều ạ
Dạ em chào thầy, thầy có thể cho em hỏi là tại sao mình cần chuẩn hóa thuộc tính mean = 0 và std = 1 ạ ? Em có nghe về nó khi thầy đang giảng đến chuẩn hóa giá trị thuộc tính nhưng em vẫn chưa hình dung được ạ. Em cảm ơn thầy ạ
Chào em. Nếu mình không chuẩn hoá thì các thuộc tính sẽ có mean và std rất khác nhau. Điều này có thể tạo ra vài hệ quả không mong muốn, và không mô tả bản chất của không gian dữ liệu. Bài về KNN có ví dụ đó em. Nếu thuộc tính A thường nhận giá trị trong khoảng [10K, 100K], trong khi thuộc tính B thường có giá trị thuộc [0, 1], thì thuộc tính A sẽ lấn át B khi tính toán khoảng cách trong KNN và B sẽ có vai trò rất yếu đối với KNN. Tuy nhiên bản chất chưa chắc đã như thế, B có thể rất quan trọng. Cho nên chuẩn hoá sẽ giúp các thuộc tính có vai trò tương đương nhau. Nó có thể phù hợp khi ta dùng phương pháp học máy nào đó mà dễ nhạy cảm với độ lớn của miền giá trị đầu vào. Chú ý: đôi khi chuẩn hoá sẽ phù hợp. Nhưng đôi khi nó có thể làm mất thông tin hoặc phá vỡ bản chất của không gian dữ liệu. Nên khi em dùng thì cần kiểm tra chất lượng của các pp khác nhau, đối với bài toán của em.
Dạ thầy ơi, em đọc trên mạng thì thấy hàm cost bao quát (hàm loss nằm trong hàm cost) vậy thì mình nên sử dụng hàm cost hay loss để hiệu quả bài toán hồi quy hơn vậy thây, em xin cảm ơn thầy ạ.
Chào em, có thể một vài nơi viết dễ gây nhầm lẫn về cost và loss. Em hãy xem trong link sau để phân biệt được hai thứ đó nhé. users.soict.hust.edu.vn/khoattq/lectures/cost-loss.png Hàm c(y,y^) trong đó đôi khi ng ta gọi là cost. Ng ta chỉ nói đến việc dùng hàm Loss để đo đạc lỗi và tạo hàm mục tiêu cho việc huấn luyện. Cho nên em hãy chọn và so sánh các hàm loss với nhau.
Thầy ơi cho e hỏi là, sắp tới đây e có làm đồ án về linear regression. Không biết là khi làm xong đến phương pháp OLS này có cần phải sử dụng 2 phương pháp Ridge hay Lasso k ạ, mong thầy trả lời ạ. Em xin cảm ơn thầy
thầy ơi cho em hỏi là ở rừng ngẫu nhiên có giới hạn bao nhiêu cây không ạ. Và nếu chọn cây ngẫu nhiên từ tập D thì có bao giờ sẽ có 2 cây giống nhau hoàn toàn không ạ và nó có ảnh hưởng gì đến tính tối ưu không ạ
Em chỉ cần biết kiến thức cơ bản của mấy môn đó là có thể hiểu bài giảng. Coding là cần thiết nếu em muốn dùng đc ML. Đôi khi chỉ cần biết code cơ bản.
Bài giảng của thầy rất hay, lý thuyết rất kỹ nhưng liệu ở các phần ví dụ sau khi đưa ra các phương pháp giải thầy có thể làm mẫu các bước tìm ra được hàm thay vì đưa kết quả được không ạ. Vì đôi khi làm theo thì các trọng số của e lại khác với của thầy
@@thanquangkhoat4070 e học bách khoa, ngành cơ điện tử. Bên e thầy chỉ làm theo phương pháp ma trận còn bài này e làm đối vs 4 dayx dữ liệu thôi á thầy
Em chào thầy ạ, thầy cho em hỏi bản chất của việc chuẩn hóa dữ liệu các thuộc tính về 1 miền giá trị tại sao đôi khi lại đem lại hiệu quả cho mô hình tốt hơn ạ? Thêm nữa thầy cho em hỏi là có phương pháp nào để đánh giá phương pháp mình tiền xử lý là phù hợp và đối với những bài toán như nào để mình nhận ra nên tiền xử lí theo phương pháp nào hay tất cả là dựa trên kinh nghiệm ạ?
Chào em. 1. "chuẩn hóa dữ liệu các thuộc tính về 1 miền giá trị tại sao đôi khi lại đem lại hiệu quả"? Em có thể tham khảo thêm giải thích từ Bài giảng 6 về KNN (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-gHavNvEZyf4.html). Miền giá trị của 1 thuộc tính A mà quá lớn thì có thể lấn át "một cách thơ ngây" các thuộc tính khác, mà chưa chắc A đã thực sự có vai trò quan trọng trong bài toán ấy. 2. "đánh giá phương pháp mình tiền xử lý là phù hợp"? Câu hỏi rất thực tế. Em hãy nhớ lại Định lý No-Free-Lunch. Để đánh giá hiệu quả của các phương pháp tiền xử lý khác nhau, em có thể tham khảo bài giảng về Đánh giá hiệu quả của mô hình (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-ujDDwR2GZZM.html). Mỗi cách tiền xử lý khác nhau có thể tạo ra 1 mô hình ML khác nhau.
em thưa thầy, em không phải là học sinh của thầy. Nhưng em thấy thầy giảng dễ hiểu quá và em cũng rất đam mê machine learning nên em rất mong được thầy đăng các video bài giảng của thầy ạ để bọn em, những sinh viên không học ở những môi trường tuyệt vời như Bách Khoa Hà nội có cơ hội tiếp cận mảng này 1 cách đơn giản ạ. em cảm ơn thầy rất nhiều
Nói chung sự chấp nhận máy chủ tượng hình phong thủy ký hiệu biểu tượng triết lý toán lý hoá sinh và thuật vẽ kỹ thuật mô hình và quí vị đặt vào mạch bo mạch với đan xen tương ưng dự toán đám mây cảm biến màn hình câu lệnh ứng dụng ngành nghề tâm bệnh bằng tâm sinh lý máy sẽ có kết quả dự đoàn bát kỳ loại hình nào bao gồm quí vị dang tính toán đạo hàm đơn giản là đủ bí quyết trương sinh tính toán được.thực tế tâm bệnh thuộc biết cách hay không đó là ở kinh nghiệm chứ chỉ quí vị cũng ko hiểu được nó thuộc cá nhân để xem mấy ổng thành phật thế nào hóc búa hỏi bất chợt biết ngay tu tập tới đâu rất tiếc bảng phong thần mới có hai vị thôi thấy viêtteeu RU-vid luyện ba game đúng tào lao nằm mơ chưa hỉnh thành được cách nhân hoá nhân vật thần truyện thôi chứ không đạt nếu Huyền bỏ photo quí vị tự nói là không cần liên mạch nhưng phong cách của tôi máy tính chủ đã nhận ra phon cách còn lại miễn pholo cũng bị đơ thôi đẻ xem bực đập bỏ máy dt xuống suối cho nên máy tính với dt một bộ nếu tôi vứt thì máy khác cũng đứng tới đấy mà thôi ngầu nhiên máy thuật nội dung trùng khớp ở nên tảng nào đấy vd CC DD hai hàm số thuật viết tắt còn con trợ lý khuyết tật nge ko rõ cả tỷ kiếp nó cũng sính ra khuyết tật thôi tâm linh 12 năm Huyền phán cho nghiệp ổng thầy nào tự lãnh lấy khoa học công nghệ tôi bị lãnh xui sẻo trời đất làm cho ra lẽ ko
Câu hỏi này của em liên quan đến kết quả thu được của người học và yêu cầu của công ty tuyển dụng, nên mình chưa nói được gì. Theo mình, nếu em đã nắm rõ các kiến thức căn bản trong khoá học + thực hành thành thạo các mô hình và vận dụng tốt các mô hình ML thì có thể dễ tìm chỗ thực tập.
Thưa thầy, nếu có sự chênh lệch khá lớn về đơn vị đo giữa các Xj, Zj vậy chúng ta dùng mỗi Xj, Zj để chia cho tổng chung của X, Z (kết quả của mỗi Xj, Zj mới sẽ chạy từ 0->1). Lúc đó chúng ta tính khoảng các dựa trên các tỉ lệ mới không có sự chênh lệch về đơn vị đo nữa, liệu giải pháp này có tốt hơn không ạ?
@@thuytien5846 Nếu mình không hiểu nhầm thì Efficient linear method này cũng dùng mô hình tuyến tính. Tuy nhiên cách dùng tại bước phân loại thì hơi khác ==> hàm phân loại có dạng piece-wise linear.
bài giảng của thầy rất bổ ích ạ. nhân đây thầy cho em hỏi với ạ series này sẽ vẫn còn được thầy ra tiếp đúng không ạ? em cảm ơn thầy
Chào em. K-means và K-NN thường dùng cho các bài toán khác nhau. Ví dụ K-means dùng cho clustering (thuộc nhóm unsupervised learning), còn k-NN thường dùng cho supervised learning. Mình chưa biết so sánh trực tiếp thế nào. Có thể không so sánh dc.