Lĩnh số 2 nhỏ nhất của đường cong tuyến tính

Tác giả:Giấc mơ nhỏ, Tạo: 2016-12-18 11:36:26, Cập nhật: 2016-12-18 11:41:31

Lĩnh số 2 nhỏ nhất của đường cong tuyến tính


  • Một, giới thiệu

    Trong thời gian này, tôi học máy đánh giá, học thuật đánh giá, học thuật quay ngược Logistic của chương 5, cảm thấy khá khó khăn. Tôi bắt đầu theo dõi nguồn gốc, từ quay ngược Logistic của quay ngược đến quay ngược tuyến tính của quay ngược, và sau đó đến quay ngược tối thiểu hai lần. Cuối cùng, tôi đã định dạng vào quay ngược toán học cao cấp (phiên bản thứ sáu, sách dưới). Lớp xấp xỉ hai là một cách thực hiện để xây dựng công thức kinh nghiệm trong các vấn đề tối ưu hóa. Hiểu được cách thức của nó sẽ rất hữu ích để hiểu về các lồng học về lồng Logistic regression và lồng học hỗ trợ máy vector.

  • 2. Kiến thức về nền tảng

    Lịch sử về sự xuất hiện của con số 2 nhân con số 2 là rất thú vị.

    Vào năm 1801, nhà thiên văn học người Ý Giuseppe Piazzi phát hiện ra tiểu hành tinh đầu tiên là Thiên Tần Thung lũng. Sau 40 ngày theo dõi, Piazzi bị mất vị trí vì Thiên Tạng chạy phía sau Mặt Trời. Sau đó, các nhà khoa học trên toàn thế giới đã sử dụng dữ liệu quan sát của Piazzi để tìm kiếm Thiên Tạng Thung lũng, nhưng không có kết quả nào theo kết quả của hầu hết mọi người.

    Phương pháp của Gauss được công bố vào năm 1809 trong tác phẩm của ông về các động thái của các vật thể, và nhà khoa học người Pháp Le Jeannard đã độc lập phát hiện ra các phép nhân hai lần tối thiểu của Gauss vào năm 1806, nhưng không được biết đến. Hai người đã tranh cãi về việc ai là người đầu tiên thành lập nguyên tắc nhân hai lần tối thiểu.

    Năm 1829, Gauss cung cấp bằng chứng cho thấy hiệu quả tối ưu hóa của phương pháp nhân hai tối thiểu mạnh hơn các phương pháp khác, xem định lý Gauss-Markov.

  • 3. Sử dụng kiến thức

    Trung tâm của các con số là đảm bảo các đường lệch của tất cả các dữ liệu là vuông và vuông nhỏ nhất.

    Giả sử chúng ta thu thập dữ liệu về chiều dài và chiều rộng của một số tàu chiến.

    img

    Dựa trên dữ liệu này, chúng tôi đã vẽ một biểu đồ điểm phân tán bằng Python:

    img

    Có một số hình ảnh được tạo ra bởi các nhà văn và nhà văn.

    import numpy as np                # -*- coding: utf-8 -*
    import os
    import matplotlib.pyplot as plt
    def drawScatterDiagram(fileName): # 改变工作路径到数据文件存放的地方
        os.chdir("d:/workspace_ml")
        xcord=[];ycord=[]
        fr=open(fileName)
        for line in fr.readlines():
            lineArr=line.strip().split()
            xcord.append(float(lineArr[1]));ycord.append(float(lineArr[2]))
        plt.scatter(xcord,ycord,s=30,c='red',marker='s')
        plt.show()
    

    Nếu chúng ta lấy hai điểm đầu tiên của 238, 32, 4, 152, 15, 5 thì chúng ta có 2 phương trình. 152a+b=15,5 328a + b = 32.4 Và chúng ta sẽ giải được hai phương trình này bằng cách a = 0.197, b = -14.48. Nếu chúng ta có thể tạo ra một biểu đồ tương tự như thế này:

    img

    Được rồi, đây là một câu hỏi mới, a, b là tối ưu nhất? Nói cách chuyên nghiệp là: a, b là tham số tối ưu nhất của mô hình?

    Câu trả lời là: đảm bảo các đường vuông và đường vuông của tất cả các dữ liệu. Về nguyên tắc, chúng ta sẽ nói về sau đây, trước tiên hãy xem cách sử dụng công cụ này để tính toán tốt nhất a và b. Giả sử các đường vuông của tất cả các dữ liệu là M,

    img

    Bây giờ chúng ta cần làm cho M nhỏ nhất a và b.

    Thực tế thì phương trình này là một hàm nhị phân với a, b là tự biến và M là hàm do biến.

    Hãy nhớ lại cách mà các hàm đơn trong số cao có giá trị cực. Chúng ta sử dụng công cụ dẫn xuất. Vậy trong hàm nhị phân, chúng ta vẫn sử dụng dẫn xuất. Và chúng ta có một tập hợp các phương trình bằng cách tìm các biến số đối với M.

    img

    Trong hai phương trình này, xi và yi đều được biết.

    Vì vậy, tôi đã vẽ một hình ảnh phù hợp với câu trả lời trực tiếp bằng cách sử dụng dữ liệu từ Wikipedia:

    img

    # -*- coding: utf-8 -*importnumpy as npimportosimportmatplotlib.pyplot as pltdefdrawScatterDiagram(fileName):
    # 改变工作路径到数据文件存放的地方os.chdir("d:/workspace_ml")xcord=[];
    # ycord=[]fr=open(fileName)forline infr.readlines():lineArr=line.strip().split()xcord.append(float(lineArr[1]));
    # ycord.append(float(lineArr[2]))plt.scatter(xcord,ycord,s=30,c='red',marker='s')
    # a=0.1965;b=-14.486a=0.1612;b=-8.6394x=np.arange(90.0,250.0,0.1)y=a*x+bplt.plot(x,y)plt.show()
    # -*- coding: utf-8 -*
    import numpy as np
    import os
    import matplotlib.pyplot as plt
    def drawScatterDiagram(fileName):
        #改变工作路径到数据文件存放的地方
        os.chdir("d:/workspace_ml")
        xcord=[];ycord=[]
        fr=open(fileName)
        for line in fr.readlines():
            lineArr=line.strip().split()
            xcord.append(float(lineArr[1]));ycord.append(float(lineArr[2]))
        plt.scatter(xcord,ycord,s=30,c='red',marker='s')
        #a=0.1965;b=-14.486
        a=0.1612;b=-8.6394
        x=np.arange(90.0,250.0,0.1)
        y=a*x+b
        plt.plot(x,y)
        plt.show()
    
  • Bốn, tìm hiểu về nguyên tắc

    Tại sao trong một mô hình kết hợp dữ liệu, bạn nên tính toán tỷ lệ chênh lệch giữa dữ liệu dự đoán của mô hình và dữ liệu thực, không phải là giá trị tuyệt đối và tối thiểu để tối ưu hóa các tham số của mô hình?

    Câu hỏi này đã được trả lời, xem liên kết.http://blog.sciencenet.cn/blog-430956-621997.html

    Cá nhân tôi cảm thấy lời giải thích này rất thú vị. Đặc biệt là giả định trong đó: tất cả các điểm sai lệch của f (x) đều có tiếng ồn.

    Sự lệch của một điểm càng xa cho thấy mức độ nhiễu càng lớn, khả năng xảy ra của điểm càng nhỏ. Vậy mức độ lệch x đáp ứng với khả năng xảy ra của f (x) là gì?

    img

    img

  • 5 - Tăng cường và mở rộng

    Những trường hợp trên đều là hai chiều, nghĩa là chỉ có một tự biến. Nhưng trong thế giới thực, kết quả cuối cùng được ảnh hưởng bởi sự chồng chất của nhiều yếu tố, nghĩa là sẽ có nhiều trường hợp tự biến.

    Đối với các hàm siêu tuyến tính thông thường N, tìm kiếm một ma trận ngược trong chuỗi algebra tuyến tính là OK; vì không tìm thấy một ví dụ thích hợp trong thời gian này, nó được giữ ở đây như một dẫn.

    Dĩ nhiên, thiên nhiên là nhiều hơn so với sự phù hợp đa dạng, không đơn giản tuyến tính, đó là nội dung cao cấp hơn.

  • Tài liệu tham khảo

Các tác phẩm gốc, cho phép sao chép, khi sao chép, hãy chắc chắn để đánh dấu bài viết trong hình thức siêu liên kết nguồn gốc ban đầu, thông tin tác giả và tuyên bố này; nếu không sẽ theo đuổi trách nhiệm pháp lý.http://sbp810050504.blog.51cto.com/2799422/1269572


Thêm nữa