Phân tích Khung học tập liên kết

特邀专栏作者

2021-09-16 10:39

Bài viết này có khoảng 12257 từ, đọc toàn bộ bài viết mất khoảng 18 phút

Điểm lại bài toán liên kết học Như đã đề cập ở trên, vào năm 2016, Google đã đề xuất một phương pháp mới để đào tạo mô hình phương thức nhập liệu, được gọi là "học liên kết". T

【Lời nói đầu】

▲ Điểm lại bài toán học liên kết Như đã đề cập ở trên, vào năm 2016, Google đã đề xuất một phương pháp mới để đào tạo mô hình phương thức nhập liệu, được gọi là "học liên kết". Thời gian trôi qua, học tập liên kết không còn là một giải pháp đơn giản cho mô hình phương thức nhập liệu của Google và một mô hình học tập mới đã được hình thành. Vấn đề được giải quyết bằng cách học liên kết thường được gọi là TMMPP--Đào tạo Mô hình học máy qua nhiều nguồn dữ liệu với Quyền riêng tư, nghĩa là cùng hoàn thành việc đào tạo một mô hình định trước trong khi đảm bảo rằng dữ liệu của nhiều người tham gia không bị rò rỉ. Trong bài toán TMMPP được giải bằng cách học liên kết, n khối dữ liệu (Bộ điều khiển dữ liệu) {D1, D2,...Dn} được bao gồm và mỗi khối dữ liệu tương ứng với n dữ liệu {P1, P2,... Pn}. Từ góc độ của chế độ đào tạo của học liên kết, sau khi chọn thuật toán học liên kết cần được đào tạo, cần cung cấp đầu vào tương ứng cho việc học liên kết và cuối cùng thu được đầu ra sau khi đào tạo.

Đầu vào của quá trình học liên kết (Input): Mỗi bên dữ liệu sử dụng dữ liệu gốc Di do Pi sở hữu làm đầu vào của mô hình chung và nhập dữ liệu đó vào quá trình học liên kết.

Đầu ra của học liên kết (Output): Kết hợp dữ liệu của tất cả các bên tham gia và huấn luyện liên kết mô hình toàn cầu M (trong quá trình huấn luyện, không có thông tin nào về dữ liệu gốc của bất kỳ bên dữ liệu nào được tiết lộ cho các thực thể khác).

▲ Những thách thức gặp phải trong học tập liên kết

Công nghệ học tập liên kết vẫn đang được cải tiến liên tục. Trong quá trình phát triển, học tập liên kết sẽ gặp phải ba thách thức lớn, đó là thách thức về thống kê, thách thức về hiệu quả và thách thức về bảo mật.

[Thách thức thống kê] Thách thức thống kê là những thách thức gây ra bởi sự khác biệt trong phân phối hoặc lượng dữ liệu của những người dùng khác nhau trong quá trình thực hiện học tập liên kết;

a) Dữ liệu không độc lập và được phân phối giống hệt nhau (dữ liệu Non-IID), tức là dữ liệu của những người dùng khác nhau được phân phối không độc lập và có sự khác biệt về phân phối rõ ràng. Ví dụ: Bên A có dữ liệu trồng lúa ở miền bắc Trung Quốc, trong khi Bên B có dữ liệu trồng lúa ở miền nam Trung Quốc Dữ liệu, do ảnh hưởng của vĩ độ, khí hậu, nhân văn, v.v., dữ liệu của cả hai bên không được phân phối giống nhau;

b) Dữ liệu không cân bằng (Unbalanced data), tức là có sự khác biệt rõ rệt về lượng dữ liệu của người dùng, chẳng hạn một công ty khổng lồ nắm giữ gần chục triệu dữ liệu, trong khi một công ty nhỏ chỉ nắm giữ vài chục nghìn mẩu dữ liệu. dữ liệu. Tác động của dữ liệu đối với các công ty khổng lồ là rất nhỏ và rất khó để đóng góp vào việc đào tạo mô hình.

[Thách thức về hiệu quả] Thách thức về hiệu quả đề cập đến những thách thức do mức tiêu thụ điện toán và giao tiếp cục bộ của từng nút trong học tập liên kết;

a) Chi phí liên lạc, nghĩa là liên lạc giữa các nút người dùng (người tham gia), thường đề cập đến lượng dữ liệu được truyền giữa mỗi người dùng với tiền đề băng thông hạn chế, lượng dữ liệu càng lớn thì tổn thất liên lạc càng cao;

b) Độ phức tạp tính toán, tức là độ phức tạp tính toán dựa trên giao thức mã hóa cơ bản, thường đề cập đến độ phức tạp thời gian của phép tính giao thức mã hóa cơ bản, logic tính toán của thuật toán càng phức tạp thì càng mất nhiều thời gian.

[Thách thức bảo mật] Thách thức bảo mật đề cập đến những thách thức như bẻ khóa và đầu độc thông tin do những người dùng khác nhau sử dụng các phương pháp tấn công khác nhau gây ra trong quá trình học tập liên kết;

a) Mô hình bán trung thực, nghĩa là mỗi người dùng thực hiện trung thực tất cả các giao thức trong học tập liên kết, nhưng sử dụng thông tin thu được để cố gắng phân tích và đẩy lùi dữ liệu của người khác;

b) Mô hình độc hại, tức là có những khách hàng không tuân thủ nghiêm ngặt thỏa thuận giữa các nút và có thể đầu độc dữ liệu gốc hoặc dữ liệu trung gian để phá hủy quá trình học liên kết.

[Khuôn khổ chung cho học tập liên kết]

Đối mặt với ba thách thức trên, cộng đồng học thuật đã tiến hành nghiên cứu mục tiêu và đề xuất nhiều khung học tập liên kết hiệu quả và chuyên dụng nhằm tối ưu hóa quy trình đào tạo học tập liên kết. Chúng tôi giới thiệu ngắn gọn các khuôn khổ dưới đây.

Học liên kết 1.0 – Học liên kết truyền thống

Trước hết, hãy giải thích lại khái niệm và nguyên tắc của học liên kết: có một số người tham gia và cộng tác viên cùng thực hiện các nhiệm vụ học liên kết và những người tham gia (nghĩa là chủ sở hữu dữ liệu) tạo dữ liệu trung gian tương tự như độ dốc thông qua các thuật toán học liên kết được đặt trước , bàn giao cho điều phối viên xử lý tiếp, sau đó trả lại cho từng học viên để chuẩn bị cho đợt huấn luyện tiếp theo.

Lặp đi lặp lại, nhiệm vụ học tập liên kết được hoàn thành. Trong suốt nhiệm vụ, dữ liệu cục bộ của những người tham gia không được trao đổi trong mỗi khung FL, nhưng các tham số (chẳng hạn như độ dốc) được truyền giữa điều phối viên và những người tham gia có thể làm rò rỉ thông tin nhạy cảm.

Để bảo vệ dữ liệu cục bộ của chủ sở hữu dữ liệu không bị rò rỉ và bảo vệ quyền riêng tư của dữ liệu trung gian trong quá trình đào tạo, một số kỹ thuật quyền riêng tư được áp dụng trong khuôn khổ FL để trao đổi thông số một cách riêng tư khi người tham gia tương tác với điều phối viên. Ngoài ra, từ góc độ của cơ chế bảo vệ quyền riêng tư được sử dụng trong khung FL, khung FL được chia thành:

1) Khung học tập liên kết không mã hóa (nghĩa là không có thông tin nào được mã hóa);

2) Khung học tập liên kết dựa trên quyền riêng tư khác biệt (dùng quyền riêng tư khác biệt để gây nhầm lẫn và mã hóa thông tin);

3) Khung học tập liên kết dựa trên điện toán đa bên an toàn (sử dụng điện toán đa bên an toàn để mã hóa thông tin);

▲ Khung học tập liên kết không mã hóa

Nhiều khung FL tập trung vào việc cải thiện hiệu quả hoặc giải quyết các thách thức về tính không đồng nhất thống kê, trong khi bỏ qua các rủi ro tiềm ẩn do trao đổi các tham số văn bản gốc.

Vào năm 2015, FedCS[3], một khung điện toán cạnh di động dành cho máy học do Nishio và cộng sự đề xuất, có thể thực thi FL một cách nhanh chóng và hiệu quả dựa trên cài đặt của các chủ sở hữu dữ liệu không đồng nhất.

Vào năm 2017, Smith và cộng sự đã đề xuất một khung tối ưu hóa nhận biết hệ thống có tên MOCHA[2], kết hợp FL với học tập đa tác vụ và sử dụng học tập đa tác vụ để giải quyết các thách thức thống kê. bởi sự khác biệt về khối lượng dữ liệu.

Trong cùng năm đó, Liang và cộng sự đã đề xuất LG-FEDAVG [4] kết hợp với việc học đại diện địa phương. Chúng cho thấy rằng các mô hình cục bộ có thể xử lý dữ liệu không đồng nhất tốt hơn và học hiệu quả các biểu diễn hợp lý, làm xáo trộn các thuộc tính được bảo vệ.

Như thể hiện trong hình bên dưới: quy trình học liên kết hoàn toàn không mã hóa bất kỳ dữ liệu trung gian nào và tất cả dữ liệu trung gian (chẳng hạn như độ dốc) được truyền và tính toán ở dạng văn bản thuần túy. Thông qua các phương pháp trên, những người tham gia cuối cùng học cùng nhau để có được một mô hình học liên kết.

▲ Khung học tập liên kết dựa trên quyền riêng tư khác biệt

Quyền riêng tư khác biệt (DP) là một kỹ thuật quyền riêng tư [5-7] với sự đảm bảo lý thuyết thông tin mạnh mẽ để thêm nhiễu vào dữ liệu [8-10]. Một tập dữ liệu đáp ứng DP có khả năng chống lại mọi phân tích dữ liệu riêng tư, nói cách khác, các đối thủ dữ liệu thu được gần như vô dụng để suy ra dữ liệu khác trong cùng một tập dữ liệu. Bằng cách thêm nhiễu ngẫu nhiên vào dữ liệu thô hoặc tham số mô hình, DP cung cấp bảo đảm quyền riêng tư thống kê cho các bản ghi riêng lẻ, khiến dữ liệu không thể truy xuất được để bảo vệ quyền riêng tư của chủ sở hữu dữ liệu.

Như thể hiện trong hình bên dưới: quy trình học liên kết sau khi áp dụng quyền riêng tư khác biệt để mã hóa dữ liệu trung gian, dữ liệu trung gian do tất cả các bên tạo ra không còn là tính toán truyền văn bản thuần túy nữa mà là dữ liệu quyền riêng tư có thêm tiếng ồn, để tăng cường hơn nữa tính bảo mật của quá trình đào tạo giới tính.

▲ Khung học tập liên kết dựa trên điện toán đa bên an toàn

Trong khuôn khổ FL, các phương pháp như mã hóa đồng cấu (HE) và tính toán đa bên an toàn (MPC) đã được sử dụng rộng rãi, nhưng chúng chỉ tiết lộ kết quả tính toán cho những người tham gia và điều phối viên, và không tiết lộ bất kỳ thông tin nào khác ngoài phép tính kết quả trong quá trình.thông tin bổ sung.

Trên thực tế, HE được áp dụng cho khung FL theo cách tương tự như khung học tập đa bên an toàn (MPL) (một khung bắt nguồn từ FL, khung MPL được mô tả chi tiết bên dưới), với các chi tiết hơi khác một chút. Trong khung FL, HE được sử dụng để bảo vệ tính riêng tư của các tham số mô hình (chẳng hạn như độ dốc) tương tác giữa người tham gia và người điều phối, thay vì bảo vệ trực tiếp dữ liệu tương tác giữa những người tham gia như HE được áp dụng trong khung MPL. [1] áp dụng Thuyết đồng hình bổ sung (AHE) trong mô hình FL để bảo vệ tính riêng tư của độ dốc nhằm cung cấp bảo mật chống lại các điều phối viên tập trung bán toàn vẹn.

MPC liên quan đến nhiều khía cạnh và vẫn giữ được độ chính xác ban đầu, với sự đảm bảo an ninh cao. MPC đảm bảo rằng mỗi bên không biết gì ngoài kết quả. Do đó, MPC có thể được áp dụng cho các mô hình FL để tổng hợp an toàn và bảo vệ các mô hình cục bộ. Trong khuôn khổ FL dựa trên MPC, điều phối viên tập trung không thể lấy bất kỳ thông tin cục bộ và cập nhật cục bộ nào, nhưng thu được kết quả tổng hợp trong mỗi vòng cộng tác. Tuy nhiên, nếu kỹ thuật MPC được áp dụng trong khung FL, sẽ phát sinh thêm một lượng lớn chi phí giao tiếp và tính toán.

Cho đến nay, chia sẻ bí mật (SS) là giao thức dựa trên MPC được sử dụng rộng rãi nhất trong khung FL, đặc biệt là SS của Shamir [24].

Như thể hiện trong hình bên dưới: Trong quy trình đào tạo học tập liên kết dựa trên MPC, một nhóm thành viên ủy ban sẽ được những người tham gia bầu chọn một cách công bằng làm điều phối viên và công nghệ MPC sẽ được triển khai để cộng tác nhằm hoàn thành nhiệm vụ tổng hợp mô hình.

Sau khi giới thiệu ba khung FL, chúng tôi tóm tắt sự khác biệt về khung của các lộ trình kỹ thuật khác nhau, như sau:

Học liên kết 2.0 -- Học đa bên an toàn

Ở trên, chúng tôi đã đề cập đến "học tập đa bên an toàn", đây là một thuật ngữ bắt nguồn từ học tập liên kết. Nói một cách đơn giản, đó là: học tập liên kết mà không có cộng tác viên bên thứ ba được gọi là học tập đa bên an toàn (MPL). Sự phân biệt FL được giới thiệu. Nói cách khác, trên cơ sở học tập liên kết, học tập đa bên an toàn loại bỏ điều phối viên trong mô hình học tập liên kết truyền thống, làm suy yếu khả năng của điều phối viên, thay thế mạng sao ban đầu bằng mạng ngang hàng và khiến tất cả những người tham gia có cùng trạng thái.

Khuôn khổ của MPL có thể được chia thành bốn loại, bao gồm:

1) Khung MPL dựa trên mã hóa đồng cấu (HE);

2) Khung MPL dựa trên Mạch nhầm lẫn (GC);

3) Khung MPL dựa trên chia sẻ bí mật (SS);

4) Khung MPL dựa trên giao thức kết hợp;

Nói một cách đơn giản, các khung MPL khác nhau là: các khung sử dụng các giao thức mã hóa khác nhau để đảm bảo tính bảo mật của dữ liệu trung gian. Quy trình của MPL gần giống với quy trình của FL.Chúng ta hãy xem bốn giao thức mật mã được sử dụng:

▲ Mã hóa đồng hình (HE)

Mã hóa đồng cấu (HE) là một dạng mã hóa trong đó chúng ta có thể trực tiếp thực hiện các phép toán đại số cụ thể trên bản mã mà không cần giải mã hoặc biết khóa. Sau đó, nó tạo ra một kết quả được mã hóa mà kết quả được giải mã hoàn toàn giống với kết quả của cùng một thao tác được thực hiện trên bản rõ.

HE có thể được chia thành "ba loại": 1) Mã hóa đồng hình một phần (PHE), PHE chỉ cho phép không giới hạn số lượng thao tác (cộng hoặc nhân); 2)-3) Mã hóa đồng hình hạn chế (SWHE) và Mã hóa trạng thái giống hệt nhau (FHE) ), để cộng và nhân đồng thời SWHE và FHE trong bản mã. SWHE có thể thực hiện một số loại hoạt động nhất định với số lần giới hạn, trong khi FHE có thể xử lý tất cả các hoạt động với số lần không giới hạn. Độ phức tạp tính toán của FHE đắt hơn nhiều so với SWHE và PHE.

▲ Mạch nhầm lẫn (GC)

Mạch nhầm lẫn [11] [12] (GC), còn được gọi là mạch nhầm lẫn của Yao, là một công nghệ cơ bản điện toán hai bên an toàn do Viện sĩ Yao Qizhi đề xuất. GC cung cấp một giao thức tương tác cho hai bên (người cắt xén và người đánh giá) để thực hiện đánh giá vô thức một chức năng tùy ý, thường được biểu diễn dưới dạng mạch Boolean.

Việc xây dựng GC cổ điển chủ yếu bao gồm ba giai đoạn: mã hóa, truyền tải và đánh giá.

Đầu tiên, đối với mỗi dây trong mạch, obfuscator tạo ra hai chuỗi ngẫu nhiên dưới dạng nhãn, tương ứng biểu thị hai giá trị bit có thể có là "0" và "1" cho dây đó. Đối với mỗi cổng trong mạch, obfuscator tạo một bảng chân lý. Mỗi đầu ra của bảng chân lý được mã hóa bằng hai nhãn tương ứng với đầu vào của nó. Tùy thuộc vào obfuscator để chọn hàm dẫn xuất khóa sử dụng hai nhãn này để tạo khóa đối xứng.

Sau đó, obfuscator bao bọc các hàng của bảng chân lý. Sau khi giai đoạn làm xáo trộn kết thúc, bộ làm xáo trộn chuyển bảng đã làm rối và các nhãn dòng đầu vào tương ứng với đầu vào của nó tới bộ đánh giá.

Hơn nữa, người đánh giá có được các nhãn tương ứng với đầu vào của họ một cách an toàn thông qua chuyển giao không rõ ràng (Chuyển giao không rõ ràng [13, 14, 15]). Với bảng che giấu và nhãn của các dòng đầu vào, người đánh giá chịu trách nhiệm giải mã nhiều lần bảng che giấu cho đến khi thu được kết quả cuối cùng của chức năng.

▲ Chia Sẻ Bí Mật (SS)

Giao thức GMW là giao thức tính toán đa bên an toàn đầu tiên cho phép bất kỳ số lượng bên nào tính toán một hàm một cách an toàn có thể được biểu thị dưới dạng mạch Boolean hoặc mạch số học. Lấy mạch Boolean làm ví dụ, tất cả các bên sử dụng sơ đồ SS dựa trên XOR để chia sẻ đầu vào và các bên tương tác để tính toán kết quả, từng cổng một. Giao thức dựa trên GMW không cần xáo trộn bảng chân lý mà chỉ cần thực hiện các phép toán XOR và AND để tính toán nên không cần thực hiện các phép toán mã hóa và giải mã đối xứng. Hơn nữa, các giao thức dựa trên GMW cho phép tính toán trước tất cả các hoạt động mã hóa, nhưng yêu cầu nhiều vòng tương tác giữa nhiều bên trong giai đoạn trực tuyến. Do đó, GMW đạt được hiệu suất tốt trong các mạng có độ trễ thấp.

Giao thức BGW là một giao thức điện toán đa bên an toàn cho các mạch số học có nhiều hơn ba bên. Cấu trúc tổng thể của thỏa thuận tương tự như GMW. Nói chung, BGW có thể được sử dụng để tính toán bất kỳ mạch số học nào. Tương tự như giao thức GMW, đối với cổng bổ sung trong mạch, phép tính có thể được thực hiện cục bộ, trong khi đối với cổng nhân, tất cả các bên cần phải tương tác. Tuy nhiên, GMW và BGW khác nhau về hình thức tương tác. Thay vì sử dụng OT để liên lạc giữa các bên, BGW dựa vào SS tuyến tính (chẳng hạn như SS của Shamir) để hỗ trợ phép nhân. Nhưng BGW dựa vào đa số trung thực. Giao thức BGW có thể chống lại việc loại bỏ t

SPDZ là một giao thức tính toán đa số không trung thực do Damgard và cộng sự đề xuất, có thể hỗ trợ tính toán các mạch số học với nhiều hơn hai bên. Nó được chia thành giai đoạn ngoại tuyến và giai đoạn trực tuyến. Ưu điểm của SPDZ là các tính toán mật mã khóa công khai đắt tiền có thể được thực hiện trong giai đoạn ngoại tuyến, trong khi giai đoạn trực tuyến hoàn toàn sử dụng các nguyên hàm rẻ tiền, an toàn về mặt lý thuyết thông tin. SWHE được sử dụng để thực hiện phép nhân an toàn vòng liên tục trong giai đoạn ngoại tuyến. Giai đoạn trực tuyến của SPDZ là vòng tuyến tính, tuân theo mô hình GMW và sử dụng chia sẻ bí mật trên các trường hữu hạn để đảm bảo an ninh. SPDZ có thể chiến đấu chống lại tối đa t<=n bên tham nhũng của các đối thủ nguy hiểm, trong đó t là số lượng đối thủ và n là số lượng bên máy tính.

Giao thức mật mã tập trung sẽ được tóm tắt theo từng giai đoạn và sự khác biệt về khung tương ứng với các tuyến kỹ thuật khác nhau đại khái như sau:

Học liên kết 3.0 -- Học bầy đàn

Vào năm 2021, Joachim Schultze của Đại học Bonn và các đối tác của ông đã đề xuất một "hệ thống máy học phi tập trung" có tên là Học tập theo nhóm (học theo nhóm), đây là một sự phát triển và nâng cấp hơn nữa dựa trên MPL, thay thế cho phương thức A liên tổ chức hiện tại để tập trung chia sẻ dữ liệu trong nghiên cứu y học. Swarm Learning chia sẻ các tham số thông qua mạng Swarm, xây dựng các mô hình độc lập dựa trên dữ liệu cục bộ của từng người tham gia và sử dụng công nghệ chuỗi khối để thực hiện các biện pháp mạnh mẽ chống lại những người tham gia không trung thực cố gắng phá hủy mạng Swarm.

So với FL và MPL, Swarm Learning đưa công nghệ chuỗi khối vào quá trình đào tạo của học tập liên kết và thay thế bên thứ ba đáng tin cậy bằng chuỗi khối để đóng vai trò trong việc đào tạo sức mạnh tổng hợp.

【Tóm tắt và triển vọng】▲ So sánh các Lộ trình Công nghệ Học tập Liên kết

Xuyên suốt quá khứ và hiện tại của học liên kết, nó đã có nhiều lộ trình kỹ thuật khác nhau để giải quyết vấn đề.Tóm lại, học máy phân tán (DML), học liên kết (FL), học đa bên an toàn (MPL), học nhóm (SL) ) Sự khác biệt rộng rãi như sau:

Trong số đó, chúng tôi so sánh sâu hơn giữa FL và MPL truyền thống, được phản ánh trong sáu điểm sau:

1) Bảo vệ quyền riêng tư

Giao thức MPC được sử dụng trong khuôn khổ MPC cung cấp đảm bảo an ninh cao cho cả hai bên. Tuy nhiên, khung FL không được mã hóa trao đổi các tham số mô hình giữa chủ sở hữu dữ liệu và máy chủ ở dạng văn bản thuần túy và thông tin nhạy cảm cũng có thể bị rò rỉ;

2) Phương thức giao tiếp

Trong MPL, giao tiếp giữa các chủ sở hữu dữ liệu thường ở dạng ngang hàng mà không cần bên thứ ba đáng tin cậy, trong khi FL thường ở dạng Client-Server với một máy chủ tập trung. Nói cách khác, mỗi chủ sở hữu dữ liệu trong MPL đều có trạng thái như nhau, trong khi chủ sở hữu dữ liệu và máy chủ tập trung trong FL không bằng nhau;

3) Chi phí truyền thông

Đối với FL, do giao tiếp giữa các chủ sở hữu dữ liệu có thể được điều phối bởi một máy chủ tập trung, chi phí liên lạc nhỏ hơn so với dạng MPL điểm-điểm, đặc biệt khi số lượng chủ sở hữu dữ liệu rất lớn;

4) Định dạng dữ liệu

Hiện tại, các cài đặt không phải IID không được xem xét trong giải pháp của MPL. Tuy nhiên, trong giải pháp của FL, vì mỗi chủ sở hữu dữ liệu huấn luyện mô hình cục bộ nên việc thích ứng với các cài đặt không phải IID sẽ dễ dàng hơn;

5) Độ chính xác của mô hình đào tạo

Trong MPL, thường không mất độ chính xác trong mô hình toàn cục. Nhưng nếu FL sử dụng DP để bảo vệ quyền riêng tư, mô hình toàn cầu thường bị mất độ chính xác nhất định;

6) Kịch bản ứng dụng

Kết hợp với phân tích trên, có thể thấy MPL phù hợp hơn với các kịch bản có độ bảo mật và độ chính xác cao hơn, trong khi FL phù hợp hơn với các kịch bản có yêu cầu hiệu suất cao hơn và được sử dụng cho nhiều chủ sở hữu dữ liệu hơn.

▲ So sánh nhiều bên về khuôn khổ học tập liên kết

So sánh nội dung của FL basic framework từ năm 2016

So sánh nội dung của khung cơ bản MPL dựa trên FL

Với sự phát triển không ngừng của công nghệ học tập liên kết, các nền tảng học tập liên kết cho những thách thức khác nhau đang xuất hiện, nhưng chúng vẫn chưa đạt đến giai đoạn trưởng thành. Hiện tại, trong giới học thuật, nền tảng học tập liên kết chủ yếu giải quyết vấn đề dữ liệu phân tán không cân bằng và không đồng đều, trong khi ngành tập trung nhiều hơn vào các giao thức mật mã để giải quyết các vấn đề bảo mật của học tập liên kết.

Hai bên song hành, nhiều thuật toán học máy hiện có đã được liên bang hóa, nhưng chúng vẫn còn non nớt và chưa đạt đến giai đoạn có thể đưa vào sản xuất. Trong những năm gần đây, việc nghiên cứu và triển khai khung học tập liên kết vẫn còn ở giai đoạn sơ khai, đòi hỏi sự nỗ lực và tiến bộ không ngừng.

Giới thiệu về tác giả

Yan Yang Federal Learning Trailblazer

người giới thiệu

người giới thiệu

[1] P. Voigt and A. Von dem Bussche, “The eu general data protection regulation (gdpr),” A Practical Guide, 1st Ed., Cham: Springer Inter- national Publishing, 2017.

[2] D. Bogdanov, S. Laur, and J. Willemson, “Sharemind: A framework for fast privacy-preserving computations,” in Proceedings of European Symposium on Research in Computer Security. Springer, 2008, pp. 192–206.

[3] D. Demmler, T. Schneider, and M. Zohner, “Aby-a framework for efficient mixed-protocol secure two-party computation.” in Proceedings of The Network and Distributed System Security Symposium, 2015.

[4] P. Mohassel and Y. Zhang, “Secureml: A system for scalable privacy- preserving machine learning,” in Proceedings of 2017 IEEE Symposium on Security and Privacy (SP). IEEE, 2017, pp. 19–38.

[5] H. B. McMahan, E. Moore, D. Ramage, and B. A. y Arcas, “Feder- ated learning of deep networks using model averaging,” CoRR, vol. abs/1602.05629, 2016.

[6] J. Konecˇny`, H. B. McMahan, D. Ramage, and P. Richta ́rik, “Federated optimization: Distributed machine learning for on-device intelligence,” arXiv preprint arXiv:1610.02527, 2016.

[7] J. Konecˇny`, H. B. McMahan, F. X. Yu, P. Richta ́rik, A. T. Suresh, and D. Bacon, “Federated learning: Strategies for improving communica- tion efficiency,” arXiv preprint arXiv:1610.05492, 2016.

[8] B. McMahan, E. Moore, D. Ramage, S. Hampson, and B. A. y Arcas, “Communication-efficient learning of deep networks from decentral- ized data,” in Proceedings of Artificial Intelligence and Statistics, 2017, pp. 1273–1282.

[9] A. C.-C. Yao, “How to generate and exchange secrets,” in Proceedings of the 27th Annual Symposium on Foundations of Computer Science (sfcs 1986). IEEE, 1986, pp. 162–167.

[10] V. Smith, C.-K. Chiang, M. Sanjabi, and A. S. Talwalkar, “Federated multi-task learning,” in Proceedings of Advances in Neural Information Processing Systems, 2017, pp. 4424–4434.

[11] R. Fakoor, F. Ladhak, A. Nazi, and M. Huber, “Using deep learning to enhance cancer diagnosis and classification,” in Proceedings of the international conference on machine learning, vol. 28. ACM New York, USA, 2013.

[12] M. Rastegari, V. Ordonez, J. Redmon, and A. Farhadi, “Xnor-net: Imagenet classification using binary convolutional neural networks,” in Proceedings of European conference on computer vision. Springer, 2016, pp. 525–542.

[13] F. Schroff, D. Kalenichenko, and J. Philbin, “Facenet: A unified embedding for face recognition and clustering,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 815–823.

[14] P. Voigt and A. Von dem Bussche, “The eu general data protection regulation (gdpr),” A Practical Guide, 1st Ed., Cham: Springer Inter- national Publishing, 2017.

[15] D. Bogdanov, S. Laur, and J. Willemson, “Sharemind: A framework for fast privacy-preserving computations,” in Proceedings of European Symposium on Research in Computer Security. Springer, 2008, pp. 192–206.

[16] T.NishioandR.Yonetani,“Clientselectionforfederatedlearningwith heterogeneous resources in mobile edge,” in Proceedings of 2019 IEEE International Conference on Communications (ICC). IEEE, 2019, pp. 1–7.

[17] P. P. Liang, T. Liu, L. Ziyin, R. Salakhutdinov, and L.-P. Morency, “Think locally, act globally: Federated learning with local and global representations,” arXiv preprint arXiv:2001.01523, 2020.

[18] Y. Liu, Y. Kang, X. Zhang, L. Li, Y. Cheng, T. Chen, M. Hong, and Q. Yang, “A communication efficient vertical federated learning framework,” arXiv preprint arXiv:1912.11187, 2019.

[19] K. Bonawitz, V. Ivanov, B. Kreuter, A. Marcedone, H. B. McMahan, S. Patel, D. Ramage, A. Segal, and K. Seth, “Practical secure aggre- gation for privacy-preserving machine learning,” in Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security, 2017, pp. 1175–1191.

[20] K. Cheng, T. Fan, Y. Jin, Y. Liu, T. Chen, and Q. Yang, “Se- cureboost: A lossless federated learning framework,” arXiv preprint arXiv:1901.08755, 2019.

[21] G. Xu, H. Li, S. Liu, K. Yang, and X. Lin, “Verifynet: Secure and verifiable federated learning,” IEEE Transactions on Information Forensics and Security, vol. 15, pp. 911–926, 2019.

[22] H. B. McMahan, D. Ramage, K. Talwar, and L. Zhang, “Learn- ing differentially private recurrent language models,” arXiv preprint arXiv:1710.06963, 2017.

[23] Y. Zhao, J. Zhao, M. Yang, T. Wang, N. Wang, L. Lyu, D. Niyato, and K. Y. Lam, “Local differential privacy based federated learning for internet of things,” arXiv preprint arXiv:2004.08856, 2020.

[24] M. Hastings, B. Hemenway, D. Noble, and S. Zdancewic, “Sok: General purpose compilers for secure multi-party computation,” in Proceedings of 2019 IEEE Symposium on Security and Privacy (SP). IEEE, 2019, pp. 1220–1237.

[25] I. Giacomelli, S. Jha, M. Joye, C. D. Page, and K. Yoon, “Privacy-

preserving ridge regression with only linearly-homomorphic encryp- tion,” in Proceedings of 2018 International Conference on Applied Cryptography and Network Security. Springer, 2018, pp. 243–261.

[26] A. Gasco ́n, P. Schoppmann, B. Balle, M. Raykova, J. Doerner, S. Zahur, and D. Evans, “Privacy-preserving distributed linear regression on high- dimensional data,” Proceedings on Privacy Enhancing Technologies, vol. 2017, no. 4, pp. 345–364, 2017.

[27] S. Wagh, D. Gupta, and N. Chandran, “Securenn: 3-party secure computation for neural network training,” Proceedings on Privacy Enhancing Technologies, vol. 2019, no. 3, pp. 26–49, 2019.

[28] M. Byali, H. Chaudhari, A. Patra, and A. Suresh, “Flash: fast and robust framework for privacy-preserving machine learning,” Proceedings on Privacy Enhancing Technologies, vol. 2020, no. 2, pp. 459–480, 2020.

[29] S. Wagh, S. Tople, F. Benhamouda, E. Kushilevitz, P. Mittal, and T. Rabin, “Falcon: Honest-majority maliciously secure framework for private deep learning,” arXiv preprint arXiv:2004.02229, 2020.

[30] V. Nikolaenko, U. Weinsberg, S. Ioannidis, M. Joye, D. Boneh, and N. Taft, “Privacy-preserving ridge regression on hundreds of millions of records,” pp. 334–348, 2013.

[31] M. Chase, R. Gilad-Bachrach, K. Laine, K. E. Lauter, and P. Rindal, “Private collaborative neural network learning.” IACR Cryptol. ePrint Arch., vol. 2017, p. 762, 2017.

[32] M. S. Riazi, C. Weinert, O. Tkachenko, E. M. Songhori, T. Schneider, and F. Koushanfar, “Chameleon: A hybrid secure computation frame- work for machine learning applications,” in Proceedings of the 2018 on Asia Conference on Computer and Communications Security, 2018, pp. 707–721.

[33] P. Mohassel and P. Rindal, “Aby3: A mixed protocol framework for machine learning,” in Proceedings of the 2018 ACM SIGSAC Conference on Computer and Communications Security, 2018, pp. 35– 52.

[34] N. Agrawal, A. Shahin Shamsabadi, M. J. Kusner, and A. Gasco ́n, “Quotient: two-party secure neural network training and prediction,” in Proceedings of the 2019 ACM SIGSAC Conference on Computer and Communications Security, 2019, pp. 1231–1247.

[35] R. Rachuri and A. Suresh, “Trident: Efficient 4pc framework for pri- vacy preserving machine learning,” arXiv preprint arXiv:1912.02631, 2019.

[36] A. Patra and A. Suresh, “Blaze: Blazing fast privacy-preserving ma- chine learning,” arXiv preprint arXiv:2005.09042, 2020.

[37] Song L, Wu H, Ruan W, et al. SoK: Training machine learning models over multiple sources with privacy preservation[J]. arXiv preprint arXiv:2012.03386, 2020.

hợp đồng thông minh

Chào mừng tham gia cộng đồng chính thức của Odaily

Nhóm đăng ký

https://t.me/Odaily_News

Nhóm trò chuyện

https://t.me/Odaily_CryptoPunk

Tài khoản chính thức

https://twitter.com/OdailyChina