泛亚电竞官方网站- 字节跳动：开源Fedlearner框架广告投放增效209%

服务价：¥

好评系数：

立即询价

本文摘要：作为漫衍式的机械学习范式，联邦学习能够有效解决数据孤岛问题，让到场方在不共享数据的基础上团结建模，挖掘数据价值。

作为漫衍式的机械学习范式，联邦学习能够有效解决数据孤岛问题，让到场方在不共享数据的基础上团结建模，挖掘数据价值。近两年，联邦学习技术生长迅速，阿里、腾讯、百度、京东、蚂蚁金服、微众银行等一众互联网大厂、金融科技公司皆涉足其中。

前不久，字节跳动联邦学习技术团队也开源了自研的联邦学习平台 Fedlearner。据先容，字节跳动联邦学习平台 Fedlearner 已经在电商、金融、教育等行业多个落地场景实际应用。

字节跳动联邦学习技术卖力人吴迪在接受 InfoQ 专访时表现，联邦学习面临的难题更多是如作甚客户争取可感知的最大商业价值，差别行业的同伴，其产物特点和价值诉求各不相同。得益于字节跳动在推荐和广告领域恒久积累的机械学习建模技术，字节跳动联邦学习找到了资助企业客户取得可感知商业价值的偏向，即基于字节跳动的个性化推荐算法、模型优势，探索、寻找落地场景。

例如在电商广告场景的落地案例中，Fedlearner 已经资助互助方取得了 10% 以上的投放效率增长，跑量消耗提升 15%+，电商平台 ROI 提升 20%+。除了电商行业，在与教育行业头部客户配合探索联邦学习落地的历程中，效果也获得了比力好的印证，资助教育客户广告跑量提升 124.73%，正价课续报人数提升 211.54%，续报率提升 32.69%，正价课续用度户获客成本降低 11.73%。即便如此，从整个行业来说，现在联邦学习技术的落地仍然存在难题，在宁静与效率的兼顾宁静衡上，在建模能力和机械学习算法的进化上，平台与企业需要做的事情另有许多。InfoQ 筹谋了《联邦学习在金融领域的实践和落地逆境》系列选题，邀请各大公司来分享如何落地实践联邦学习技术。

本文中，我们将分享字节跳动联邦学习平台 Fedlearner 的技术实现与落地应用履历，看字节跳动如何寻找联邦学习落地难题的突破口。联邦学习平台 Fedlearner 的技术落地与挑战字节跳动联邦学习团队在 2020 年头低调开源了自研的联邦学习平台 Fedlearner（项目地址：https://github.com/bytedance/fedlearner ），并一直连续更新，在 2020 年 10 月 26 日上线了 v1.5 版本。吴迪对 InfoQ 表现：“之所以开源 Fedlearner ，一方面是字节跳动拥有海量的用户数据，深知掩护用户数据宁静的重要性，希望通过开源 Fedlearner ，和行业同伴一起推动隐私盘算的生长，与客户一起掩护用户数据宁静。

另一方面，在掩护用户数据宁静的同时，也建设我们平台开放透明的机制，提升客户的信任度。”Fedlearner 联邦学习平台可以支持多类联邦学习模式，整个系统包罗控制台、训练器、数据处置惩罚、数据存储等模块，各模块对称部署在到场联邦的双方的集群上，透过署理相互通信，实现训练。数据求交Fedlearner 双方在提倡训练之前，必须要基于双方的数据举行求交，找出交集从而实现模型训练。

通常情况下，训练数据求交的方式主要分为两种，一种是流式数据求交，一种是 PSI 数据求交。（1）流式数据求交流式数据通常是指由配合在线流量发生的数据，例如在广告场景下，用户点击一次广告，会在媒体平台和广告主两侧各自发生一条数据记载。为了基于 Fedlearner 团结训练模型，必须先把这两条数据记载对齐并生成一条样本。

不外，在流式数据的场景下，因为数据落盘时间、样本存储可靠性都无法统一，而且双方还会存在样本缺失和样本顺序不统一的问题。因此，必须有一套协议，把双方样本按样本 example_id 取交集并统一排序，盘算出双方共有的样本条目用来举行模型训练。

如前所述，Fedlearner 现在应用的场景大多需要处置惩罚大规模数据，为此，在流式数据处置惩罚中，Fedlearner 预先把数据根据 example_id 哈希分为 N 个 partition。求交时双方各自拉起 N 个 worker，配对后形成 N 对，每对处置惩罚一个 partition。每对 worker 中，担任 leader 的 worker 向 follower 顺序发送自己数据流中的 example_id，follower 收到后和自己的当地数据流求交，然后把交集发送回 leader。实际处置惩罚历程中，举行联邦学习训练的双方，其数据处置惩罚流程通常是差别的，样本在双方的存储挪用顺序也都是差别的。

所以在求交时，通常会使用 key-value 查询机制，这种查询机制是随机会见全量数据举行查询，可是随机会见全量数据的价格过大，好比为了处置惩罚大数据量，KV 数据库搭建和维护的成本就很是高。为相识决这一问题， Fedlearner 接纳了时间窗的方式，即在内存里维护两侧时间相近的样本，放弃少部门超出时间窗的样本，从而大大降低了设备和运维成本。

（2）PSI 数据求交与流式数据差别，另有一些场景下的数据，并不是由配合的线上流量发生的，而是由各方独自记载，例如差别金融机构记载的用户画像数据。对于此类由各方独自记载的数据，举行模型训练之前，需要使用双方共有的用户信息（例如用户 ID ）来找出双方用户的交集。

例如，A 机构有 2 亿用户数据，B 机构有 4 亿用户数据，如果希望求出 A 与 B 机构共有的 1.5 亿用户，就需要找出双方机构中相同的用户 ID，以此来找出双方交集的 1.5 亿用户。不外，在双方找出交集的历程中，A 机构不希。

本文关键词：泛亚电竞官方网站,泛亚电竞app官网

本文来源：泛亚电竞官方网站-www.nilabindu.com

泛亚电竞官方网站- 字节跳动：开源Fedlearner框架广告投放增效209%

杰克

罗雨菲

联系我们

泛亚电竞官方网站- 字节跳动：开源Fedlearner框架 广告投放增效209%

杰克

罗雨菲

联系我们

泛亚电竞官方网站- 字节跳动：开源Fedlearner框架广告投放增效209%