欢迎光临泛亚电·(中国)官方网站集团公司!
400-8888-888
020-88888888
企业服务导航
当前位置: 主页 > 财务外包
泛亚电竞官方网站-
字节跳动:开源Fedlearner框架 广告投放增效209%

泛亚电竞官方网站- 字节跳动:开源Fedlearner框架 广告投放增效209%

服务价:¥

好评系数:泛亚电竞官方网站-
字节跳动:开源Fedlearner框架 广告投放增效209%

立即询价 泛亚电竞官方网站-
字节跳动:开源Fedlearner框架 广告投放增效209%
本文摘要:作为漫衍式的机械学习范式,联邦学习能够有效解决数据孤岛问题,让到场方在不共享数据的基础上团结建模,挖掘数据价值。

作为漫衍式的机械学习范式,联邦学习能够有效解决数据孤岛问题,让到场方在不共享数据的基础上团结建模,挖掘数据价值。近两年,联邦学习技术生长迅速,阿里、腾讯、百度、京东、蚂蚁金服、微众银行等一众互联网大厂、金融科技公司皆涉足其中。

前不久,字节跳动联邦学习技术团队也开源了自研的联邦学习平台 Fedlearner。据先容,字节跳动联邦学习平台 Fedlearner 已经在电商、金融、教育等行业多个落地场景实际应用。

字节跳动联邦学习技术卖力人吴迪在接受 InfoQ 专访时表现,联邦学习面临的难题更多是如作甚客户争取可感知的最大商业价值,差别行业的同伴,其产物特点和价值诉求各不相同。得益于字节跳动在推荐和广告领域恒久积累的机械学习建模技术,字节跳动联邦学习找到了资助企业客户取得可感知商业价值的偏向,即基于字节跳动的个性化推荐算法、模型优势,探索、寻找落地场景。

例如在电商广告场景的落地案例中,Fedlearner 已经资助互助方取得了 10% 以上的投放效率增长,跑量消耗提升 15%+,电商平台 ROI 提升 20%+。除了电商行业,在与教育行业头部客户配合探索联邦学习落地的历程中,效果也获得了比力好的印证,资助教育客户广告跑量提升 124.73%,正价课续报人数提升 211.54%,续报率提升 32.69%,正价课续用度户获客成本降低 11.73%。即便如此,从整个行业来说,现在联邦学习技术的落地仍然存在难题,在宁静与效率的兼顾宁静衡上,在建模能力和机械学习算法的进化上,平台与企业需要做的事情另有许多。InfoQ 筹谋了 《联邦学习在金融领域的实践和落地逆境》 系列选题,邀请各大公司来分享如何落地实践联邦学习技术。

本文中,我们将分享字节跳动联邦学习平台 Fedlearner 的技术实现与落地应用履历,看字节跳动如何寻找联邦学习落地难题的突破口。联邦学习平台 Fedlearner 的技术落地与挑战字节跳动联邦学习团队在 2020 年头低调开源了自研的联邦学习平台 Fedlearner(项目地址:https://github.com/bytedance/fedlearner ),并一直连续更新,在 2020 年 10 月 26 日上线了 v1.5 版本。吴迪对 InfoQ 表现:“之所以开源 Fedlearner ,一方面是字节跳动拥有海量的用户数据,深知掩护用户数据宁静的重要性,希望通过开源 Fedlearner ,和行业同伴一起推动隐私盘算的生长,与客户一起掩护用户数据宁静。

另一方面,在掩护用户数据宁静的同时,也建设我们平台开放透明的机制,提升客户的信任度。”Fedlearner 联邦学习平台可以支持多类联邦学习模式,整个系统包罗控制台、训练器、数据处置惩罚、数据存储等模块,各模块对称部署在到场联邦的双方的集群上,透过署理相互通信,实现训练。数据求交Fedlearner 双方在提倡训练之前,必须要基于双方的数据举行求交,找出交集从而实现模型训练。

通常情况下,训练数据求交的方式主要分为两种,一种是流式数据求交,一种是 PSI 数据求交。(1) 流式数据求交流式数据通常是指由配合在线流量发生的数据,例如在广告场景下,用户点击一次广告,会在媒体平台和广告主两侧各自发生一条数据记载。为了基于 Fedlearner 团结训练模型,必须先把这两条数据记载对齐并生成一条样本。

不外,在流式数据的场景下,因为数据落盘时间、样本存储可靠性都无法统一,而且双方还会存在样本缺失和样本顺序不统一的问题。因此,必须有一套协议,把双方样本按样本 example_id 取交集并统一排序,盘算出双方共有的样本条目用来举行模型训练。

如前所述,Fedlearner 现在应用的场景大多需要处置惩罚大规模数据,为此,在流式数据处置惩罚中,Fedlearner 预先把数据根据 example_id 哈希分为 N 个 partition。求交时双方各自拉起 N 个 worker,配对后形成 N 对,每对处置惩罚一个 partition。每对 worker 中,担任 leader 的 worker 向 follower 顺序发送自己数据流中的 example_id,follower 收到后和自己的当地数据流求交,然后把交集发送回 leader。实际处置惩罚历程中,举行联邦学习训练的双方,其数据处置惩罚流程通常是差别的,样本在双方的存储挪用顺序也都是差别的。

所以在求交时,通常会使用 key-value 查询机制,这种查询机制是随机会见全量数据举行查询,可是随机会见全量数据的价格过大,好比为了处置惩罚大数据量,KV 数据库搭建和维护的成本就很是高。为相识决这一问题, Fedlearner 接纳了时间窗的方式,即在内存里维护两侧时间相近的样本,放弃少部门超出时间窗的样本,从而大大降低了设备和运维成本。

(2)PSI 数据求交与流式数据差别,另有一些场景下的数据,并不是由配合的线上流量发生的,而是由各方独自记载,例如差别金融机构记载的用户画像数据。对于此类由各方独自记载的数据,举行模型训练之前,需要使用双方共有的用户信息(例如用户 ID )来找出双方用户的交集。

例如,A 机构有 2 亿用户数据,B 机构有 4 亿用户数据,如果希望求出 A 与 B 机构共有的 1.5 亿用户,就需要找出双方机构中相同的用户 ID,以此来找出双方交集的 1.5 亿用户。不外,在双方找出交集的历程中,A 机构不希。


本文关键词:泛亚电竞官方网站,泛亚电竞app官网

本文来源:泛亚电竞官方网站-www.nilabindu.com