揭秘!闲鱼如何突破95%准确率大关,智能识别二手商品核心属性?

mysmile 6 0
揭秘!闲鱼如何突破95%准确率大关,智能识别二手商品核心属性?

闲鱼是怎么让二手属性抽取准确率达到95%+的?

想知道你随手发布的商品描述,是如何被闲鱼精准“读懂”并打上标签的吗?一起来探秘背后的技术。

先看效果,感受智能

揭秘!闲鱼如何突破95%准确率大关,智能识别二手商品核心属性?

图1 - 二手属性抽取算法效果Demo(个护美妆)

背景:理解闲鱼商品的独特性

作为C2X平台,闲鱼的商品发布具有鲜明特点:

轻发布导致商品信息不足

图文描述的轻发布模式,在提升发布体验的同时,也导致商品结构化信息稀疏。平台要真正“理解”商品,就必须从用户的图片和文本描述中自动识别关键信息。

商品具有独特的二手属性

区别于新品电商,闲鱼商品的核心在于其二手状态。这些属性直接反映商品的折损与保值情况,例如:【使用次数】、【购买渠道】、【包装是否完整】。

不同类目属性各异:个护美妆看【保质期】,手机看【屏幕外观】、【维修历史】,服装则关注【是否下水】等。准确抓取这些属性,是理解商品价值的关键。

核心挑战:信息抽取的难题

二手属性抽取属于NLP中的信息抽取问题,通常可拆解为命名实体识别与文本分类任务。

本任务的主要难点在于:

类目与属性繁多,需为不同场景定制模型。

若采用有监督学习(如Bert),标注成本高,周期漫长。

破局之道:融合创新方案 核心方法论:因“景”制宜

尽管Transformer系列模型在各大榜单领先,但我们坚信,没有“全能”的算法,只有“最合适”的方案。我们总结出如下属性抽取方法论:

句式固定或模板化强(如时间-地点-人物-事件模板),采用NER方案,如CRF、BiLSTM+CRF、Bert及其变体。

句式自由但关键词集中,采用文本分类方案:

近义表述较少(几十至上百种),关键词分布集中,正则表达式+规则往往是效率与精度之王。

近义表述极多(成百上千种,如地名识别),Bert家族更能胜任。

句式与用词均高度灵活(如社交评论情感分析),Bert家族是更优选择。

系统架构:分层处理,智能调度

揭秘!闲鱼如何突破95%准确率大关,智能识别二手商品核心属性?

图2 - 二手属性抽取方案架构图

NLP任务拆解:三类问题,精准打击

我们将复杂的属性识别需求,系统拆解为三类任务:

文本多分类:“n选1”问题,例如判断商品是否包邮。

多标签分类:并行处理多个“n选1”问题,如同时判断手机的屏幕与机身外观。此法可共享网络参数,利用标签间关联提升效果,并提升训练与推断效率。

命名实体识别:精准抽取文本中的关键实体信息。

建模实战:三重引擎,各显神通 1. 智能辅助标注

为降低高昂的人工标注成本,我们引入集团AliNLP的电商NER模型进行初筛。对于NER类属性(如保质期、容量),可直接定位实体标注;对于分类属性,可在分词基础上快速标注,极大提升效率。

2. 算法核心:三驾马车驱动

(1)Albert-Tiny:极速在线推理采用预训练+微调范式。其最大优势是推断速度极快,比Bert-base提升约10倍,完美满足高QPS、低延迟的在线实时场景需求。

Albert(A Lite Bert)的精髓在于“轻量”:通过词嵌入层因式分解与跨层参数共享两大技术,大幅削减参数量,实现训练速度飞跃。我们选用4层的Tiny版本,在保证精度的前提下,为实时服务提供澎湃动力。

(2)StructBert-Base:高精度离线计算同为预训练+微调范式。此阿里自研模型在精度上更胜一筹,在二手属性识别上准确率相对Albert-Tiny提升1%-1.5%,专用于对实时性要求不高的离线T+1场景。

StructBert的优越性源于其创新的预训练目标:在传统MLM任务基础上,增加了词序重排句子关系三分类任务,使其对语言结构理解更深。我们选用12层的Base版本,为离线分析提供最强精度保障。

(3)正则表达式:规则之刃,精准高效在句式与关键词相对固定的场景下,正则表达式是“快、准、稳”的代名词,其速度可比Albert-Tiny再快10-100倍,且准确率常超越复杂模型。其威力高度依赖对业务知识与数据模式的深刻洞察。

3. 规则后处理:逻辑修正与归一化

识别结果归一化:将NER抽取结果转化为标准值,如将“175/88A”映射为“L码”。

业务逻辑修正:根据业务规则解决属性间冲突。例如,若商品同时标注“全新”与“仅用3次”,则自动将状态降级为“99新”等,确保最终结果符合常理。

系统工程:双轨部署,无缝衔接

离线T+1场景:通过ODPS(MaxCompute)+ UDF方式部署,模型以资源形式上传,算法逻辑封装为UDF脚本运行。

在线实时场景:模型经由PAI-EAS分布式部署,通过iGraph(实时图数据库)与TPP完成高效数据交互,保障线上服务毫秒级响应。

科学评估:以数据衡量效果

为每个类目的属性制定严格评测标准,抽样海量数据交由专业标注员评估。通过对比算法结果与人工标注,计算出准确的准确率、精确率、召回率等核心指标。

辉煌战果:准确率超98% 准确率

经严格人工评估,本方案在各主要类目上的准确率、精确率、召回率均突破98%,误差远低于上线标准,目前已成功赋能闲鱼核心类目商品。

效果全景展示

揭秘!闲鱼如何突破95%准确率大关,智能识别二手商品核心属性?

图5 - 二手属性抽取算法效果Demo(手机)

应用落地与未来展望

二手属性抽取成果已深度应用于:智能定价、聊天导购、优质商品池挖掘、搜索导购、个性化推荐等多个核心场景。

未来,我们将:

覆盖全类目商品,不留死角。

突破文本局限,融合图像识别技术,从图文双维度完善商品结构化信息。

深化属性应用,构建优质商品标准,持续扩大优质供给池。

参考文献

Albert论文:https://arxiv.org/abs/1909.11942

StructBert论文:https://arxiv.org/abs/1908.04577

Albert_zh源码:https://github.com/brightmart/albert_zh

GLUE排行榜:https://gluebenchmark.com/leaderboard

References

[1]github/albert_zh:https://github.com/brightmart/albert_zh

[2]GLUE榜单:https://gluebenchmark.com/leaderboard

技术让交易更简单,让闲置流通更高效。

揭秘!闲鱼如何突破95%准确率大关,智能识别二手商品核心属性?

加入我们,一起挑战技术巅峰!

闲鱼技术团队以创新驱动业务变革,从核心交易到社区、线下新场景,从技术开源到行业发声,我们从未停止探索。

如果你也渴望用技术创造价值,追求极致,

这里就是你最好的舞台。

立即投递,共创未来!

1、招聘岗位:客户端/服务端/前端/架构/质量工程师

2、简历邮箱:guicai.gxy@alibaba-inc.com

3、更多动态,欢迎在头条、知乎、掘金、facebook、twitter关注我们

相关问答

在闲鱼上,有些人发布小吃技术资料,这些内容可信吗?为什么?

这个问题可信的话,因为咸鱼有一个机制,就是说你一旦确认收货以后,我以前是非常麻烦的,你仔细看一下,选一的一个管理流程。如果你真的特别想看这些小吃的技术...

生物细胞移植技术--尿毒症_千问健康

生物细胞移植技术--尿毒症。三月份被诊断出尿毒症,用了很多药看来很多医生都没有什么效果,后来到北京采用生物细胞移植技术的治疗后,现在处于康复期,我想了解下...

治疗子宫肌瘤新方法—射频消融技术_千问健康

问患者提问那里能用此方法治疗,多少钱答医生回答子宫肌瘤又称子宫平滑肌瘤,是女性生殖器最常见的一种良性肿瘤。多无症状,少数表现为阴道出血,腹部触及肿物...

利用发酵技术可制作许多食品,下列哪一项不是发酵的产品()A...

利用发酵技术可制作许多食品,下列哪一项不是发酵的产品()A.咸鱼B.酱油C.酸奶D.面包题目利用发酵技术可制作许多食品,下列哪一项不是发酵的产品()A.咸...

我在闲鱼上2020年8月份买了一个工程宝,上个月机器出现故障...

你好,我在闲鱼上2020年8月份买了一个工程宝,上个月机器出现故障,电话联系了厂家技术,说让返厂售后,机器寄给厂家后,厂家联系我说主板烧坏了,不在保修范围内,请问...

计算机技术专硕277分能调剂到什么学校?

时刻关注中国研究生招生信息网,时刻关注中国研究生招生信息网,