闲鱼是怎么让二手属性抽取准确率达到95%+的?
想知道你随手发布的商品描述,是如何被闲鱼精准“读懂”并打上标签的吗?一起来探秘背后的技术。
先看效果,感受智能
图1 - 二手属性抽取算法效果Demo(个护美妆)
背景:理解闲鱼商品的独特性作为C2X平台,闲鱼的商品发布具有鲜明特点:
轻发布导致商品信息不足
图文描述的轻发布模式,在提升发布体验的同时,也导致商品结构化信息稀疏。平台要真正“理解”商品,就必须从用户的图片和文本描述中自动识别关键信息。
商品具有独特的二手属性
区别于新品电商,闲鱼商品的核心在于其二手状态。这些属性直接反映商品的折损与保值情况,例如:【使用次数】、【购买渠道】、【包装是否完整】。
不同类目属性各异:个护美妆看【保质期】,手机看【屏幕外观】、【维修历史】,服装则关注【是否下水】等。准确抓取这些属性,是理解商品价值的关键。
核心挑战:信息抽取的难题二手属性抽取属于NLP中的信息抽取问题,通常可拆解为命名实体识别与文本分类任务。
本任务的主要难点在于:
类目与属性繁多,需为不同场景定制模型。
若采用有监督学习(如Bert),标注成本高,周期漫长。
破局之道:融合创新方案 核心方法论:因“景”制宜尽管Transformer系列模型在各大榜单领先,但我们坚信,没有“全能”的算法,只有“最合适”的方案。我们总结出如下属性抽取方法论:
句式固定或模板化强(如时间-地点-人物-事件模板),采用NER方案,如CRF、BiLSTM+CRF、Bert及其变体。
句式自由但关键词集中,采用文本分类方案:
近义表述较少(几十至上百种),关键词分布集中,正则表达式+规则往往是效率与精度之王。
近义表述极多(成百上千种,如地名识别),Bert家族更能胜任。
句式与用词均高度灵活(如社交评论情感分析),Bert家族是更优选择。
系统架构:分层处理,智能调度
图2 - 二手属性抽取方案架构图
NLP任务拆解:三类问题,精准打击我们将复杂的属性识别需求,系统拆解为三类任务:
文本多分类:“n选1”问题,例如判断商品是否包邮。
多标签分类:并行处理多个“n选1”问题,如同时判断手机的屏幕与机身外观。此法可共享网络参数,利用标签间关联提升效果,并提升训练与推断效率。
命名实体识别:精准抽取文本中的关键实体信息。
建模实战:三重引擎,各显神通 1. 智能辅助标注为降低高昂的人工标注成本,我们引入集团AliNLP的电商NER模型进行初筛。对于NER类属性(如保质期、容量),可直接定位实体标注;对于分类属性,可在分词基础上快速标注,极大提升效率。
2. 算法核心:三驾马车驱动
(1)Albert-Tiny:极速在线推理采用预训练+微调范式。其最大优势是推断速度极快,比Bert-base提升约10倍,完美满足高QPS、低延迟的在线实时场景需求。
Albert(A Lite Bert)的精髓在于“轻量”:通过词嵌入层因式分解与跨层参数共享两大技术,大幅削减参数量,实现训练速度飞跃。我们选用4层的Tiny版本,在保证精度的前提下,为实时服务提供澎湃动力。
(2)StructBert-Base:高精度离线计算同为预训练+微调范式。此阿里自研模型在精度上更胜一筹,在二手属性识别上准确率相对Albert-Tiny提升1%-1.5%,专用于对实时性要求不高的离线T+1场景。
StructBert的优越性源于其创新的预训练目标:在传统MLM任务基础上,增加了词序重排与句子关系三分类任务,使其对语言结构理解更深。我们选用12层的Base版本,为离线分析提供最强精度保障。
(3)正则表达式:规则之刃,精准高效在句式与关键词相对固定的场景下,正则表达式是“快、准、稳”的代名词,其速度可比Albert-Tiny再快10-100倍,且准确率常超越复杂模型。其威力高度依赖对业务知识与数据模式的深刻洞察。
3. 规则后处理:逻辑修正与归一化
识别结果归一化:将NER抽取结果转化为标准值,如将“175/88A”映射为“L码”。
业务逻辑修正:根据业务规则解决属性间冲突。例如,若商品同时标注“全新”与“仅用3次”,则自动将状态降级为“99新”等,确保最终结果符合常理。
系统工程:双轨部署,无缝衔接离线T+1场景:通过ODPS(MaxCompute)+ UDF方式部署,模型以资源形式上传,算法逻辑封装为UDF脚本运行。
在线实时场景:模型经由PAI-EAS分布式部署,通过iGraph(实时图数据库)与TPP完成高效数据交互,保障线上服务毫秒级响应。
科学评估:以数据衡量效果为每个类目的属性制定严格评测标准,抽样海量数据交由专业标注员评估。通过对比算法结果与人工标注,计算出准确的准确率、精确率、召回率等核心指标。
辉煌战果:准确率超98% 准确率经严格人工评估,本方案在各主要类目上的准确率、精确率、召回率均突破98%,误差远低于上线标准,目前已成功赋能闲鱼核心类目商品。
效果全景展示
图5 - 二手属性抽取算法效果Demo(手机)
应用落地与未来展望二手属性抽取成果已深度应用于:智能定价、聊天导购、优质商品池挖掘、搜索导购、个性化推荐等多个核心场景。
未来,我们将:
覆盖全类目商品,不留死角。
突破文本局限,融合图像识别技术,从图文双维度完善商品结构化信息。
深化属性应用,构建优质商品标准,持续扩大优质供给池。
参考文献Albert论文:https://arxiv.org/abs/1909.11942
StructBert论文:https://arxiv.org/abs/1908.04577
Albert_zh源码:https://github.com/brightmart/albert_zh
GLUE排行榜:https://gluebenchmark.com/leaderboard
References
[1]github/albert_zh:https://github.com/brightmart/albert_zh
[2]GLUE榜单:https://gluebenchmark.com/leaderboard
技术让交易更简单,让闲置流通更高效。

加入我们,一起挑战技术巅峰!
闲鱼技术团队以创新驱动业务变革,从核心交易到社区、线下新场景,从技术开源到行业发声,我们从未停止探索。
如果你也渴望用技术创造价值,追求极致,
这里就是你最好的舞台。
立即投递,共创未来!
1、招聘岗位:客户端/服务端/前端/架构/质量工程师
2、简历邮箱:guicai.gxy@alibaba-inc.com
3、更多动态,欢迎在头条、知乎、掘金、facebook、twitter关注我们
相关问答
在闲鱼上,有些人发布小吃技术资料,这些内容可信吗?为什么?
这个问题可信的话,因为咸鱼有一个机制,就是说你一旦确认收货以后,我以前是非常麻烦的,你仔细看一下,选一的一个管理流程。如果你真的特别想看这些小吃的技术...
生物细胞移植技术--尿毒症_千问健康
生物细胞移植技术--尿毒症。三月份被诊断出尿毒症,用了很多药看来很多医生都没有什么效果,后来到北京采用生物细胞移植技术的治疗后,现在处于康复期,我想了解下...
治疗子宫肌瘤新方法—射频消融技术_千问健康
问患者提问那里能用此方法治疗,多少钱答医生回答子宫肌瘤又称子宫平滑肌瘤,是女性生殖器最常见的一种良性肿瘤。多无症状,少数表现为阴道出血,腹部触及肿物...
利用发酵技术可制作许多食品,下列哪一项不是发酵的产品()A...
利用发酵技术可制作许多食品,下列哪一项不是发酵的产品()A.咸鱼B.酱油C.酸奶D.面包题目利用发酵技术可制作许多食品,下列哪一项不是发酵的产品()A.咸...
我在闲鱼上2020年8月份买了一个工程宝,上个月机器出现故障...
你好,我在闲鱼上2020年8月份买了一个工程宝,上个月机器出现故障,电话联系了厂家技术,说让返厂售后,机器寄给厂家后,厂家联系我说主板烧坏了,不在保修范围内,请问...
计算机技术专硕277分能调剂到什么学校?
时刻关注中国研究生招生信息网,时刻关注中国研究生招生信息网,