SOTA效果+一键预测,PaddleNLP带你玩转11类NLP任务
2021年10月,PaddleNLP聚合众多百度自然语言处理领域自研算法以及社区开源模型,并凭借飞桨核心框架的能力升级开放了开箱即用、极致优化的高性能一键预测功能,备受开发者喜爱。开源一年以来,团队精耕细作,不断发布适合产业界应用的模型、场景、预测加速与部署能力,在GitHub和Papers With Code等平台上持续得到开发者的关注。
文章图片
近日,PaddleNLP中月均模型下载量1.9w的一键预测功能全新升级!带来更丰富的功能、更强的效果、更便捷的使用方式!我们一起来看看吧。
更丰富的功能
文章图片
- 全场景支持
- 文档级输入
【SOTA效果+一键预测,PaddleNLP带你玩转11类NLP任务】
文章图片
- 定制化训练
文章图片
产业级效果
PaddleNLP一方面聚合了百度在语言与知识领域多年的业务积淀和领先的开源成果,如词法分析工具LAC、句法分析工具DDParser、情感分析系统Senta、文心ERNIE系列家族模型、开放域对话预训练模型PLATO、文本知识关联框架解语等;另一方面也涵盖了开源社区优秀的中文预训练模型如CPM等。实验证明,PaddleNLP在效果上全面领先同类开源产品。
- 分词
文章图片
以上面这句话为例,PaddleNLP擅长精准切分实体词如“北京冬奥会”、挖掘领域新词如“自由式滑雪”等。在开源数据集上对模型效果进行评测,分词效果显著优于同类工具。
文章图片
备注:该表格列出的指标是各个工具在不同数据集上进行模型微调训练后得出,这是因为目前分词结果并没有统一的标准,比如WEIBO数据集将『总冠军』作为一个完整的单词,而MSR数据集会切分为『总 冠军』,通过微调训练使得各个工具可在同一个分词标准下进行比较。
- 命名实体识别
1??基于百度词法分析工具LAC的快速模式:训练语料包含近2200万句子,覆盖多种领域;
2??基于百度解语的精确模式:具备最全中文实体标签的命名实体识别工具,不仅适用于通用领域,也适用于生物医疗、教育等垂类领域。包含66种词性及专名类别标签(同类产品的标签数是15个左右)。
文章图片
PaddleNLP精确模式下的实体标签丰富,且对部分类目做了更细的划分,有利于进行精准信息抽取、构建知识图谱、支撑企业搜索等应用。例如上图例子中,『北京冬奥会』被识别为『文化类_奖项赛事活动』,而非『nz』(其他专名),可以和其他『文化类』实体有效区分开来;『自由式滑雪』也被完整识别为『事件类』实体。
在通用和垂类领域的开源数据集上比较PaddleNLP与其他工具的专名识别效果,PaddleNLP快速模式和精准模式效果均远超同类工具,如下左图所示:
文章图片
备注:在垂类领域,从金融、法律、经济领域中随机选取100条样本,人工评估精确模式效果,如上右图所示,PaddleNLP的实体抽取效果显著优于同类工具(Good:代表PaddleNLP更优)。
- 依存句法分析
文章图片
- 情感分析
文章图片
- 文本相似度
文章图片
- 文本纠错
文章图片
- 首个中文多轮开放域对话预测接口;支持生成式问答、写诗等趣味应用。
生成式问答、写诗基于开源社区优秀中文预训练模型CPM [2],参数规模26亿,预训练中文数据达100GB。
文章图片
简捷易用
通过调用PaddleNLP的Taskflow API,传入任务名称即可自动选择最优的预置模型,并且以极致优化的方式完成推理。
文章图片
推荐阅读
- 第三方开发,一键就搭建
- JavaScript/jQuery实现切换页面效果
- 利用PyQt5中QLabel组件实现亚克力磨砂效果
- Android中shape的自定义艺术效果使用
- JS|JS(笔记)
- 面试|腾讯三面终拿Offer,关于redis,高并发,分布式,微服务一键领取
- flutter实现底部抽屉效果
- iOS实现背景滑动效果
- kubernetes|kubernetes 1.18离线安装 一键安装
- 这个牛逼的IDE插件,让你轻松检测代码安全漏洞,一键修复,核心引擎已开源