爬虫|通过爬虫使用百度翻译

??在NLP任务中,通过数据增强(例如EDA、回译等)的方式增加训练集是一个非常常用的trick。其中回译就需要用到翻译系统。但由于构建翻译系统需要大规模的语料和算力,所以不如直接使用现有的翻译系统。除此之外,还有很多的场景均需要翻译,所以为了满足大家的需求,特花时间来给大家写一篇通过爬虫使用百度翻译的博客。
??这次的天选之子就是百度翻译,但事先说明下该脚本只是为了学习,请勿滥用、商用,否则后果自负。
??虽然在网上有很多类似的博客,但绝大多数讲的过粗,不利于新手的学习。所以就给大家准备一篇极为详细的博客。

文章目录

  • 1. 搭建环境
    • 1.1 安装Python库
    • 1.2 安装nodejs
  • 2. 原理分析和实战操作
    • 2.1 寻找对应的XHR项
    • 2.2 破解参数
  • 3. 代码

1. 搭建环境 1.1 安装Python库
pip install PyExecJS pip install requests

1.2 安装nodejs 【爬虫|通过爬虫使用百度翻译】??nodejs下载地址为:

    推荐阅读