java|Java使用jsoup爬取网页数据

前置说明 【java|Java使用jsoup爬取网页数据】虽然可以爬取数据,但是不能获取网页的视频(tika包可以)、音乐、Ajax数据,只能获取页面渲染出的元素和数据。必须联网。
1、引入maven包

org.jsoup jsoup 1.14.3

2、链接网页及抓取代码
import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import java.io.IOException; import java.net.URL; public class JsoupTest {public static void main(String[] args) throws IOException { String url="https://blog.csdn.net/wohaipagui?type=blog"; Document document= Jsoup.parse(new URL(url),30000); Elements divElements= document.getElementsByClass("mainContent"); Element divElement=divElements.get(0); Elements articles=divElement.getElementsByTag("article"); for (Element article:articles) { String text= article.getElementsByClass("blog-list-box-top").get(0).getElementsByTag("h4").get(0).text(); System.out.println(text); } } }

3、执行的结果 java|Java使用jsoup爬取网页数据
文章图片

    推荐阅读