抓取网页的java代码抓取网页源代码( 三 )

for (int i = 0; irt.size(); i++){
System.out.println(rt.get(i));
}
}
public static ArrayListString getNodeList(String url){
final ArrayListString result=new ArrayListString();
Parser parser = null;
NodeList nodeList=null;
try {
parser = new Parser(url);
parser.setEncoding("GBK");
nodeList = parser.parse(
new NodeFilter(){
@Override
public boolean accept(Node node){
Node need=node;
if(getStringsByRegex(node.getText())){
for(int i=0;i6;i++){
result.add(need.toPlainTextString());need=need.getPreviousSibling().getPreviousSibling();
}
return true;
}
return false;
}
}
);
}catch (ParserException e) {
e.printStackTrace();
}
return result;
}
public static boolean getStringsByRegex(String txt) {
String regex="td class=\"no\"";
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(txt);
if (m.find()){
return true;
}
return false;
}
}
废话不多说，
public static ArrayListString getNodeList(String url)主要方法
parser.setEncoding("GBK");需要注意，代码编码格式
nodeList = parser.parse(
new NodeFilter(){
@Override
public boolean accept(Node node){
}
｝
);
nodelist是html节点的列表，现在使用NodeFilter ( 节点过滤器 )实例，重载NodeFilter类中的accept()方法
在parser这个Parser类访问整个html页面的时候，每遇到一个html节点，就会访问这个
accept()方法，返回True的话就会将这个节点放进nodelist中，否则就不会将这个节点放进去。这个就是NodeFilter功能。
代码段一获取整个html页面时候parser.visitAllNodesWith(visitor); 就是获取所有节点
所以现在我们要趴取网页上的内容，只要告诉accept()这个方法，哪些节点要放进nodelist去，即遇到哪些节点需要返回true 。
于是
public boolean accept(Node node){
Node need=node;
if(getStringsByRegex(node.getText())){
for(int i=0;i6;i++){
result.add(need.toPlainTextString());need=need.getPreviousSibling().getPreviousSibling();
}
return true;
}
return false;
}
Parser类在遇到节点，就把这个节点拿过去问accept()，于是accept()方法分析，如果满足getStringsByRegex(node.getText())就要了
接下来分析getStringsByRegex()，只剩下最后一步了，大家坚持?。?
String regex="td class=\"no\"";
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(txt);
if (m.find()){
return true;
}
return false;
}
大家可以发现我们索要的每一段都是
tr align="center"
td 英镑/td
td100/td
td992.7/td
td1001.24/td
td993.26/td
td class="no"962.6/td
/tr
所以只要找到td class="no"这个节点就行了，我们用正则表达式去比较
String regex="td class=\"no\"";这个是比较标准（正则表达式 td class=”no”其中两个引号需要作为转义字符来表示成\“）
变量txt是我们传过去的需要比较的节点的node.getText()，如果符合的话m.find就是true,于是getStringsByRegex()返回true，说明这个节点就是我们所需要的哪些节点，于是
for(int i=0;i6;i++){
result.add(need.toPlainTextString());need=need.getPreviousSibling().getPreviousSibling();
}
每一段html，6个为一组，先是962.6，然后是993.26，1001.24，992.7 ， 100，英镑分别被add进result这个ArrayListString中去，返回，这个ArrayList装的就是我们需要抓取的数据
大家可以把我们所获得的String数据数出来试试看，是不是我们需要的顺序， main()函数获得ArrayListString，就可以显示到我们所需要的Java widget上去了

抓取网页的java代码抓取网页源代码( 三 )

推荐阅读

正版Win10装Win11是更新升级好还是重装系统好？

微信视频突然连接失败微信视频忽然连接失败

snkrs软件抢鞋的具体操作编步骤

苹果公司创新案例，苹果公司通过技术创新和网络营销为人们提供了视听效果更完美的

膝盖疼是因为缺钙吗？关节炎要补钙完全是胡说

华为电脑助手，华为PC助手电子书无法上传

山楂片和牛奶能一起吃吗

什么叫手机异地使用什么叫手机异地使用呢

西门子冰箱液晶板显示C？了解原因及解决方法

荠菜发黄了还能吃吗

你好，这是我的第一篇推送

抖音一半我很灿烂一半又很孤单是什么歌？一半一半歌词分享

徕卡T套机相机没法拍照的原因是什么

感冒后房间如何杀菌？

马桶坑距是啥意思马桶的坑距是什么意思

北京朝阳站是北京南站吗

高通|全新一代骁龙8移动平台受厂家追捧，下一代旗舰成“爆款”是必然

因子分析优点,风险因子理论的优点

计算机网络基础系列(二)计算机网络性能

液冷散热是什么意思

抓取网页的java代码 抓取网页源代码( 三 )

推荐阅读

抓取网页的java代码抓取网页源代码( 三 )