抓取网页的java代码抓取网页源代码( 二 )

public class htmlmover {
public static void main(String[] args){
NodeList rt= getNodeList("");
System.out.println(rt.toHtml());
}
public static NodeList getNodeList(String url){
Parser parser = null;
HtmlPage visitor = null;
try {
parser = new Parser(url);
parser.setEncoding("GBK");
visitor = new HtmlPage(parser);
parser.visitAllNodesWith(visitor);
} catch (ParserException e) {
e.printStackTrace();
}
NodeList nodeList = visitor.getBody();
return nodeList;
}
}
以上代码，public static NodeList getNodeList(String url)为主体
传入需要分析网页的 url(String类型)，返回值是网页Html节点List(Nodelist类型)
这个方法我没有什么要说的，刚开始的时候没看懂（没接触过），后来用了几次也懂点皮毛了
注意： parser.setEncoding("GBK");可能你的工程编码格式是UTF-8,有错误的话需要改动
运行该程序
2.通过浏览器工具直接查看IE是按F12（刚开始没发现这个方法，于是傻乎乎地找上面的代码）
分析你所获得的html代码让人眼花缭乱，不要紧，找到自己需要趴取的内容，找到它上下文有特征的节点
!--中行牌价开始--
div id="sw01_con1"
table width="655" border="0" cellspacing="0" cellpadding="0" class="hgtab"
thead
tr
th width="85" align="center" class="th_l"交易币种/th
th width="80" align="center"交易单位/th
th width="130" align="center"现价(人民币)/th
th width="80" align="center"卖出价/th
th width="100" align="center"现汇买入价/th
th width="95" align="center"现钞买入价/th
/tr
/thead
tbody
tr align="center"
td 英镑/td
td100/td
td992.7/td
td1001.24/td
td993.26/td
td class="no"962.6/td
/tr
tr align="center" bgcolor="#f2f3f4"
td 港币/td
td100/td
td81.54/td
td82.13/td
td81.81/td
td class="no"81.16/td
/tr
tr align="center"
td 美元/td
td100/td
td635.49/td
td639.35/td
td636.8/td
td class="no"631.69/td
/tr
tr align="center" bgcolor="#f2f3f4"
td 瑞士法郎/td
td100/td
td710.89/td
td707.78/td
td702.14/td
td class="no"680.46/td
/tr
tr align="center"
td 新加坡元/td
td100/td
td492.45/td
td490.17/td
td486.27/td
td class="no"471.25/td
/tr
tr align="center" bgcolor="#f2f3f4"
td 瑞典克朗/td
td100/td
td93.66/td
td93.79/td
td93.04/td
td class="no"90.17/td
/tr
tr align="center"
td 丹麦克朗/td
td100/td
td116.43/td
td115.59/td
td114.67/td
td class="no"111.13/td
/tr
tr align="center" bgcolor="#f2f3f4"
td 挪威克朗/td
td100/td
td110.01/td
td109.6/td
td108.73/td
td class="no"105.37/td
/tr
!--{2011-10-01 23:16:00}--
/tbody
/table
/div
!--中行牌价结束--
大家可以看到这是一段很有规律，书写非常规范的Html代码（这只是第一部分，中行牌价，可以想像，接下来还会有并列的相似的3部分）
大家想截取这些节点中的数据
以下代码仍需导入htmlparserJava支持包
import java.util.ArrayList;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
public class Currencyrate {
public static void main(String[] args){
String url="";
ArrayListString rt= getNodeList(url);

抓取网页的java代码抓取网页源代码( 二 )

推荐阅读

梦见一只脚踩泥坑里,脚拔出来全是泥梦见一只脚

wifi客流分析,客流分析统计系统

离婚判决书可以代表离婚证吗，有判决书需要离婚证吗

redis内存上限 redis容量上限

孩子|孩子说话晚，不清楚是什么原因造成的？

什么叫电商费买房子电商是什么意思，房地产电商是什么意思

干姜花椒粥的营养价值

解爪兰怎么养啊

不同公司的新冠疫苗可以混打吗

手机充不进电怎么办？

g一加9 Pro最新高清渲染图曝光 6.55英寸挖孔曲面屏+后置矩阵四摄

深入理解 Java 中 SPI 机制

抖音草稿怎么修改图片,抖音草稿箱的视频怎么保存到手机

皇贵妃和贵妃区别

傈僳语喝酒怎么说，同心酒是云南哪个州市的特色饮食

暖宝宝能直接贴在皮肤上吗

柠檬鸡爪泡了一个星期还能吃吗

熬夜人群吃什么蔬菜好哪些食物可以缓解熬夜危害

桂鱼是鳜鱼吗

眉毛看相：从眉毛看一个人一生的运势吉凶

抓取网页的java代码 抓取网页源代码( 二 )

推荐阅读

抓取网页的java代码抓取网页源代码( 二 )