htmlparser是一个纯的java写的html解析的库,它不依赖于其它的java库文件. 下载地址为: http://htmlparser.sourceforge.net
新浪博客文章html页面:
// 新浪博客韩寒的一篇文章内容部分的tag, 文章地址:http://blog.sina.com.cn/s/blog_4701280b0100jbqq.html
<div class="articalContent" id="sina_keyword_ad_area2"><p STYLE="TexT-inDenT: 2em">
谢谢我的对手,你们让我学到很多,让我知道长路漫漫。关于类似的一切,我的看法从未改变。两年前我就已经说过一遍,雷同观点如今不想再多说了,说来说去都是一样,说多了就累了,在累之前我认输,否则就灰心了。你们胜利了,请随意。如果你是我的读者,我希望你们不要以任何名义去驱逐任何一种文化,更不要想教训和消灭它的受众群体,无论是文化还是政治都不能排他,也不能代替别人做出选择,哪怕它很傻,哪怕它不合你的口味,只要它不反人类。我曾经无意识的带领你们去往各个博客铲除异己,如今我欣喜的看到我们共同的进步,四年前的我一定带不走今天的你。热血一定要洒在它该洒的地方,否则它就叫鸡血。在此我也正式向现代诗歌以及现代诗人道歉,三年前我的观点是错的,对你们造成的伤害带来的误会,我很愧疚,碍于面子,一直没说,希望你们的原谅与理解。愿文化之间,年代之间,国家之间都能消除成见,为了……你知道的。</P>
<p STYLE="TexT-inDenT: 2em">我看好阿根廷。</P></div>
观察html文档可知, 只要抽取出名为div 且属性class为articlecontent的tag(标签)就可以找到文章正文. 下面看代码:
public static String getContent(String urlString)
throws Exception
{
URL url = new URL(urlString);
URLConnection conn = url.openConnection();
conn.setDoInput(true);
conn.setDoOutput(true);
conn.setRequestProperty("User-Agent",
"Mozilla/4.0 (compatible; MSIE 7.0;)");
conn
.setRequestProperty(
"Accept",
"image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, application/x-shockwave-flash, application/msword, application/vnd.ms-excel, application/vnd.ms-powerpoint, */*");
BufferedReader reader = new BufferedReader(
new InputStreamReader(conn.getInputStream(), "utf-8"));
String line = "";
StringBuilder sb = new StringBuilder();
while ((line = reader.readLine()) != null) {
sb.append(line + "\r\n");
}
return sb.toString();
}
private String processText(String content)
{
content = content.trim().replaceAll(" ", " ");
return content;
}
public String getSinaArticleContent(String url)
throws Exception
{
String content = getContent(url);
StringBuilder sb = new StringBuilder();
Parser parser = Parser.createParser(content, "utf-8");
AndFilter filter = new AndFilter(new TagNameFilter("div"),
new HasAttributeFilter("class", "articalContent"));
Node node = null;
NodeList nodeList = parser.extractAllNodesThatMatch(filter);
for (int i = 0; i < nodeList.size(); ++i) {
node = nodeList.elementAt(i);
sb.append(node.toPlainTextString());
}
return processText(sb.toString());
}
public static void main(String[] args)
throws Exception
{
ParserTester pt = new ParserTester();
System.out.println(pt.getSinaArticleContent("http://blog.sina.com.cn/s/blog_4701280b0100jbqq.html"));
}
效果:
- 大小: 17.6 KB
分享到:
相关推荐
可以直接运行。java利用htmlparser抓取网页数据
Java使用HtmlParser抓取网页数据并解析
Java使用HtmlParser实现简单的网络爬虫,爬虫DEMO,Java 使用 HtmlParser 抓取网页数据并解析以及说明
Htmlparser jar 包 java 实例
自己写的一个网页抓取例子。抓取国家专利局的专利状态。
JAVA htmlparser 使用实例
用htmlparser获取论坛帖子内容的测试代码
Java正则表达式入门 + HTMLParser使用详解 Java正则表达式入门 + HTMLParser使用详解 Java正则表达式入门 + HTMLParser使用详解 Java正则表达式入门 + HTMLParser使用详解
htmlparser:cpp htmlparser实现
利用htmlparser爬虫工具抓取门户网站上新闻,代码实现了网易、搜狐、新浪网上的新闻抓取。
java htmlparser 解析网页源码
javajsp中使用HTMLParser htmlparser用于 对html页面进行解析,它是一个功能比较强大的工具。
java源码:HTML文档解析器 HTMLParser.rar
通过JAVA组件:HTMLPARSER,实现解析HTML文档
Htmlparser,Jar包,Java,页面解析
META-INF/maven/org.htmlparser/htmlparser/pom.properties META-INF/maven/org.htmlparser/htmlparser/pom.xml org.htmlparser.Parser.class org.htmlparser.PrototypicalNodeFactory.class org.htmlparser.beans....
资源名称:扩展HTMLParser对自定义标签的处理能力内容简介: HTMLParser是一个用来解析HTML文档的开放源码项目,它具有小巧、快速、使用简单的特点以及拥有强大的功能。 现在该项目的最新版本是Integration Build ...
生态系统姓名描述 快速而宽容HTML / XML解析器 htmlparser2的处理程序,可将文档转换为DOM 使用domhandler的DOM的实用程序CSS选择器引擎,与domhandler的DOM兼容domhandler DOM的jQuery API domhandler DOM的序列化...
htmlparser实现从网页上抓取数据
使用 htmlparser2 进行递归 DOM 遍历。 入门 安装模块: npm install walkers var walkers = require ( '../lib/walkers.js' ) ; var request = require ( 'request' ) ; var htmlparser = require ( "htmlparser2...