Java论坛网»Java技术»关于网页萃取的问题,高手请进
关于网页萃取的问题,高手请进
问?:
我的需求是这样的
我要写一个程序,从网页中把我想要的数据解析出来然后写入数据库,这些信息是经过分页处理的,网页的格式如下:
---------------------
姓名|年龄|身份证号码|
XXXX|XXXX|XXXXXXXXX|
XXXX|XXXX|XXXXXXXXX|
XXXX|XXXX|XXXXXXXXX|
XXXX|XXXX|XXXXXXXXX|
XXXX|XXXX|XXXXXXXXX|
--------------------
下一页
我的思路是这样的
用url获的第一页的连接 new url("http://djjjj.jsp?sql="dfsfs"&dd="lkk")
通过url.openstream把此页的数据读取到字符串中,然后再用正则表达式查找出要写入数据库的数据,写入数据库,在查找到《下一页》的连接,然后再用new url("http://djjjj.jsp?startid=222&endid=33")得到下一页的数据,一直循环下去,直到读完所有的页。
问题是:
我读第一页的数据是正常的,但是通过《下一页》的连接读取第二页的数据的时候,得到的数据不是正常在ie中点击下一页的时候数据,。
望各位高手指点迷津。我曾经怀疑,是在得到下一页的连接的时候,用new url("")原来的访问环境就变了。
如果帮助解决,50分,不在乎多少分
我要写一个程序,从网页中把我想要的数据解析出来然后写入数据库,这些信息是经过分页处理的,网页的格式如下:
---------------------
姓名|年龄|身份证号码|
XXXX|XXXX|XXXXXXXXX|
XXXX|XXXX|XXXXXXXXX|
XXXX|XXXX|XXXXXXXXX|
XXXX|XXXX|XXXXXXXXX|
XXXX|XXXX|XXXXXXXXX|
--------------------
下一页
我的思路是这样的
用url获的第一页的连接 new url("http://djjjj.jsp?sql="dfsfs"&dd="lkk")
通过url.openstream把此页的数据读取到字符串中,然后再用正则表达式查找出要写入数据库的数据,写入数据库,在查找到《下一页》的连接,然后再用new url("http://djjjj.jsp?startid=222&endid=33")得到下一页的数据,一直循环下去,直到读完所有的页。
问题是:
我读第一页的数据是正常的,但是通过《下一页》的连接读取第二页的数据的时候,得到的数据不是正常在ie中点击下一页的时候数据,。
望各位高手指点迷津。我曾经怀疑,是在得到下一页的连接的时候,用new url("")原来的访问环境就变了。
如果帮助解决,50分,不在乎多少分
答!: 1:
友情UP
答!: 2:
你是高手
答!: 3:
把url打印出来.debug撒
答!: 4:
url打印出来了...
直接粘贴到地址栏中可以访问到网页...但是读取不到内容...
直接粘贴到地址栏中可以访问到网页...但是读取不到内容...
相关JAVA教程:
学java刚入门,请问一个designer的问题!
struts关于页面链接跳转。。。
初次接触hibernate不解!
【新书推荐】精通Spring——Java轻量级架构开发实践
ajax返回值转换问题
问个最简单的JSF问题,<a href="1.jsf?id=1">连接 </a>怎么获取这个id,怎么回去,然后传递给?
struts中的logic的使用!!!求助!!!!!急急急!!!!
[求助]struts *.do 连接在tomcat下可以找到,在apache http server+tomcat 下找不到
在线求助:请问在EJB中如何将日期的时间信息(时 分 秒)传到数据库
小弟建了一个Java GUI技术交流,望大家支技
最活跃的深圳程序员群
各位熟悉财务的兄弟,请进来指教一下,这个问题非常困扰俺,谢谢