点击这里给我发消息 点击这里给我发消息

httpclient抓取网页内容

添加时间:2013-12-7
    相关阅读: 网页

    1.想下载远程URL地址的内容。可以使用httpclient现在整理一下相关的代码:

    而且解决中文乱码问题

    方法一:流转码

    public String convertStreamToString(InputStream is) throws UnsupportedEncodingException {

    BufferedReader reader = new BufferedReader(new InputStreamReader(is,"gbk"));

    StringBuilder sb = new StringBuilder();

    String line = null;

    try {

    while ((line = reader.readLine()) != null) { sb.append(line + "\n");

    }

    } catch (IOException e) {

    e.printStackTrace();

    } finally {

    try {

    is.close();

    } catch (IOException e) {

    e.printStackTrace();

    }

    }

    return sb.toString();

    }

    //下载内容

    private String urlContent(String urlString) throws HttpException, IOException {

    HttpClient client = new HttpClient();

    GetMethod get = new GetMethod("http://www.tianya.cn/publicforum/articleslist/0/no20.shtml"); client.executeMethod(get); System.out.print(get.getResponseCharSet()); InputStream iStream = get.getResponseBodyAsStream();

    String contentString = convertStreamToString(iStream);

    get.releaseConnection();

    return contentString;

    }

    通过GET方法能够实现下载网页内容出来的

咨询热线:020-85648757 85648755 85648616 0755-27912581 客服:020-85648756 0755-27912581 业务传真:020-32579052
广州市网景网络科技有限公司 Copyright◎2003-2008 Veelink.com. All Rights Reserved.
广州商务地址:广东省广州市黄埔大道中203号(海景园区)海景花园C栋501室
= 深圳商务地址:深圳市宝源路华丰宝源大厦606
研发中心:广东广州市天河软件园海景园区 粤ICP备05103322号 工商注册