php抓取别的网站数据 php网页抓取

怎么用php采集网站数据

简单的分了几个步骤:

目前成都创新互联公司已为近千家的企业提供了网站建设、域名、网页空间、成都网站托管、企业网站设计、安丘网站维护等服务,公司将坚持客户导向、应用为本的策略,正道将秉承"和谐、参与、激情"的文化,与客户和合作伙伴齐心协力一起成长,共同发展。

1、确定采集目标

2、获取目标远程页面内容(curl、file_get_contents)

3、分析页面html源码,正则匹配你需要的内容(preg_match、preg_match_all),这一步最为重要,不同页面正则匹配规则不一样

4、入库

php获取网页源码内容有哪些办法?

1、使用file_get_contents获得网页源代码。这个方法最常用,只需要两行代码即可,非常简单方便。

2、使用fopen获得网页源代码。这个方法用的人也不少,不过代码有点多。

3、使用curl获得网页源代码。使用curl获得网页源代码的做法,往往是需要更高要求的人使用,例如当你需要在抓取网页内容的同时,得到网页header信息,还有ENCODING编码的使,USERAGENT的使用等等。

所谓的网页代码,就是指在网页制作过程中需要用到的一些特殊的"语言",设计人员通过对这些"语言"进行组织编排制作出网页,然后由浏览器对代码进行"翻译"后才是我们最终看到的效果。

制作网页时常用的代码有HTML,JavaScript,ASP,PHP,CGI等,其中超文本标记语言(标准通用标记语言下的一个应用、外语简称:HTML)是最基础的网页代码。

php获取指定网页内容

一、用file_get_contents函数,以post方式获取url

?php

$url= '';

$data= array('foo'= 'bar');

$data= http_build_query($data);

$opts= array(

'http'= array(

'method'= 'POST',

'header'="Content-type: application/x-www-form-urlencoded\r\n"  .

"Content-Length: "  . strlen($data) . "\r\n",

'content'= $data

)

);

$ctx= stream_context_create($opts);

$html= @file_get_contents($url,'',$ctx);

二、用file_get_contents以get方式获取内容

?php

$url='';

$html= file_get_contents($url);

echo$html;

?

三、用fopen打开url, 以get方式获取内容

?php

$fp= fopen($url,'r');

$header= stream_get_meta_data($fp);//获取报头信息

while(!feof($fp)) {

$result.= fgets($fp, 1024);

}

echo"url header: {$header} br":

echo"url body: $result";

fclose($fp);

?

四、用fopen打开url, 以post方式获取内容

?php

$data= array('foo2'= 'bar2','foo3'='bar3');

$data= http_build_query($data);

$opts= array(

'http'= array(

'method'= 'POST',

'header'="Content-type: application/x-www-form-

urlencoded\r\nCookie:cook1=c3;cook2=c4\r\n"  .

"Content-Length: "  . strlen($data) . "\r\n",

'content'= $data

)

);

$context= stream_context_create($opts);

$html= fopen(';id2=i4','rb',false, $context);

$w=fread($html,1024);

echo$w;

?

五、使用curl库,使用curl库之前,可能需要查看一下php.ini是否已经打开了curl扩展

?php

$ch= curl_init();

$timeout= 5;

curl_setopt ($ch, CURLOPT_URL, '');

curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);

curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT, $timeout);

$file_contents= curl_exec($ch);

curl_close($ch);

echo$file_contents;

?

请问php怎样抓取其它网站的动态数据,显示在自己的网页内并同步更新。

先获取整个网页的内容,然后匹配到你说的数据,嵌套到自己的网站,隔一段时间ajax运行一次。

thinkphp怎么抓其他网站数据demo

给你个思路, 看你抓的页面有多少, 少的话就一个接口就好, 多的话最好起和后台任务那跑.

先用curl模拟常用浏览器数据, 发起请求获取html数据, 获取后写不来正则表达式的可以利用一些插件如phpquery等解析html然后获取相应数据, 写的来正则表达式的, 随便写几行就可以抓取数据了, 最后再保存好就行


网站名称:php抓取别的网站数据 php网页抓取
文章地址:http://scyanting.com/article/hhedis.html