DOMDocument->loadHTML()处理中文的一点问题

Sunday, April 8th, 2007

DOM是php比较新的xml和html处理类,可以像javascript那样方便的操作DOM树,网上更多的是介绍它处理XML的情况,今天我来介绍一个用它处理html时的中文问题,php版本为5.1.6,所有php代码均为utf8编码。 我要处理的html是使用curl从网页上读取过来的,一个是百度的首页,gb2312字符集,一个是有道的首页,utf8字符集,两者的html头部分分别如下: <html><head><title>百度一下,你就知道 </title><meta http-equiv=Content-Type content=”text/html;charset=gb2312″>

......[阅读全文]

Tags: , , , , , ,