洪恩在線成語詞典小偷程序php版
更新時間:2012年04月20日 17:20:51 作者:
去年在學(xué)習(xí)用php做小偷程序時的一個練習(xí)之作,希望能給有同樣需求的朋友帶來些幫助,程序主要流程是獲取洪恩在線的成語詞典查詢結(jié)果并在當(dāng)前頁面顯示出來(俗稱小偷程序),使用語言為php
主要函數(shù)是file_get_contents,主程序分兩段,跟我一起看過來吧(凡人博客原創(chuàng)代碼,轉(zhuǎn)載請注明)。
function escape($str){
preg_match_all('/[\x80-\xff].|[\x01-\x7f]+/',$str,$r);
$ar = $r[0];
foreach($ar as $k=>$v){
if(ord($v[0]) < 128)
$ar[$k] = rawurlencode($v);
else
$ar[$k] = '%u'.bin2hex(iconv('GB2312','UCS-2',$v));
}
return join('',$ar);
}
上面的函數(shù)主要是用php實現(xiàn)JavaScript的escape編碼過程,因為洪恩的查詢接口需要傳遞過去的值是經(jīng)過escape編碼后的成語條目。
function chacy($chengyu){
$chengyu=escape($chengyu);
$text=@file_get_contents('http://study.hongen.com/dict/ndsearchchengyu.aspx?type=exact&word='.$chengyu);
$pos1=strpos($text,'<table class="root">');
$pos2=strrpos($text,'<table class="english">');
$text=substr($text,$pos1,$pos2-$pos1);
//把字符集由原來的UTF-8轉(zhuǎn)換到GB2312,注意在GB2312之后加上了//IGNORE,強(qiáng)制遇到特殊字符也繼續(xù)轉(zhuǎn)換,因為在遇到漢字“一”的時候iconv函數(shù)會終止轉(zhuǎn)換
$text=iconv('UTF-8','GB2312//IGNORE',$text);
if (strpos($text,'出處')){
return $text;
}
}
上面是自己定義的成語查詢函數(shù),首先escape編碼要查詢的成語條目,然后使用file_get_contents函數(shù)獲取“http://study.hongen.com/dict/ndsearchchengyu.aspx?type=exact&word=”頁面查詢的內(nèi)容,使用substr去除前后一些不需要的多余代碼,中間就是成語條目的解釋部分(包括拼音、解釋、出處、例句),最后記得要轉(zhuǎn)碼,洪恩返回的結(jié)果是UTF-8編碼,一般情況下我們需要轉(zhuǎn)換為GB2312編碼,上面我寫了一個有關(guān)iconv函數(shù)轉(zhuǎn)換編碼有時會出現(xiàn)bug的注釋文本,需要加上一個//IGNORE參數(shù)。最后判斷結(jié)果中是否存在“出處”二字,有的話說明整個函數(shù)運行成功,可以把獲取到的內(nèi)容return給頁面了。
程序主體實現(xiàn)完成,只需在相應(yīng)位置調(diào)用查詢函數(shù):chacy 就可以了。
復(fù)制代碼 代碼如下:
function escape($str){
preg_match_all('/[\x80-\xff].|[\x01-\x7f]+/',$str,$r);
$ar = $r[0];
foreach($ar as $k=>$v){
if(ord($v[0]) < 128)
$ar[$k] = rawurlencode($v);
else
$ar[$k] = '%u'.bin2hex(iconv('GB2312','UCS-2',$v));
}
return join('',$ar);
}
上面的函數(shù)主要是用php實現(xiàn)JavaScript的escape編碼過程,因為洪恩的查詢接口需要傳遞過去的值是經(jīng)過escape編碼后的成語條目。
復(fù)制代碼 代碼如下:
function chacy($chengyu){
$chengyu=escape($chengyu);
$text=@file_get_contents('http://study.hongen.com/dict/ndsearchchengyu.aspx?type=exact&word='.$chengyu);
$pos1=strpos($text,'<table class="root">');
$pos2=strrpos($text,'<table class="english">');
$text=substr($text,$pos1,$pos2-$pos1);
//把字符集由原來的UTF-8轉(zhuǎn)換到GB2312,注意在GB2312之后加上了//IGNORE,強(qiáng)制遇到特殊字符也繼續(xù)轉(zhuǎn)換,因為在遇到漢字“一”的時候iconv函數(shù)會終止轉(zhuǎn)換
$text=iconv('UTF-8','GB2312//IGNORE',$text);
if (strpos($text,'出處')){
return $text;
}
}
上面是自己定義的成語查詢函數(shù),首先escape編碼要查詢的成語條目,然后使用file_get_contents函數(shù)獲取“http://study.hongen.com/dict/ndsearchchengyu.aspx?type=exact&word=”頁面查詢的內(nèi)容,使用substr去除前后一些不需要的多余代碼,中間就是成語條目的解釋部分(包括拼音、解釋、出處、例句),最后記得要轉(zhuǎn)碼,洪恩返回的結(jié)果是UTF-8編碼,一般情況下我們需要轉(zhuǎn)換為GB2312編碼,上面我寫了一個有關(guān)iconv函數(shù)轉(zhuǎn)換編碼有時會出現(xiàn)bug的注釋文本,需要加上一個//IGNORE參數(shù)。最后判斷結(jié)果中是否存在“出處”二字,有的話說明整個函數(shù)運行成功,可以把獲取到的內(nèi)容return給頁面了。
程序主體實現(xiàn)完成,只需在相應(yīng)位置調(diào)用查詢函數(shù):chacy 就可以了。
您可能感興趣的文章:
- 一個圖片地址分解程序(用于PHP小偷程序)
- php下通過IP獲取地理位置的代碼(小偷程序)
- PHP通過CURL實現(xiàn)定時任務(wù)的圖片抓取功能示例
- 利用php抓取蜘蛛爬蟲痕跡的示例代碼
- PHP抓取HTTPS內(nèi)容和錯誤處理的方法
- PHP怎樣用正則抓取頁面中的網(wǎng)址
- PHP抓取淘寶商品的用戶曬單評論+圖片+搜索商品列表實例
- PHP網(wǎng)頁抓取之抓取百度貼吧郵箱數(shù)據(jù)代碼分享
- 分享PHP源碼批量抓取遠(yuǎn)程網(wǎng)頁圖片并保存到本地的實現(xiàn)方法
- php curl抓取網(wǎng)頁的介紹和推廣及使用CURL抓取淘寶頁面集成方法
- PHP小偷程序的設(shè)計與實現(xiàn)方法詳解
相關(guān)文章
Search File Contents PHP 搜索目錄文本內(nèi)容的代碼
這個類可以用來搜索在給定的文本目錄中的文件。它可以給定目錄遍歷遞歸查找某些文件擴(kuò)展名的文件。2010-02-02
PHP導(dǎo)出MySQL數(shù)據(jù)到Excel文件(fputcsv)
經(jīng)常會碰到需要從數(shù)據(jù)庫中導(dǎo)出數(shù)據(jù)到Excel文件,用一些開源的類庫,比如PHPExcel,確實比較容易實現(xiàn),但對大量數(shù)據(jù)的支持很不好,很容易到達(dá)PHP內(nèi)存使用上限。2011-07-07
PHP封裝PDO實現(xiàn)操作MySql數(shù)據(jù)庫
數(shù)據(jù)庫操作類可以封裝數(shù)據(jù)庫連接和操作,使代碼更易于維護(hù)和擴(kuò)展,這篇文章主要為大家詳細(xì)介紹了PHP如何封裝操作類PDO從而實現(xiàn)操作MySql數(shù)據(jù)庫的功能,需要的可以了解下2023-10-10
PHP動態(tài)編譯出現(xiàn)Cannot find autoconf的解決方法
這篇文章主要介紹了PHP動態(tài)編譯出現(xiàn)Cannot find autoconf的解決方法,是PHP程序設(shè)計中經(jīng)常會遇到的問題,需要的朋友可以參考下2014-11-11
php使用function_exists判斷函數(shù)可用的方法
這篇文章主要介紹了php使用function_exists判斷函數(shù)可用的方法,通過一個圖像處理函數(shù)中使用function_exists函數(shù)判斷并輸出來實現(xiàn)函數(shù)存在判斷與流程靈活控制的功能,具有很好的借鑒價值,需要的朋友可以參考下2014-11-11

