真正根據(jù)utf8編碼的規(guī)律來進(jìn)行截取字符串的函數(shù)(utf8版sub_str )
更新時(shí)間:2012年10月24日 01:53:08 作者:
真正根據(jù)utf8編碼的規(guī)律來進(jìn)行截取的字符的函數(shù),utf8版sub_str 支持1~6個(gè)字節(jié)的字符的截取,而非只針對(duì)中文,比網(wǎng)上的全
復(fù)制代碼 代碼如下:
/*
* 功能: 作用跟substr一樣,除了它不會(huì)造成亂碼
* 參數(shù):
* 返回:
*/
function utf8_substr( $str , $start , $length=null ){
// 先正常截取一遍.
$res = substr( $str , $start , $length );
$strlen = strlen( $str );
/* 接著判斷頭尾各6字節(jié)是否完整(不殘缺) */
// 如果參數(shù)start是正數(shù)
if ( $start >= 0 ){
// 往前再截取大約6字節(jié)
$next_start = $start + $length; // 初始位置
$next_len = $next_start + 6 <= $strlen ? 6 : $strlen - $next_start;
$next_segm = substr( $str , $next_start , $next_len );
// 如果第1字節(jié)就不是 完整字符的首字節(jié), 再往后截取大約6字節(jié)
$prev_start = $start - 6 > 0 ? $start - 6 : 0;
$prev_segm = substr( $str , $prev_start , $start - $prev_start );
}
// start是負(fù)數(shù)
else{
// 往前再截取大約6字節(jié)
$next_start = $strlen + $start + $length; // 初始位置
$next_len = $next_start + 6 <= $strlen ? 6 : $strlen - $next_start;
$next_segm = substr( $str , $next_start , $next_len );
// 如果第1字節(jié)就不是 完整字符的首字節(jié), 再往后截取大約6字節(jié).
$start = $strlen + $start;
$prev_start = $start - 6 > 0 ? $start - 6 : 0;
$prev_segm = substr( $str , $prev_start , $start - $prev_start );
}
// 判斷前6字節(jié)是否符合utf8規(guī)則
if ( preg_match( '@^([\x80-\xBF]{0,5})[\xC0-\xFD]?@' , $next_segm , $bytes ) ){
if ( !empty( $bytes[1] ) ){
$bytes = $bytes[1];
$res .= $bytes;
}
}
// 判斷后6字節(jié)是否符合utf8規(guī)則
$ord0 = ord( $res[0] );
if ( 128 <= $ord0 && 191 >= $ord0 ){
// 往后截取 , 并加在res的前面.
if ( preg_match( '@[\xC0-\xFD][\x80-\xBF]{0,5}$@' , $prev_segm , $bytes ) ){
if ( !empty( $bytes[0] ) ){
$bytes = $bytes[0];
$res = $bytes . $res;
}
}
}
return $res;
}
測試數(shù)據(jù)::
復(fù)制代碼 代碼如下:
<?php
$str = 'dfjdjf測13f試65&2數(shù)據(jù)fdj(1就mfe&……就';
var_dump( utf8_substr( $str , 22 , 12 ) ); echo ' <br /> ';
var_dump( utf8_substr( $str , 22 , -6 ) ); echo ' <br /> ';
var_dump( utf8_substr( $str , 9 , 12 ) ); echo ' <br /> ';
var_dump( utf8_substr( $str , 19 , 12 ) ); echo ' <br /> ';
var_dump( utf8_substr( $str , 28 , -6 ) ); echo ' <br /> ';
顯示結(jié)果::(截取無亂碼, 歡迎大家測試, 提交bug)
string(12) "據(jù)fdj"
string(26) "據(jù)fdj(1就mfe&…"
string(13) "13f試65&2數(shù)"
string(12) "數(shù)據(jù)fd"
string(20) "dj(1就mfe&…"
您可能感興趣的文章:
- Oracle將字符編碼從GBK轉(zhuǎn)到UTF8,如何操作比較穩(wěn)妥?
- php字符編碼轉(zhuǎn)換之gb2312轉(zhuǎn)為utf8
- PHP截?cái)鄻?biāo)題且兼容utf8和gb2312編碼
- JoshChen_web格式編碼UTF8-無BOM的小細(xì)節(jié)分析
- js 編碼轉(zhuǎn)換 gb2312 和 utf8 互轉(zhuǎn)的2種方法
- 基于php導(dǎo)出到Excel或CSV的詳解(附utf8、gbk 編碼轉(zhuǎn)換)
- MySql修改數(shù)據(jù)庫編碼為UTF8避免造成亂碼問題
- PHP utf-8編碼問題,utf8編碼,數(shù)據(jù)庫亂碼,頁面顯示輸出亂碼
- php驗(yàn)證手機(jī)號(hào)碼(支持歸屬地查詢及編碼為UTF8)
- 查看修改mysql編碼方式讓它支持中文(gbk或者utf8)
- 多種語言(big5\gbk\gb2312\utf8\Shift_JIS\iso8859-1)的網(wǎng)頁編碼切換解決方案歸納
- Mysql數(shù)據(jù)庫編碼問題 (修改數(shù)據(jù)庫,表,字段編碼為utf8)
- ASP關(guān)于編碼的幾個(gè)有用的函數(shù)小結(jié)(utf8)
- XMLHTTP 亂碼的解決方法(UTF8,GB2312 編碼 解碼)
- PHP UTF8編碼內(nèi)的繁簡轉(zhuǎn)換類
- UTF8編碼內(nèi)的繁簡轉(zhuǎn)換的PHP類
- PHP 截取字符串 分別適合GB2312和UTF8編碼情況
- utf8編碼檢測方法分享
相關(guān)文章
使用PHP socke 向指定頁面提交數(shù)據(jù)
一直以為有了ajax別人網(wǎng)站的數(shù)據(jù)就可以拿過來用,這也是我這幾天想的一個(gè)方像,但是用了firefox測試之后,現(xiàn)在不能,2008-07-07
基于php實(shí)現(xiàn)的驗(yàn)證碼小程序
本文主要介紹了基于php實(shí)現(xiàn)的驗(yàn)證碼小程序的具體實(shí)現(xiàn)方法,并做了詳細(xì)注釋,有利于理解與學(xué)習(xí),需要的朋友一起來看下吧2016-12-12
php擴(kuò)展Zend?Framework框架——Validate擴(kuò)展
這篇文章介紹了php擴(kuò)展Zend?Framework框架,文中通過示例代碼介紹的非常詳細(xì)。對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2008-01-01
支持生僻字且自動(dòng)識(shí)別utf-8編碼的php漢字轉(zhuǎn)拼音類
這篇文章主要介紹了支持生僻字且自動(dòng)識(shí)別utf-8編碼的php漢字轉(zhuǎn)拼音類,非常實(shí)用!需要的朋友可以參考下2014-06-06
PHP實(shí)現(xiàn)統(tǒng)計(jì)一個(gè)數(shù)字在排序數(shù)組中出現(xiàn)次數(shù)的方法
這篇文章主要介紹了PHP實(shí)現(xiàn)統(tǒng)計(jì)一個(gè)數(shù)字在排序數(shù)組中出現(xiàn)次數(shù)的方法,涉及php基于二分查找算法在數(shù)組中進(jìn)行查找及統(tǒng)計(jì)的相關(guān)操作技巧,需要的朋友可以參考下2018-01-01
如何使用Laravel Eloquent來開發(fā)無限極分類
在網(wǎng)上商城上,我們經(jīng)??梢钥吹蕉嗉?jí)分類、子分類、甚至無限極分類。本文將向你展示如何優(yōu)雅的通過 Laravel Eloquent 將其實(shí)現(xiàn)。2021-05-05
php 從數(shù)據(jù)庫提取二進(jìn)制圖片的處理代碼
形式上類似UCH 只是存儲(chǔ)方式不一樣 本人比較愚鈍 這個(gè)問題困惑了我半天 希望對(duì)有同樣問題的phper有所幫助 高手們別見笑!2009-09-09

