php實現(xiàn)scws中文分詞搜索的方法
更新時間:2015年12月25日 12:01:14 作者:釋然me
這篇文章主要介紹了php實現(xiàn)scws中文分詞搜索的方法,詳細介紹了scws中文分詞搜索的具體步驟與相關使用技巧,并提供了scws的本站下載地址,需要的朋友可以參考下
本文實例講述了php實現(xiàn)scws中文分詞搜索的方法。分享給大家供大家參考,具體如下:
1、4個文件(本站下載地址。)解壓后,放到一個地方 eg:E:/wamp/scws
2、php.ini 中配置
extension = php_scws.dll scws.default.charset = utf8 //配置默認的編碼方式 scws.default.fpath = "E:/wamp/scws" //加壓后文件的路徑
3、使用
$so = scws_new();
$so->set_charset('utf8'); //編碼
// 這里沒有調(diào)用 set_dict 和 set_rule 系統(tǒng)會自動試調(diào)用 ini 中指定路徑下的詞典和規(guī)則文件
$so->add_dict(ini_get('scws.default.fpath') . '/dict.utf8.xdb');
//$so->add_dict('./dd.txt',SCWS_XDICT_TXT);
$so->set_rule(ini_get('scws.default.fpath') . '/rules.utf8.ini');
$so->set_duality(0); //散字二元
$so->set_ignore(0); //忽略標點符號
$so->set_multi(0);
$wd='要搜索的內(nèi)容';
$so->send_text($wd);
while($tmp = $so->get_result())
//遍歷后即得到字符串分割后的內(nèi)容,
//根據(jù)得到的內(nèi)容分別到數(shù)據(jù)庫中查找(like匹配)
{
}
親自試驗了一下如下:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title>test</title>
</head>
<body>
<?php
function search($keywords,$table,$key1,$key2){
// (要查找的字符串,表名,字段一,字段二)如果就一個字段的話,$key2='';
$arr=array();
$str=array();
if( preg_match("/^[^\x80-\xff]+$/", $keywords)){//判斷keywords是否全為英文,全為英文的話按照字符串切割處理
$str1=explode(' ',$keywords); //先按照空格切割
foreach($str1 as $key=>$value)
{
$str2=explode(',',$value); //,切割
foreach($str2 as $k=>$v)
{
$str3=explode('.',$v); //。切割
foreach($str3 as $kk=>$vv)
{
array_push($arr,$vv);//處理完后,返回一個數(shù)組
}
}
}
}else{//對中文的分詞處理
$so = scws_new();
$so->set_charset('utf8');
// 這里沒有調(diào)用 set_dict 和 set_rule 系統(tǒng)會自動試調(diào)用 ini 中指定路徑下的詞典和規(guī)則文件
$so->add_dict(ini_get('scws.default.fpath') . '/dict.utf8.xdb');
$so->set_rule(ini_get('scws.default.fpath') . '/rules.utf8.ini');
$so->set_duality(0); //散字二元
$so->set_ignore(0); //忽略標點符號
$so->set_multi(0);
$so->send_text($keywords);
while ($tmp = $so->get_result())//得到一個數(shù)組,里面包含詞組和標點符號
{
foreach($tmp as $key=>$value)
{
$value=$value["word"];
if(preg_match("/^[一-龥]{6,21}$/", $value))//去除標點符號
{
array_push($arr,$value);
}
}
}
}
foreach($arr as $key=>$value)//便利得到的數(shù)組,到數(shù)據(jù)庫中匹配
{
if($key2!='')
{
$sql="select * from `$table` where `$key1` like '%$value%' or `$key2` like '%$value%'";
}else{
$sql="select * from `$table` where `$key1` like '%$value%'";
}
$query=mysql_query($sql);
array_push($str,$query);
}
return $str;
}
include('conn.php');
$keywords="哈哈lsd djk,hdjs dd";
$table='two_key';
$key1='address';
$key2='';
$query=search($keywords,$table,$key1,$key2);
foreach($query as $key=>$value)
{
while($row=mysql_fetch_array($value))
{
echo $row[id].'----'.$row[name].'-----'.$row[address].'<br>';
}
}
?>
</body>
</html>
希望本文所述對大家PHP程序設計有所幫助。
相關文章
PHP8使用Attributes管理代碼元數(shù)據(jù)的示例詳解
在PHP 8中引入了一項強大的功能,即"Attributes"(屬性),它們提供了一種新的方法來管理和操縱代碼元數(shù)據(jù),Attributes允許你在代碼中添加元數(shù)據(jù),本文給大家介紹了在PHP8中是如何使用Attributes管理代碼元數(shù)據(jù),需要的朋友可以參考下2023-12-12
采用PHP函數(shù)memory_get_usage獲取PHP內(nèi)存清耗量的方法
PHP性能優(yōu)化過程中需要獲取PHP內(nèi)存消耗,使用memory_get_usage()函數(shù)可獲取當前的內(nèi)存消耗情況,函數(shù)使用簡單,這里討論一下memory_get_usage()函數(shù)的用法與實例2011-12-12
PHP中include()與require()的區(qū)別說明
引用文件的方法有兩種:require 及 include。兩種方式提供不同的使用彈性。2010-03-03

