Java編程通過(guò)匹配合并數(shù)據(jù)實(shí)例解析(數(shù)據(jù)預(yù)處理)
本文研究的主要是Java編程通過(guò)匹配合并數(shù)據(jù)(數(shù)據(jù)預(yù)處理)的相關(guān)內(nèi)容,具體如下。
數(shù)據(jù)描述
以下程序是對(duì)如下格式的數(shù)據(jù)進(jìn)行合并處理。

這個(gè)表的每一行表示用戶(hù)id及用戶(hù)的特征。其中,一個(gè)用戶(hù)只有一個(gè)特征向量,即第一列不會(huì)重復(fù)。

這張表的第一列,表示用戶(hù)的id,第二列表示用戶(hù)所看的電影,第三列表示用戶(hù)對(duì)電影的打分(1-13分),第四列表示用戶(hù)對(duì)電影的打分,但分值范圍是1-5分。
問(wèn)題描述
在做數(shù)據(jù)預(yù)處理時(shí),如何將第二張表添加上用戶(hù)特征呢?其實(shí),方法很簡(jiǎn)單,將第二張表的用戶(hù)id與第一張表的用戶(hù)id進(jìn)行匹配就行。合并結(jié)果如下圖所示。

數(shù)據(jù)處理程序
package deal;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.math.BigDecimal;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
/*
* author:合肥工業(yè)大學(xué) 管院學(xué)院 錢(qián)洋
* email:1563178220@qq.com
*/
public class GetPUser {
public static List<String> readDocs(String docsPath,String code) throws IOException{
BufferedReader reader = new BufferedReader( new InputStreamReader( new FileInputStream( new File(docsPath)),code));
String s=null;
List<String> userproductscore=new ArrayList<String>();
while ((s=reader.readLine())!=null) {
userproductscore.add(s);
}
reader.close();
return userproductscore;
}
public static HashMap<String, String> MAPread(String docsPath1,String code1) throws IOException{
BufferedReader reader1 = new BufferedReader( new InputStreamReader( new FileInputStream( new File(docsPath1)),code1));
String s1=null;
HashMap<String,String> userfeaturemap=new HashMap<String,String>();
while ((s1=reader1.readLine())!=null) {
String arr[]=s1.split("\t");
String feature="";
for (int i = 1; i < arr.length; i++) {
BigDecimal db = new BigDecimal(arr[i]);
String ii = db.toPlainString();
feature+=ii+" ";
}
userfeaturemap.put(s1.split("\t")[0], feature);
}
reader1.close();
return userfeaturemap;
}
public static List<String> match(List<String> userproductscore,HashMap<String, String> userfeaturemap) throws IOException{
List<String> userscoreandfeature=new ArrayList<>();
for (int i = 0; i < userproductscore.size(); i++) {
//獲取用戶(hù)id
String user_id=userproductscore.get(i).split("\t")[0];
//獲取用戶(hù)特征
String userfeature = userfeaturemap.get(user_id);
userscoreandfeature.add(userproductscore.get(i)+"\t"+userfeature);
System.out.println(userproductscore.get(i)+"\t"+userfeature);
}
return userscoreandfeature;
}
public static void main(String[] args) throws IOException {
//讀取兩個(gè)文本
List<String> userproductscore=readDocs("data/train/ydata-ymovies-user-movie-ratings-train-v1_0.txt","gbk");
HashMap<String, String> userfeaturemap=MAPread("data/fileofuser/yahoo.txt","utf-8");
//匹配結(jié)果
match(userproductscore,userfeaturemap);
}
}
總結(jié)
以上就是本文關(guān)于Java編程通過(guò)匹配合并數(shù)據(jù)實(shí)例解析(數(shù)據(jù)預(yù)處理)的全部?jī)?nèi)容,希望對(duì)大家有所幫助。感興趣的朋友可以繼續(xù)參閱本站其他相關(guān)專(zhuān)題,如有不足之處,歡迎留言指出。感謝朋友們對(duì)本站的支持!
相關(guān)文章
一文詳解Java中的監(jiān)聽(tīng)器(Listener)
這篇文章主要介紹了Java中監(jiān)聽(tīng)器(Listener)的相關(guān)資料,監(jiān)聽(tīng)器模式是一種設(shè)計(jì)模式,用于處理異步事件和通知,文中通過(guò)代碼介紹的非常詳細(xì),需要的朋友可以參考下2025-03-03
Java中ThreadLocal?導(dǎo)致內(nèi)存?OOM?的原因分析
這篇文章主要介紹了Java中ThreadLocal導(dǎo)致內(nèi)存OOM的原因分析,文章基于Java的相關(guān)內(nèi)容展開(kāi)ThreadLocal導(dǎo)致內(nèi)存OOM的原因分析,需要的小伙v阿布可以參考一下2022-05-05
Idea中maven無(wú)法下載依賴(lài)包問(wèn)題解決
用過(guò)idea開(kāi)發(fā)過(guò)項(xiàng)目的同學(xué),偶爾會(huì)遇到項(xiàng)目中有一些依賴(lài)沒(méi)法下載,或者依賴(lài)包已經(jīng)有項(xiàng)目卻無(wú)法掃到的問(wèn)題,本文就詳細(xì)的介紹了解決方法,感興趣的可以了解一下2020-08-08
idea創(chuàng)建maven父子工程導(dǎo)致子工程無(wú)法導(dǎo)入父工程依賴(lài)
創(chuàng)建maven父子工程時(shí)遇到一個(gè)問(wèn)題,本文主要介紹了idea創(chuàng)建maven父子工程導(dǎo)致子工程無(wú)法導(dǎo)入父工程依賴(lài),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2022-04-04
解決MyBatis返回結(jié)果類(lèi)型為Boolean的問(wèn)題
這篇文章主要介紹了解決MyBatis返回結(jié)果類(lèi)型為Boolean的問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-11-11

