Java-编写一个截取字符串的函数,输入为一个字符串和字节数
编写一个截取字符串的函数,输入为一个字符串和字节数,输出为按字节截取的字符串。 但是要保证汉字不被截半个,如"我ABC"4,应该截为"我AB",输入"我ABC汉DEF",6,应该输出为"我ABC"而不是"我ABC+汉的半个
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
首先, Java String是基于Unicode, char是基本单元, 2个字节, 所以楼主你的问题错了. 应该是"输入为一个字符串和char数".
其次, Java里字符可以是1个char或2个char(2个字节或 4个字节). 具体细节参见:
http://docs.oracle.com/javase/tutorial/i18n/text/terminology.html
代码:
private String getSubStr(String str, int charCount){
char[] cArr=str.toCharArray();
int idx=0;
for(int count=0;count<charCount;idx++, count++){
if(Character.isHighSurrogate(cArr[idx]))idx++; //如果四字节, 多算一个char
}
return str.substring(0,idx); // substring() 按char计算
}
@Test
public void testtest(){
String str="uDBFFuDFFCabuDBFFuDFFD";
System.out.println("char #: "+str.length());
System.out.println("actual characters: #"+str.codePointCount(0, str.length()));
System.out.println("1 character: "+getSubStr(str,1));
System.out.println("2 character: "+getSubStr(str,2));
System.out.println("3 character: "+getSubStr(str,3));
System.out.println("4 character: "+getSubStr(str,4));
}
结果:
char #: 6
actual characters: #4
1 character: [特殊字符]
2 character: [特殊字符]a
3 character: [特殊字符]ab
4 character: [特殊字符]ab[特殊字符]
更改
楼主你的问题, 是不准确的. Java里, "我"和"A"都是一个char,两个byte.
@Test
public void testC(){
String str="我ABC";
String str1="我ABC汉DEF";
System.out.println("##"+str+"## length:"+str.length());
System.out.println("##"+str1+"## length:"+str1.length());
System.out.println("##"+str+"## codePointCount:"+str.codePointCount(0,str.length()));
System.out.println("##"+str1+"## codePointCount:"+str1.codePointCount(0,str1.length()));
}
结果:
##我ABC## length:4
##我ABC汉DEF## length:8
##我ABC## codePointCount:4
##我ABC汉DEF## codePointCount:8
所以我只能按我的理解给出答案. 如果你真的是想按char数截取又怕有截断,
用Character.isHighSurrogate()判断一下你要取的最后一个char, 如果true, 则substr多取一个char.
更新
当然还有一种情况,不考虑Java的char,String,单纯给一个编码(如gbk)的byte数组,然后按编码规则处理byte数组。这种情况最好拿到c语言环境下讨论,处理是一样的。
因为国标码汉字是两个字节,英文字母是一个字节,你可以在输入的时候对英文字母进行高位补零,输出的时候再去掉零就可以了