台山同学网

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 2979|回复: 2

用电脑编写的《简明广州音字典》如何统计成语

[复制链接]

该用户从未签到

5

主题

59

帖子

257

积分

排长

积分
257
发表于 2008-6-17 20:40:13 | 显示全部楼层 |阅读模式

用电脑编写的《简明广州音字典》如何统计成语

《简明广州音字典》是用数据库编写的。《字典》中有多少四字成语?我们是怎样统计的?

在编写数据库文件guangzd.dbf 时,在例释字段,成语前面用"|"作为标志。但是成语的位置是随着该词的词义而出现,因此位置并不固定,用数据库来统计比较麻烦。因此需要把数据库文件转换为文本文件,在DOS状态下用DOS命令find.exe 来统计。
具体步骤如下:


1.把guangzd.dbf 拷贝成数据库文件 gzzd.dbf
2.删除 gzzd.dbf 文件中 order,py2等字段,只留下hz,yy,ty,py,jie,order六个字段.
总篇幅减少到702,606 字符.
3.拷贝 gzzd.dbf 成为文本文件 gzzd.txt,篇幅改为712,415字符.
4.用find 命令检索"|"
find "|" gzzd.txt 就可以查看"|"在文本文件gzzd.txt的出现情况.
5.用命令拷贝成为一个文件chengyu.txt
find "|" gzzd.txt >chengyu.txt
6.用 wps 调查出文本文件 chengyu.txt
chengyu.txt 有3118行,也就是3118条以上.
7.把文本文件chengyu.txt 拷贝到联网的计算机上,可以在网上发布.

chengyu.txt总共有3118行,现在把第一部分(24行)和最后部分(24行)为例发表如下:

第一部分

一 yad- 壹 yī 一个.一定.一起.一同|一心一意. 2
丁1 ding- 叮 dīng 天干第四位:|甲乙丙丁.丁(姓). 3
丁2 ding- 叮 dīng 人丁.添丁.园丁|人丁兴旺. 4
七 cad- 草一切 qī 七个.七十.七月|七上八下. 7
三 sɑm- 素担1切sān 三个.三十.三月|三三两两. 8
干1 gon- 肝 gān 干涉.干戈.干净.干粮|大动干戈. 9
干3 gon. 高按切 gàn 干部.干事.干练.干将|干劲十足. 11
上1 soeng` 尚 shàng 上下.上海|上下左右|七上八下. 15
上3 soeng" 商" shǎng 上声|平上去入. 17
才 coi* 材 cái 才能.人才.刚才.方才|才疏学浅. 18
下1 hɑ` 夏 xià 下来.下面.下边.底下|下不为例. 19
与1 yu" 雨 yǔ |与世长存(与:和).赠与(赠给). 25
万1 mɑn` 曼 wàn 一万.万一.千万|千军万马. 28
丰 fung- 风 fēng 丰富.丰收.丰足.丰碑|丰功伟绩. 30
井2 jing/ 整 jǐng 井然|井井有条|坐井观天. 32
开 hoi- 海- kāi 开放.开通|开花结果|开诚布公. 33
夫1 fu- 肤 fū 丈夫.夫人.匹夫.渔夫|夫唱妇随. 34
天 tin- 他烟切 tiān 天天.天下.天体|天罗地网. 37
无1 mou* 芜 wú 有无.无论|无家可归|一往无前. 40
专 jun- 之渊切 zhuān 专门.专家.专业|专心致志. 42
五 ng" 伍 wǔ 五个.五星红旗|五湖四海. 46
不 bad- 布乞切 bù 不是.不用.不但.不堪|不置可否. 49
友1 yao" 有 yǒu 朋友.战友.友好.友谊|酒肉朋友. 51
丑3 cao/ 差口切 chǒu 丑角.小丑|跳梁小丑. 55

最后部分

餐 cɑn- 草悭切 cān 聚餐.野餐.餐厅|风餐露宿. 8862
音 yam- 阴 yīn 音乐.声音.音信|音容笑貌. 8866
韵 wan`(/)运 yùn 押韵.韵母.音韵.韵脚|琴韵悠扬. 8867
韶 xiu* 诗摇切 sháo <书>美:韶光.韶华|仪容韶秀. 8868
髯 yim* 严 rán 两腮的胡子:美髯公|白发苍髯. 8873
髭 ji- 支 zī 嘴上边的胡子:|髭须皆白. 8876
鬓 ban. 摈 bìn 鬓角|两鬓斑白|耳鬓厮磨. 8881
麻1 mɑ* 么霞切 má 麻布.亚麻|心乱如麻. 8885
麻2 mɑ* 么霞切 má 麻烦.麻痹.麻木|麻木不仁. 8886
麽2 mo- 么 mó 幺麽(yāo-)(微小)|幺麽小丑. 8889
靡2 mei" 美 mǐ 顺风倒下:披靡|所向披靡. 8893
靡3 mei" 美 mǐ 靡靡(柔弱颓废):|靡靡之音. 8894
鹿 lug`(/)陆 lù 梅花鹿.鹿茸.鹿角|鹿死谁手. 8896
鏖1 ou- 奥- áo 鏖战(激烈地战斗)|赤壁鏖兵. 8904
麟 loen* 鳞 lín 麒麟:|凤毛麟角. 8907
黑 hag- 克 hēi 黑板.黑暗|黑白不分|白纸黑字. 8909
墨 mag` 默 mò 墨水.墨汁.笔墨|墨守成规. 8910
默 mag` 墨 mò 默写.沉默.默认|默默无闻. 8911
黔2 kim* 钳 qián 贵州的别称:|黔驴技穷.黔剧. 8913
黩 dug` 读 dú 黩武(滥用武力)|穷兵黩武. 8920
黯 am/ 暗/ àn |黯然无光|黯然泪下. 8924
鼠 xu/ 暑 shǔ 老鼠.鼠疫.鼠窜.鼠标|鼠目寸光. 8926
鼻 bei` 避 bí 鼻子.鼻孔.鼻涕.鼻祖|鼻青脸肿. 8933
鼾 hon* 寒 hān 鼾声.打鼾.鼾睡|鼾声如雷. 8935


该用户从未签到

5

主题

59

帖子

257

积分

排长

积分
257
 楼主| 发表于 2008-6-18 19:03:52 | 显示全部楼层

以上的办法是大概统计的办法,如果成语有重复,数字不一定准确。
要做到准确,比较笨的办法,就是把文本文件调入数据库文件,然后把不是四字成语的词语用手工的办法删除(大约3000条以上),只留下四字成语,然后用自编删除重复的程序删除重复的字,这样就可以成立一个成语的数据库。

我试了一下,用这样种手工删除非成语词语的办法建立起来的成语数据库,半个小时可以完成250条,按照这个速度计算,30小时可以完成3000条成语的数据库,每天工作8小时,大约需要3-4天的时间。

[此帖子已被 dengjun 在 2008-6-20 21:05:15 编辑过]

回复

使用道具 举报

该用户从未签到

5

主题

59

帖子

257

积分

排长

积分
257
 楼主| 发表于 2008-6-20 21:04:40 | 显示全部楼层
输入数据库以后,用手工删除词语,留下四字词语3669条,删除重复,《简明广州音字典》共有四字词组3234条。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|台山同学会 ( 粤ICP备17038726号-1 )

GMT+8, 2024-11-25 19:24 , Processed in 0.269052 second(s), 23 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表