通过新浪微博数据挖掘预测上证综指走向
【摘要】社交网络在最近几年发展迅速,国内的新浪微博覆盖面广,其内容产生便捷,传播迅速,提供了海量的直接或间接数据,故本文选取新浪微博作为数据来源,通过抽取新浪微博中的文本数据,结合上证综指的涨跌信息,发掘二者之问的相关性,并尝试建立预测模型,进而为股市投资者提供一定的参考信息。新浪微博文本数据的抓取,主要是通过自己编写网络爬虫来实现的。其中,重点分析并解决了用户登陆、高级搜索、单位时间内IP访问次数限制、文本析取、文本清洗、指标提取等问题。将整理后的新浪微博文本信息以及上证综指收盘价信息,结合人工神经网络算法,最终建立了新浪微博对上证综指收盘价的预测模型。本文主要创新点有:1.国内利用新浪微博数据预测上证综指走势的研究尚未发现,本文以此为出发点,利用新浪微博数据预测上证综指走势。2.新浪微博文本内容的抓取过程中,引入分布式系统的机制,解决了新浪微博在用户层次和IP层次上设置的反网络爬虫限制。3.本研究属于时间序列分析,文中创新的解决了新浪微博的搜索,在指定时间区间并指定微博相关关键词的条件下,成功抓取到微博内容。4.个性化的改进人工神经网络算法,加入可变数据集和自动修正特征,提高了模型预测精度。
【作者】张洪辰;
【导师】徐天晟;
【作者基本信息】首都经济贸易大学,产业经济学,2014,硕士
【关键词】上证综指预测;数据挖掘;新浪微博;网络爬虫;
【参考文献】
[1]唐正源,孙宏波.机械化生产是发展青海盐业的必由之路[J].柴达木开发研究.1991(04)
[2]李运宇.精细油水煤浆制备过程优化研究[D].中国矿业大学,矿业工程,2014,硕士.
[3]张亚湘.论《边境三部曲》对美国西部小说传统的继承与突破[D].南京师范大学,比较文学与世界文学,2012,硕士.
[4]周萌.SoC功能验证自动化系统的设计与实现[D].合肥工业大学,微电子学与固体电子学,2004,硕士.
[5]王敏,王炯,王凤彬,夏兴华.1-芘丁酸/石墨烯复合物的电化学性质及其在葡萄糖传感器上的应用(英文)[J].电化学,2012,05:450-456.
[6]玛依拉·牙森(MayilaYasen).受产出率影响的回收品拆卸计划建模与研究[D].清华大学,管理科学与工程,2013,硕士.
[7]谯倩.激励对中国农村小学生成绩的影响[D].山东大学,金融学,2013,硕士.
[8]韩磊.A软包装企业可持续发展战略研究[D].北京交通大学,工商管理(专业学位),2013,硕士.
[9]梁亚娇.谈叶广芩小说中的人文情怀[D].山西师范大学,中国现当代文学,2013,硕士.
[10]党朵.秦艽花抗乙酰胆碱酯酶活性成分及伊贝母提取物生物活性研究[D].兰州理工大学,食品科学,2013,硕士.
[11]张倩.不同年龄段牦牛胸腺的组织结构特征[D].甘肃农业大学,基础兽医学,2013,硕士.
[12]杜春园.车载稳定跟踪控制器硬件设计[D].南京理工大学,控制理论与控制工程,2013,硕士.
[13]林明达.基于ARIS方法的物料平衡系统分析与实现[D].华东理工大学,计算机技术(专业学位),2013,硕士.
[14]徐茜.RDX/氟聚物体系与PEG/硝酸酯体系分子动力学模拟[D].南京理工大学,材料学,2013,硕士.
[15]张从鹏罗学科李玏毛潭岳向泉.面向灌区调水工程的远程自动计量闸门设计[J].农业机械学报,2014,08:.
[16]吴伟.股指期权的波动率指标与市场收益间关系研究[D].江西财经大学,数量经济学,2013,硕士.
[17]何秀贵.沈北新区小城镇生态建设问题研究[D].中国农业科学院,农村与区域发展(专业学位),2012,硕士.
[18]胡永.低成本智能楼宇对讲系统的设计与实现[D].安徽大学,电路与系统,2013,硕士.
[19]汪丽君.舒城县城镇化进程中房地产业发展研究[D].安徽大学,行政管理,2013,硕士.
[20]王志东,王志强.知识累积在客户关系管理中的实现[J].大连海事大学学报,2001,04:104-106.
[21]青岛日报、青报网记者.两大产业平台同时揭牌高新区布局石墨烯平台[N].青岛日报,2014-10-23001.
[22]王红媛,刘明山,陈承宝.1200WS四辊可逆冷轧机电力传动系统的设计和调试[J].一重技术.1996(01)
[23]谷雪峰.关于对邓小平“韬光养晦、有所作为”战略思想的再研究[D].东北师范大学,马克思主义理论与思想政治教育,2003,硕士.
[24]边玉敬,陈淑芳,王丹妮.多路纳秒时差自动测量系统的研制[J].宇航计测技术.1991(05)
[25]何茂广.构建高校人事管理制度新模式[D].大连理工大学,工商管理,2003,硕士.
[26]高敏.碳会计信息披露与资本成本关系研究[D].北京交通大学,2014.
[27]王梦娇.新疆哈萨克族题材电影文本的诗学品质解读[D].新疆师范大学,中国现当代文学,2013,硕士.
[28]王玉杰.基于LabVIEW的瞬变电磁接收系统研究[D].吉林大学,电路与系统,2013,硕士.
[29]潘熙.移民背景下的四川宗祠建筑研究[D].西南交通大学,建筑历史与理论,2013,硕士.
[30]王一凡.我国第三产业波动态势及其与国民经济的联动关系研究[D].吉林大学,数量经济学,2013,硕士.
[31]弓守奇.北宋京东路经略研究[D].西北师范大学,中国古代史,2013,硕士.
[32]赵艳珍.基于WebGIS的城市空间基础信息发布技术研究[D].武汉大学,2003.
[33]李静.我国毒品犯罪综合治理研究[D].山东师范大学,公共管理(专业学位),2013,硕士.
[34]康学飞.波速的影响因素分析及对实际工程的影响研究[D].长安大学,市政工程,2014,硕士.
[35]杨林.智能化您的CRM[J].中国计算机用户,2003,49:42-43.
[36]展红全.RF-PCVD法制备纳米碳化钨微晶的研究[D].太原理工大学,化学工程与工艺,2004,硕士.
[37]刘晓灵.基于B/S连锁超市管理系统[D].沈阳建筑大学,计算机技术,2012,硕士.
[38]欧贝诺.小户型中多功能家具的运用与研究[D].长春工业大学,设计艺术学,2013,硕士.
[39]蔡再兴.中小企业融资博弈分析[D].首都经济贸易大学,数量经济学,2013,硕士.
[40]王珮珮.沙尘近地环境参数监测系统通信与数据处理平台设计[D].宁夏大学,电子与通信工程(专业学位),2014,硕士.
[41]倪廷峻弘.GPI锚定蛋白抑制剂的合成及其抗真菌活性研究[D].第二军医大学,药物化学,2013,硕士.
[42]冯娜.常东升与保定快跤文化的传播研究[D].河北大学,新闻学(专业学位),2014,硕士.
[43]薛天赐.保险代理人法律问题研究[D].大连海事大学,法律,2013,硕士.
[44]张建华.穴位埋线对乳腺增生大鼠模型血清E2、LH水平及乳腺Bcl-2表达的影响[D].大连医科大学,中西医结合临床,2012,硕士.
[45]刘凯.基于NTFS注册表取证工具研究与设计[D].广东工业大学,计算机应用技术,2013,硕士.
[46]杨燕.基于四维CT的食管癌靶区运动的初步研究[D].福建医科大学,肿瘤学(专业学位),2014,硕士.
[47]李慧.黑河流域水质评价及变化趋势分析[D].兰州理工大学,水利工程,2014,硕士.
[48]李晓楠.英汉诗歌中主位及主位推进模式的对比研究[D].山西师范大学,外国语言学及应用语言学,2014,硕士.
[49]张建明.基于数据仓库技术的电力营销决策支持系统研究[D].华北电力大学(北京),电力系统及其自动化,2003,硕士.
[50]李卫华.面向B2C的Web文档聚类系统研究[D].华中科技大学,2005.
- 下一篇: 我国创业板企业IPO抑价影响因素的实证分析
- 上一篇: 乌审旗工业经济发展中环境保护政府责任研究
相关推荐
- 中国国际航空公司国际竞争力的测度与分析
- 02月27日
- 小学教育电视媒体资源应用实效性问题研究
- 03月22日
- 特大型城市社会救助均等化研究
- 09月09日
- 高校人才培养政策对大学生自治能力培养的影响研究
- 10月25日