|
本帖最后由 指标分析 于 2022-9-18 19:38 编辑
上市公司环保数据抓取程序
上市公司环保数据抓取程序
上市公司环保数据抓取程序
上市公司环保投入数据、上市公司环保支出数据、上市公司环保投资数据(1990-2021):点击这里
原始抓取程序非常庞大,且需要经过代码微调与扩充以符合全部抓取,最终还有人工审核与复查环节。以下仅附有部分环保数据的抓取程序。
/**
* 获取最新的公告信息
* @return
* @throws IOException
*/
public static List<String> stockNotice() throws IOException {
List<String> list = new ArrayList<String>();
String url = "http://www.sse.com.cn/disclosure/listedinfo/announcement/s_docdatesort_desc_2016openpdf.htm";
Document doc = Jsoup
.connect(url)
.userAgent("Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.15)")
.timeout(5000).get();
Elements dds = doc.getElementsByTag("dd");
Iterator<Element> iterator = dds.iterator();
while(iterator.hasNext()){
Element element = iterator.next();
String date = element.getElementsByTag("span").get(0).html();
String content = element.getElementsByTag("em").get(0).getElementsByTag("a").html();
list.add(date + " ## " + content);
}
return list;
}
/**
* 过滤信息
* @return
*/
public static String filterNotice(List<String> list){
StringBuffer str = new StringBuffer();
String[] filters = new String[]{
"环保投入","环保支出","环保投资","人力资本","技术投入","技术改造","政府罚款","环保税收"
};
for(String s : list){
boolean flag = false;
//是否包含某个关键字
for(String s0 : filters){
if(s.contains(s0)){
flag = true;
break;
}
}
if(flag){
str.append(s + "\n");
flag = false;
}
}
return str.toString();
}
|
|