|
#1
|
|||
|
|||
Пишу регулярку чтобы почекать колличество страниц в выдаче Гугла. Кто не знает там есть два варианта текста "n-ная страница of искомая цифра" и "n-ная страница of about искомая цифра". Написал такую регулярку:
Цитата:
Цитата:
|
|
#2
|
|||
|
|||
Разобрался сам. Значёк "?:" в питоне работает как и в пыхе. Я как то не правильно делал что у меня всё повисало не из за регулярки с этим значком, а по какой то другой причине как переписал по нововой всё заработало.
Если у кого есть регулярка попроще этой для дёрганья количества страниц по запросу в Google Цитата:
Последний раз редактировалось Cabal; 21.02.2010 в 20:47. |
|
#3
|
|||
|
|||
Код:
class Google(Stats):
backlinks_opts = dict(
url='http://www.google.com/search?ie=UTF-8&q='+_quote('link:')+'%s',
xpath='//body',
re=re.compile(r'\d+\s+.\s+\d+[^\d]+(?P<match>[\d\s\xc2\xa0]+)', re.I),
convert=lambda s: int(_num_only.sub('', s) or 0),
)
indexed_opts = dict(
url='http://www.google.com/search?filter=0&ie=UTF-8&q='+_quote('site:')+'%s',
xpath='//a[contains(@href, "swrnum")]/@href',
re=re.compile(r'swrnum=(?P<match>\d+)', re.I),
convert=lambda s: int(_num_only.sub('', s) or 0),
)
ищу xpath, а затем регуляркой обрабатываю |
|
#4
|
|||
|
|||
М, мне бы тож кто подсказал. В квадратных скобках можно указать элементы которые не должны встречаться в результате:
[^>] # всё подходит, кроме символа > Как указать не один символ, а определенное сочетание символов? Мне нужно выбрать ссылки <a href, но чтобы внутри них не было тега img. [^(img)] - такой вариант не подходит оказывается. |
|
#5
|
|||
|
|||
Цитата:
|






Линейный вид
