55
|
1 using Implab;
|
|
2 using System;
|
|
3 using System.Collections.Generic;
|
|
4 using System.Linq;
|
|
5 using System.Text;
|
|
6 using System.Threading.Tasks;
|
|
7
|
|
8 namespace Implab.Parsing {
|
|
9 /// <summary>
|
|
10 /// Базовый класс для разбора потока входных символов на токены.
|
|
11 /// </summary>
|
|
12 /// <remarks>
|
|
13 /// Сканнер имеет внутри буффер с симолами входного текста, по которому перемещаются два
|
|
14 /// указателя, начала и конца токена, при перемещении искользуется ДКА для определения
|
|
15 /// конца токена и допустимости текущего символа.
|
|
16 /// </remarks>
|
|
17 public class Scanner {
|
|
18 struct ScannerConfig {
|
|
19 public DFAStateDescriptior[] states;
|
|
20 public int[] alphabetMap;
|
|
21 }
|
|
22
|
|
23 Stack<ScannerConfig> m_defs = new Stack<ScannerConfig>();
|
|
24
|
|
25 DFAStateDescriptior[] m_states;
|
|
26 int[] m_alphabetMap;
|
|
27
|
|
28 protected DFAStateDescriptior m_currentState;
|
|
29 int m_previewCode;
|
|
30
|
|
31 protected int m_tokenLen = 0;
|
|
32 protected int m_tokenOffset;
|
|
33
|
|
34 protected char[] m_buffer;
|
|
35 protected int m_bufferSize;
|
|
36 protected int m_pointer;
|
|
37
|
|
38 public Scanner(CDFADefinition definition, string text) {
|
|
39 Safe.ArgumentNotNull(definition, "definition");
|
|
40 Safe.ArgumentNotEmpty(text, "text");
|
|
41
|
|
42 m_states = definition.States;
|
|
43 m_alphabetMap = definition.Alphabet.GetTranslationMap();
|
|
44
|
|
45 Feed(text.ToCharArray());
|
|
46 }
|
|
47
|
|
48 public Scanner(CDFADefinition definition) {
|
|
49 Safe.ArgumentNotNull(definition, "definition");
|
|
50
|
|
51 m_states = definition.States;
|
|
52 m_alphabetMap = definition.Alphabet.GetTranslationMap();
|
|
53
|
|
54 Feed(new char[0]);
|
|
55 }
|
|
56
|
|
57 /// <summary>
|
|
58 /// Заполняет входными данными буффер.
|
|
59 /// </summary>
|
|
60 /// <param name="data">Данные для обработки.</param>
|
|
61 /// <remarks>Копирование данных не происходит, переданный массив используется в
|
|
62 /// качестве входного буффера.</remarks>
|
|
63 public void Feed(char[] data) {
|
|
64 Safe.ArgumentNotNull(data, "data");
|
|
65
|
|
66 Feed(data, data.Length);
|
|
67 }
|
|
68
|
|
69 /// <summary>
|
|
70 /// Заполняет буффур чтения входными данными.
|
|
71 /// </summary>
|
|
72 /// <param name="data">Данные для обработки.</param>
|
|
73 /// <param name="length">Длина данных для обработки.</param>
|
|
74 /// <remarks>Копирование данных не происходит, переданный массив используется в
|
|
75 /// качестве входного буффера.</remarks>
|
|
76 public void Feed(char[] data, int length) {
|
|
77 Safe.ArgumentNotNull(data, "data");
|
|
78 Safe.ArgumentInRange(length, 0, data.Length, "length");
|
|
79
|
|
80 m_pointer = -1;
|
|
81 m_buffer = data;
|
|
82 m_bufferSize = length;
|
|
83 Shift();
|
|
84 }
|
|
85
|
|
86 /// <summary>
|
|
87 /// Получает текущий токен в виде строки.
|
|
88 /// </summary>
|
|
89 /// <returns></returns>
|
|
90 public string GetTokenValue() {
|
|
91 return new String(m_buffer, m_tokenOffset, m_tokenLen);
|
|
92 }
|
|
93
|
|
94 /// <summary>
|
|
95 /// Метки текущего токена, которые были назначены в регулярном выражении.
|
|
96 /// </summary>
|
|
97 public int[] TokenTags {
|
|
98 get {
|
|
99 return m_currentState.tag;
|
|
100 }
|
|
101 }
|
|
102
|
|
103 /// <summary>
|
57
|
104 /// Признак конца данных
|
|
105 /// </summary>
|
|
106 public bool EOF {
|
|
107 get {
|
|
108 return m_pointer >= m_bufferSize;
|
|
109 }
|
|
110 }
|
|
111
|
|
112 /// <summary>
|
55
|
113 /// Читает следующий токен, при этом <see cref="m_tokenOffset"/> указывает на начало токена,
|
|
114 /// <see cref="m_tokenLen"/> на длину токена, <see cref="m_buffer"/> - массив символов, в
|
|
115 /// котором находится токен.
|
|
116 /// </summary>
|
|
117 /// <returns><c>false</c> - достигнут конец данных, токен не прочитан.</returns>
|
|
118 protected bool ReadTokenInternal() {
|
|
119 if (m_pointer >= m_bufferSize)
|
|
120 return false;
|
|
121
|
|
122 m_currentState = m_states[CDFADefinition.INITIAL_STATE];
|
|
123 m_tokenLen = 0;
|
|
124 m_tokenOffset = m_pointer;
|
|
125 int nextState = CDFADefinition.UNREACHEBLE_STATE;
|
|
126 do {
|
|
127 nextState = m_currentState.transitions[m_previewCode];
|
|
128 if (nextState == CDFADefinition.UNREACHEBLE_STATE) {
|
|
129 if (m_currentState.final)
|
|
130 return true;
|
|
131 else
|
|
132 throw new ParserException(
|
|
133 String.Format(
|
|
134 "Unexpected symbol '{0}', at pos {1}",
|
|
135 m_buffer[m_pointer],
|
|
136 Position
|
|
137 )
|
|
138 );
|
|
139 } else {
|
|
140 m_currentState = m_states[nextState];
|
|
141 m_tokenLen++;
|
|
142 }
|
|
143
|
|
144 } while (Shift());
|
|
145
|
|
146 // END OF DATA
|
|
147 if (!m_currentState.final)
|
|
148 throw new ParserException("Unexpected end of data");
|
|
149
|
|
150 return true;
|
|
151 }
|
|
152
|
|
153
|
|
154 bool Shift() {
|
|
155 m_pointer++;
|
|
156
|
|
157 if (m_pointer >= m_bufferSize) {
|
|
158 return ReadNextChunk();
|
|
159 }
|
|
160
|
|
161 m_previewCode = m_alphabetMap[m_buffer[m_pointer]];
|
|
162
|
|
163 return true;
|
|
164 }
|
|
165
|
|
166 /// <summary>
|
|
167 /// Вызывается по достижению конца входного буффера для получения
|
|
168 /// новых данных.
|
|
169 /// </summary>
|
|
170 /// <returns><c>true</c> - новые двнные получены, можно продолжать обработку.</returns>
|
|
171 protected virtual bool ReadNextChunk() {
|
|
172 return false;
|
|
173 }
|
|
174
|
|
175 /// <summary>
|
|
176 /// Позиция сканнера во входном буфере
|
|
177 /// </summary>
|
|
178 public int Position {
|
|
179 get {
|
|
180 return m_pointer + 1;
|
|
181 }
|
|
182 }
|
|
183
|
|
184 /// <summary>
|
|
185 /// Преключает внутренний ДКА на указанный, позволяет реализовать подобие захватывающей
|
|
186 /// группировки.
|
|
187 /// </summary>
|
|
188 /// <param name="states">Таблица состояний нового ДКА</param>
|
|
189 /// <param name="alphabet">Таблица входных символов для нового ДКА</param>
|
|
190 protected void Switch(DFAStateDescriptior[] states, int[] alphabet) {
|
|
191 Safe.ArgumentNotNull(states, "dfa");
|
|
192
|
|
193 m_defs.Push(new ScannerConfig {
|
|
194 states = m_states,
|
|
195 alphabetMap = m_alphabetMap
|
|
196 });
|
|
197
|
|
198 m_states = states;
|
|
199 m_alphabetMap = alphabet;
|
|
200
|
|
201 m_previewCode = m_alphabetMap[m_buffer[m_pointer]];
|
|
202 }
|
|
203
|
|
204 /// <summary>
|
|
205 /// Восстанавливает предыдущей ДКА сканнера.
|
|
206 /// </summary>
|
|
207 protected void Restore() {
|
|
208 if (m_defs.Count == 0)
|
|
209 throw new InvalidOperationException();
|
|
210 var prev = m_defs.Pop();
|
|
211 m_states = prev.states;
|
|
212 m_alphabetMap = prev.alphabetMap;
|
|
213 m_previewCode = m_alphabetMap[m_buffer[m_pointer]];
|
|
214 }
|
|
215 }
|
|
216 }
|